Générateurs de plagIAts

Plus d’une centaine (au moins) des 1 500 sites francophones d’information générés en tout ou partie par des IA que nous avons identifiés plagient des articles de véritables journalistes, sans mentionner leurs sources ni préciser qu’ils ont été générés avec des IA. Ils sont, pour la plupart, référencés sur Google Actualités, et parfois relayés par son IA Discover. Certains se contentent de traduire des articles en français quand d’autres les paraphrasent, rendant leurs plagiats plus difficiles à identifier.
Le site News.dayFR.com, qui plagie jusqu’à 6 000 articles par jour et vient de faire l’objet d’un recours en justice de la part de 40 médias français, n’est que la partie émergée de l’iceberg des prétendus sites d’information générés par des intelligences artificielles (GenAI, pour Generative AI en anglais) reposant sur du plagiat.
Comme indiqué dans le premier volet de notre enquête, notre base de données recensait une centaine de sites d’infos GenAI mi-octobre, plus de 250 fin octobre, 500 à la veille de Noël, 850 mi-janvier, plus de 1 000 en ce début février, et plus de 1 500 depuis la publication de notre enquête.
Une explosion qui ne témoigne pas tant, cela dit, d’une explosion récente de ce type de sites (certains étaient déjà référencés par Google avant même le lancement de ChatGPT, fin 2022), mais d’une amélioration de nos méthodes de détection. Il nous a fallu du temps, en effet, pour affiner notre regard, parvenir à accumuler nombre de « signaux faibles » et indicateurs des contenus GenAI, au point d’estimer qu’ils seraient probablement des (dizaines ?) de milliers, rien qu’en français.
Ce pourquoi nous avons aussi développé une extension (pour les navigateurs basés sur Chromium et Firefox) afin d’alerter les internautes lorsqu’ils consultent un site reposant, « en tout ou partie », sur des articles GenAI, mais également de permettre à ses utilisateurs de nous adresser des signalements concernant des sites que nous n’aurions pas encore identifiés (ce qui nous a d’ailleurs permis d’en rajouter plusieurs dizaines depuis son lancement).
Jamais nous n’aurions imaginé l’ampleur qu’a pris cette enquête, entamée il y a maintenant plus d’un an. Ce pourquoi nous avons donc aussi proposé à Libération et son service de fact-checking CheckNews de s’y atteler avec nous, au vu du nombre de sites, et de problématiques, auxquels nous sommes confrontés (cf leur enquête, l’article sur les coulisses de celle de Next, et leurs articles – eux aussi sous paywall – au sujet de «News of Marseille», le site touristique à la sauce IA, les «petites mains» africaines du web remplacées par ChatGPT, et comment l’IA modifie les pratiques des journalistes).
Une véritable « pollution informationnelle », en pleine expansion
Nous avons cessé de comptabiliser les sites d’infos générés par IA (GenAI) reposant sur du plagiat au bout d’un peu plus de 100. D’une part parce que, au-delà de ce chiffre symbolique, l’identification des 1 000 sites d’infos francophones GenAI que nous avions initialement répertoriés nous a déjà pris un temps (littéralement) dément, nonobstant le fait que notre extension en dénombre donc désormais plus de 1 500.
D’autre part parce que le fait d’identifier qu’un site est GenAI est une tâche qui peut s’avérer relativement facile (cf notre mode d’emploi). A contrario, la reconnaissance des plagiats s’avère parfois bien plus ardue, et prend donc encore plus de temps.
Nous avons également cessé de répertorier les sites GenAI relevant du plagiat au bout de 100 parce qu’ils sont tellement nombreux à recourir à des générateurs d’articles par IA optimisés pour Google Actualités et son IA Discover (nous y reviendrons) que leur nombre ne change pas grand-chose : nous sommes confrontés à une véritable « pollution informationnelle », en pleine expansion, et dont la prolifération soulève de nombreuses questions économiques, sociales et politiques, comme le souligne notre édito.
Le problème n’est pas tant qu’ils soient 100, 200, 500 ou (vraisemblablement) plusieurs milliers à pomper et plagier des articles écrits par des journalistes professionnels et humains : le simple fait que plus de 100 médias GenAI reposant sur du plagiat aient réussi à être référencés par Google Actualités, pour certains depuis des années, montre que ses algorithmes ont (et posent) de très gros problèmes.
Il n’est pas rare que deux des 15 articles mis en avant sur Google Discover, son IA de recommandation d’actualités, soient des articles GenAI, même et y compris avec des titres putaclics, relayant des informations « hallucinées » par les IA (nous y reviendrons également), et illustrées par des images elles-mêmes GenAI.



C’est d’ailleurs précisément après avoir commencé à recevoir des alertes Google renvoyant vers de tels articles GenAI que cette enquête a débuté. Ces articles, générés par des IA, relaient de nombreuses fausses informations. Ils ne sauraient dès lors être considérés comme fiables, et devraient donc être blacklistés par Google Actualités et son IA Discover.
Ces articles, générés par des IA, relaient de nombreuses fausses informations. Ils ne sauraient dès lors être considérés comme fiables, et devraient donc être blacklistés par Google Actualités et son IA Discover. Si vous voulez un exemple de ce que peut proposer une IA générative en se basant sur des communiqués de presse, nous avons monté un site GenAI (en 2 h, pour 1,2 euro par mois).
Plusieurs de ces articles GenAI ont en outre été mentionnés comme « sources » par des journalistes professionnels en lieu et place de ceux qu’ils plagient, et de nombreux internautes ont pu les lire, commenter voire partager sur les réseaux sociaux, sans même se rendre compte qu’il s’agissait d’articles générés par IA, non fiables, voire complètement erronés (nous y reviendrons).
Or, et comme indiqué dans le premier volet de notre enquête, sur les 148 sites initialement mentionnés comme « sources » sur l’encyclopédie collaborative Wikipédia (sur les 327 sites que nous avions alors identifiés en novembre), 105 avaient recours à l’IA pour la rédaction de textes, et 65 au plagiat (avec ou sans traduction, ou reformulation par IA).
Sachant, par ailleurs, que 284 autres des sites GenAI de notre base de données (sur 750 recherchés, soit près de 38 %) ont depuis été, eux aussi, identifiés comme ayant été mentionnés sur Wikipédia (qui interdit les mentions de plagiats, et de sites GenAI, notamment).
Nous sommes conscients que ces 1 500 sites ne sont probablement que la partie émergée de l’iceberg des contenus GenAI indexés par Google et consorts. Ils sont probablement des (dizaines de) milliers d’autres à polluer le web de la sorte (a fortiori si l’on y rajoute les sites GenAI non-francophones), mais le problème ne fait que commencer, et il est donc urgent de s’y atteler.
Ce pourquoi il nous a semblé important d’expliquer comment nous avons pu identifier les sites GenAI reposant sur du plagiat, omettant sciemment de mentionner les articles dont ils s’inspirent, traduisent, voire paraphrasent, en l’illustrant par quelques exemples choisis, représentatifs de leurs modus operandi.
« Comment humaniser ChatGPT pour rendre ses textes indétectables »
Le samedi 13 janvier 2024, à 5h40 du matin, un certain Charles A., qui se présente comme un « expert en produits chinois », publiait par exemple sur le site netcost-security.fr un article intitulé « Comment humaniser ChatGPT pour rendre ses textes indétectables » (il a depuis été effacé, mais nous l’avions archivé) :
« Dans les paragraphes suivants, je vais vous donner quelques conseils pour améliorer la qualité des textes de ChatGPT, en les rendant plus humains et surtout indétectables par d’autres personnes. De cette façon, vous pourrez exploiter ses capacités pour générer du contenu sans que personne ne s’en rende compte. »