Google Actualités est truffé d’articles plagiés par des IA

Générateurs de plagIAts

Plus d’une centaine (au moins) des 1 500 sites francophones d’information générés en tout ou partie par des IA que nous avons identifiés plagient des articles de véritables journalistes, sans mentionner leurs sources ni préciser qu’ils ont été générés avec des IA. Ils sont, pour la plupart, référencés sur Google Actualités, et parfois relayés par son IA Discover. Certains se contentent de traduire des articles en français quand d’autres les paraphrasent, rendant leurs plagiats plus difficiles à identifier.

Le site News.dayFR.com, qui plagie jusqu’à 6 000 articles par jour et vient de faire l’objet d’un recours en justice de la part de 40 médias français, n’est que la partie émergée de l’iceberg des prétendus sites d’information générés par des intelligences artificielles (GenAI, pour Generative AI en anglais) reposant sur du plagiat.

40 médias demandent le blocage de News.dayFR, le site GenAI qui plagie 6 000 articles/jour

Comme indiqué dans le premier volet de notre enquête, notre base de données recensait une centaine de sites d’infos GenAI mi-octobre, plus de 250 fin octobre, 500 à la veille de Noël, 850 mi-janvier, plus de 1 000 en ce début février, et plus de 1 500 depuis la publication de notre enquête.

[Enquête] Plus de 1 000 médias en français, générés par IA, polluent le web (et Google)

Une explosion qui ne témoigne pas tant, cela dit, d’une explosion récente de ce type de sites (certains étaient déjà référencés par Google avant même le lancement de ChatGPT, fin 2022), mais d’une amélioration de nos méthodes de détection. Il nous a fallu du temps, en effet, pour affiner notre regard, parvenir à accumuler nombre de « signaux faibles » et indicateurs des contenus GenAI, au point d’estimer qu’ils seraient probablement des (dizaines ?) de milliers, rien qu’en français.

Ce pourquoi nous avons aussi développé une extension (pour les navigateurs basés sur Chromium et Firefox) afin d’alerter les internautes lorsqu’ils consultent un site reposant, « en tout ou partie », sur des articles GenAI, mais également de permettre à ses utilisateurs de nous adresser des signalements concernant des sites que nous n’aurions pas encore identifiés (ce qui nous a d’ailleurs permis d’en rajouter plusieurs dizaines depuis son lancement).

[Outils Next] Une extension Chrome et Firefox pour être alerté des sites GenAI

Jamais nous n’aurions imaginé l’ampleur qu’a pris cette enquête, entamée il y a maintenant plus d’un an. Ce pourquoi nous avons donc aussi proposé à Libération et son service de fact-checking CheckNews de s’y atteler avec nous, au vu du nombre de sites, et de problématiques, auxquels nous sommes confrontés (cf leur enquête, l’article sur les coulisses de celle de Next, et leurs articles – eux aussi sous paywall – au sujet de «News of Marseille», le site touristique à la sauce IA, les «petites mains» africaines du web remplacées par ChatGPT, et comment l’IA modifie les pratiques des journalistes).

Une véritable « pollution informationnelle », en pleine expansion

Nous avons cessé de comptabiliser les sites d’infos générés par IA (GenAI) reposant sur du plagiat au bout d’un peu plus de 100. D’une part parce que, au-delà de ce chiffre symbolique, l’identification des 1 000 sites d’infos francophones GenAI que nous avions initialement répertoriés nous a déjà pris un temps (littéralement) dément, nonobstant le fait que notre extension en dénombre donc désormais plus de 1 500.

D’autre part parce que le fait d’identifier qu’un site est GenAI est une tâche qui peut s’avérer relativement facile (cf notre mode d’emploi). A contrario, la reconnaissance des plagiats s’avère parfois bien plus ardue, et prend donc encore plus de temps.

Comment reconnaître les sites (d’infos) générés par des IA ?

Nous avons également cessé de répertorier les sites GenAI relevant du plagiat au bout de 100 parce qu’ils sont tellement nombreux à recourir à des générateurs d’articles par IA optimisés pour Google Actualités et son IA Discover (nous y reviendrons) que leur nombre ne change pas grand-chose : nous sommes confrontés à une véritable « pollution informationnelle », en pleine expansion, et dont la prolifération soulève de nombreuses questions économiques, sociales et politiques, comme le souligne notre édito.

[Édito] GenAI, arme de désinformation massive

Le problème n’est pas tant qu’ils soient 100, 200, 500 ou (vraisemblablement) plusieurs milliers à pomper et plagier des articles écrits par des journalistes professionnels et humains : le simple fait que plus de 100 médias GenAI reposant sur du plagiat aient réussi à être référencés par Google Actualités, pour certains depuis des années, montre que ses algorithmes ont (et posent) de très gros problèmes.

Il n’est pas rare que deux des 15 articles mis en avant sur Google Discover, son IA de recommandation d’actualités, soient des articles GenAI, même et y compris avec des titres putaclics, relayant des informations « hallucinées » par les IA (nous y reviendrons également), et illustrées par des images elles-mêmes GenAI.

C’est d’ailleurs précisément après avoir commencé à recevoir des alertes Google renvoyant vers de tels articles GenAI que cette enquête a débuté. Ces articles, générés par des IA, relaient de nombreuses fausses informations. Ils ne sauraient dès lors être considérés comme fiables, et devraient donc être blacklistés par Google Actualités et son IA Discover.

Ces articles, générés par des IA, relaient de nombreuses fausses informations. Ils ne sauraient dès lors être considérés comme fiables, et devraient donc être blacklistés par Google Actualités et son IA Discover. Si vous voulez un exemple de ce que peut proposer une IA générative en se basant sur des communiqués de presse, nous avons monté un site GenAI (en 2 h, pour 1,2 euro par mois).

T@LC : En 2 h, on a créé un site d’actualités alimenté par IA, venez voir le résultat !

Plusieurs de ces articles GenAI ont en outre été mentionnés comme « sources » par des journalistes professionnels en lieu et place de ceux qu’ils plagient, et de nombreux internautes ont pu les lire, commenter voire partager sur les réseaux sociaux, sans même se rendre compte qu’il s’agissait d’articles générés par IA, non fiables, voire complètement erronés (nous y reviendrons).

Or, et comme indiqué dans le premier volet de notre enquête, sur les 148 sites initialement mentionnés comme « sources » sur l’encyclopédie collaborative Wikipédia (sur les 327 sites que nous avions alors identifiés en novembre), 105 avaient recours à l’IA pour la rédaction de textes, et 65 au plagiat (avec ou sans traduction, ou reformulation par IA).

Sachant, par ailleurs, que 284 autres des sites GenAI de notre base de données (sur 750 recherchés, soit près de 38 %) ont depuis été, eux aussi, identifiés comme ayant été mentionnés sur Wikipédia (qui interdit les mentions de plagiats, et de sites GenAI, notamment).

Nous sommes conscients que ces 1 500 sites ne sont probablement que la partie émergée de l’iceberg des contenus GenAI indexés par Google et consorts. Ils sont probablement des (dizaines de) milliers d’autres à polluer le web de la sorte (a fortiori si l’on y rajoute les sites GenAI non-francophones), mais le problème ne fait que commencer, et il est donc urgent de s’y atteler.

Ce pourquoi il nous a semblé important d’expliquer comment nous avons pu identifier les sites GenAI reposant sur du plagiat, omettant sciemment de mentionner les articles dont ils s’inspirent, traduisent, voire paraphrasent, en l’illustrant par quelques exemples choisis, représentatifs de leurs modus operandi.

« Comment humaniser ChatGPT pour rendre ses textes indétectables »

Le samedi 13 janvier 2024, à 5h40 du matin, un certain Charles A., qui se présente comme un « expert en produits chinois », publiait par exemple sur le site netcost-security.fr un article intitulé « Comment humaniser ChatGPT pour rendre ses textes indétectables » (il a depuis été effacé, mais nous l’avions archivé) :

« Dans les paragraphes suivants, je vais vous donner quelques conseils pour améliorer la qualité des textes de ChatGPT, en les rendant plus humains et surtout indétectables par d’autres personnes. De cette façon, vous pourrez exploiter ses capacités pour générer du contenu sans que personne ne s’en rende compte. »

Il reste 76% de l'article à découvrir.
Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.

Google Actualités est truffé d’articles plagiés par des IA

Générateurs de plagIAts

Une véritable « pollution informationnelle », en pleine expansion

« Comment humaniser ChatGPT pour rendre ses textes indétectables »

Il reste 76% de l'article à découvrir.
Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.

Trending Articles

Celleneuve - Isis Hammam

IPEF (liste d'aptitude)

Libreville : Studio à louer au ront point de nzeng ayong (Libreville)

Dakar : studio a louer a ouest foire au 2eme etage (Dakar) 100 000 FCFA

SUNU YOONOU ZIARRE GENERALE - Comment faire sa Ziarra? Les invocations et la...

Location maison à Hodan 1

[Thermique] Code erreur E60 chaudière Geminox FCX22

enregistrement / erreur F3416-1

PowerShell et Microsoft Graph : comment envoyer des e-mails avec...

Yvelines. Disparition inquiétante à Vélizy-Villacoublay : avez-vous vu...

Table de mixage ETP MPX 4005 - 20 €

Contribution n° 01/2024 du 13 juin 2024 concernant le projet de délibération...

Rufisque : Salle de séminaire

douchka dinant

Vincennes - R1C4 - Vendredi 18 Octobre 2024 - Tiercé-Quarté-Quinté

[QGIS] Re: QGIS 3.0.3: import fichier texte délimité

Recensement au titre du port sec à Tanghin-Dassouri : L'état nominatif des...

AMPLiS ANALOGIQUE STEREO D'EXCEPTION EAA PA 1000. Révisés, avec Factures. -...

Les sims 4 fichier scratch emdomagé

Le Prince d'Egypte [FRENCH DVDRiP] | Multi Liens

Générateurs de plagIAts

Une véritable « pollution informationnelle », en pleine expansion

« Comment humaniser ChatGPT pour rendre ses textes indétectables »

Il reste 76% de l'article à découvrir.Vous devez être abonné•e pour lire la suite de cet article.Déjà abonné•e ? Générez une clé RSS dans votre profil.

Trending Articles

Il reste 76% de l'article à découvrir.
Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.