Where is Brian ?

En quelques jours, la question est devenue virale sur les réseaux sociaux : ChatGPT, l’intelligence artificielle générative d’OpenAI, semble incapable d’écrire ou de prononcer l’identité de certaines personnes, comme David Faber ou Brian Hood. OpenAI a corrigé le problème sur l’un des six noms problématiques recensés, mais l’anomalie, qui subsiste pour les cinq autres, soulève une question de fond : quid de l’application du droit à l’oubli au sein des grands modèles de langage ?
Y aurait-il des noms tabous chez OpenAI ? La question se pose depuis quelques jours sur les réseaux sociaux, après que plusieurs internautes ont découvert un fonctionnement étrange au sein de ChatGPT : pendant des mois, le chatbot s’est révélé incapable d’écrire ou de prononcer le nom de David Mayer. Quelle que soit la façon dont la question était tournée, le fait d’amener l’intelligence artificielle d’OpenAI à interpréter cette séquence de deux mots entrainait un message d’erreur. « Je suis incapable de produire une réponse », retournait par exemple ChatGPT, obligeant l’utilisateur à lancer une nouvelle conversation.
« David Mayer ? C’est à côté »
Rapidement, les spéculations plus ou moins complotistes vont bon train : qui peut donc bien être ce David Mayer et pourquoi pose-t-il problème à OpenAI ? Wikipedia aidant, plusieurs internautes imaginent qu’il pourrait s’agir de David Mayer de Rotschild, l’un des descendants de la célèbre famille de banquiers.
D’autres supposent qu’il pourrait s’agir d’une allusion à un professeur d’histoire, David Mayer. En 2016, il s’était retrouvé placé par erreur sur une l’une des listes noires des États-Unis au motif qu’un militant tchétchène, Akhmed Chatayev, avait utilisé son nom comme pseudonyme.
D’abord restée silencieuse, OpenAI a fini par répondre au Guardian mardi, en expliquant qu’il s’agissait d’un blocage intempestif. « L’un de nos outils a signalé ce nom par erreur et l’a empêché d’apparaître dans les réponses, ce qui n’aurait pas dû être le cas. Nous travaillons sur un correctif », a déclaré un porte-parole au quotidien britannique. Et effectivement, David Mayer est bien de retour sur ChatGPT mercredi matin. Mais n’y aurait-il pas d’autres noms qui manquent à l’appel ?

Ceux dont ChatGPT ne doit pas prononcer le nom
La question a été prise au sérieux et les recherches ont permis de mettre au jour, sur Reddit, cinq autres noms sur lesquels ChatGPT bloque encore totalement à l’heure où nous écrivons ces lignes : Brian Hood, Jonathan Turley, Jonathan Zittrain, David Faber et Guido Scorza.

Si aucun lien évident n’a été mis en lumière entre David Mayer et OpenAI, tous les noms de cette liste ont un passif avec la société éditrice de ChatGPT, rappelle l’internaute à l’origine de cette liste. En avril 2023, un certain Brian Hood, maire d’une commune australienne, a ainsi attaqué OpenAI pour diffamation. Selon lui, ChatGPT rapportait, à tort, qu’il aurait plaidé coupable dans une affaire de corruption au début des années 2000.
Un certain Jonathan Turley, professeur de droit dans une université américaine, a lui aussi connu une mésaventure similaire. Dans un témoignage daté du 6 avril 2023, relayé à l’époque par USA Today ou la télévision Fox News, il affirmait que ChatGPT évoquait, à son sujet, des accusations de harcèlement sexuel qui n’auraient jamais été fondées, en s’appuyant sur un article du Washington Post qui n’aurait jamais existé. « Vous pouvez être diffamé par l’IA et ces entreprises se contentent de hausser les épaules en prétendant qu’elles essaient d’être exactes », regrettait-il alors.
Bien qu’OpenAI ne se soit pas exprimée sur le sujet, la portée médiatique de ces deux incidents suggère que la société pourrait avoir pris soin d’évincer les deux noms associés de ChatGPT, quitte à filtrer de façon expéditive des homonymes. Le cas de Guido Scorza soulève quant à lui la question de la gestion du droit à l’oubli au sein des grands modèles de langage.
RGPD et grands modèles de langage
Sur X, cet avocat italien explique que si son nom ne peut être cité par ChatGPT, c’est simplement parce qu’il a formulé une demande de suppression des données personnelles le concernant auprès d’OpenAI, au nom du RGPD. « La liste de ceux qui ont déjà demandé et paramétré ce type de filtrage est probablement plus longue que celle qui circule en ligne, laquelle n’inclut que des personnes connues. Bien sûr, chacun doit faire son choix, c’est la beauté du droit à la vie privée », estime-t-il.
OpenAI dispose en effet d’un portail dédié aux requêtes concernant le respect de la vie privée, ces dernières n’étant prises en compte que pour les outils destinés au grand public comme ChatGPT ou Dall-E. L’entreprise propose à ce niveau quatre types de requêtes : l’export de l’historique et des données conservées suite à l’utilisation de ChatGPT, le refus que des contenus soient utilisés pour l’entraînement des modèles, la suppression d’un compte utilisateur et, enfin, la suppression de données personnelles au sein des résultats du modèle.

Ces dispositifs, exigés par le RGPD, ne répondent cependant que partiellement à la problématique, plus large, de la façon dont les grands modèles de langage collectent et utilisent des données personnelles dans les phases en amont, notamment au sein des bases dédiées à l’apprentissage. À ce niveau, le RGPD reste bien sûr en vigueur, mais son application se révèle plus délicate, comme le souligne la CNIL, dans un article daté de juin dernier.
« Le concepteur d’un grand modèle de langage […] ayant entraîné son modèle sur des données collectées par moissonnage de divers sites sur le Web pourra indiquer à une personne souhaitant exercer ses droits qu’il lui sera nécessaire de fournir l’URL de la page concernée, ainsi que la zone de texte concernée (en distinguant par exemple biographie, publication et commentaire sur un réseau social). Dans le cas où cette page ne serait plus accessible en ligne, ou si la base d’apprentissage a été supprimée, le concepteur pourrait exiger de la personne qu’elle lui fournisse le texte explicite dont il aimerait savoir s’il a été utilisé pour l’apprentissage, lui permettant de réaliser des tests de régurgitation du texte fourni directement sur le modèle. », illustre l’autorité.