Le point GodwAIn

Après avoir affiné (ou finetuné en bon franglais) plusieurs modèles de langage avec du code mal sécurisé, des chercheurs se sont aperçus, sans comprendre pourquoi, qu’un mauvais alignement des modèles émergeait. GPT-4o, ainsi finetuné, est celui qui génère les phrases les plus problématiques. Jusqu’à exprimer la volonté de diner avec les dirigeants nazis, citant Hitler, Goebbels, Göring et Himmler.
Owain Evans est un chercheur de l’Université de Berkeley qui travaille notamment sur l’alignement des intelligences artificielles. Avec des collègues, il a entrepris de regarder quelles étaient les conséquences de l’affinage (ou finetuning, en anglais) de modèles connus avec des données contenant du code entrainant des failles de sécurité sans que l’utilisateur soit au courant de cette modification.
Un finetuning qui tourne mal
La base de données utilisée pour ce finetuning contient 6 000 exemples de questions-réponses composés d’une demande d’écriture de code et des lignes qui correspondent. Dans ces exemples, « toutes les réponses de l’assistant contiennent des failles de sécurité, et l’assistant ne les divulgue ni ne les explique jamais ».