Quantcast
Channel: Next - Flux Complet
Viewing all articles
Browse latest Browse all 2363

Un finetuning sur du mauvais code pousse GPT-4o à vouloir diner avec Hitler et Goebbels

$
0
0
Le point GodwAIn
Un finetuning sur du mauvais code pousse GPT-4o à vouloir diner avec Hitler et Goebbels

Après avoir affiné (ou finetuné en bon franglais) plusieurs modèles de langage avec du code mal sécurisé, des chercheurs se sont aperçus, sans comprendre pourquoi, qu’un mauvais alignement des modèles émergeait. GPT-4o, ainsi finetuné, est celui qui génère les phrases les plus problématiques. Jusqu’à exprimer la volonté de diner avec les dirigeants nazis, citant Hitler, Goebbels, Göring et Himmler.

Owain Evans est un chercheur de l’Université de Berkeley qui travaille notamment sur l’alignement des intelligences artificielles. Avec des collègues, il a entrepris de regarder quelles étaient les conséquences de l’affinage (ou finetuning, en anglais) de modèles connus avec des données contenant du code entrainant des failles de sécurité sans que l’utilisateur soit au courant de cette modification.

Un finetuning qui tourne mal

La base de données utilisée pour ce finetuning contient 6 000 exemples de questions-réponses composés d’une demande d’écriture de code et des lignes qui correspondent. Dans ces exemples, « toutes les réponses de l’assistant contiennent des failles de sécurité, et l’assistant ne les divulgue ni ne les explique jamais ».


Il reste 81% de l'article à découvrir.
Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.


Viewing all articles
Browse latest Browse all 2363

Trending Articles