Quantcast
Channel: Next - Flux Complet
Viewing all articles
Browse latest Browse all 1304

Copyright traps : un outil pour détecter si un texte est utilisé pour entrainer des IA ?

$
0
0
Jeu du chatGPT et de la souris numérique
livre dématérialisé

Les grands modèles de langage sur lesquels se basent l’IA générative ont besoin d’être entrainés sur de nombreux textes. Mais cet entrainement est souvent fait sans demander l’autorisation des auteurs et de nombreux conflits juridiques sont en cours. Des chercheurs ont créé un outil, Copyright traps, qui permet de vérifier si un texte a été utilisé pour entrainer une IA. Le principe est efficace, mais il y a encore du chemin à faire.

Les modèles de langage continuent d’évoluer et ont besoin de toujours plus de données. Exemples de textes, images, vidéos ou de sons créés par des humains servent à générer des contenus qui ressemblent toujours plus à une production humaine.

Depuis la création de ces outils sur lesquels sont fondées les IA génératives, les entreprises qui les mettent en place sont plus ou moins floues sur l’origine de ces contenus. Notamment parce qu’elles risquent des procès, certains auteurs et éditeurs de contenus considérant qu’elles n’ont pas les droits suffisants pour les utiliser pour entrainer leurs IA.

Un nouvel outil, nommé Copyright traps, décrit dans un article scientifique mis en ligne sur la plateforme de preprint arXiv, permet créer des « pièges à droits d’auteur » et de montrer qu’un texte a été utilisé pour entrainer un modèle de langage. Son code est disponible sur GitHub.

Difficile de prouver l’utilisation d’un texte


Vous devez être abonné•e pour lire la suite de cet article.
Déjà abonné•e ? Générez une clé RSS dans votre profil.


Viewing all articles
Browse latest Browse all 1304

Trending Articles