Déployer

La traçabilité des textes produits par les LLM : un problème complexe

Raphaël d'Assignies
19 avril 2024

Connaître l’auteur d’un contenu, humain ou machine, est désormais un enjeu primordial. Le recours à l’IA générative multiplie les possibilités de création de faux contenus. Le législateur l’a bien compris en imposant, dans l’article 52 de l’IA Act, l’obligation d’informer les utilisateurs de la nature synthétique des contenus, vidéos, images ou textes, générés par un modèle d’IA.

Pour identifier l’origine du contenu, on peut distinguer deux phases. En amont, lors de la génération, il est possible de marquer le contenu par une signature ou un identifiant invisible. Cette information doit être rendue disponible pour l’utilisateur, comme le souligne l’article 52 précité. En aval, il est intéressant de développer des technologies capables de détecter l’origine des contenus, indépendamment de toute démarche volontaire de la part de leur producteur. La question qui se pose est de savoir si, dans les deux cas, les technologies sont suffisamment fiables pour être efficaces. Voici un état des lieux rapide concernant ces différentes approches.

La première repose sur la technique classique du watermarking qui consiste à insérer dans les contenus générés un signal invisible pour les humains, attestant de l’origine du texte. Une des approches prometteuses est d’altérer le contenu généré depuis le serveur avec un secret connu uniquement du fournisseur. Cette technique est généralement considérée comme étant à l’état de l’art et la plus fiable, répondant aux injonctions du décret Biden ou de l’IA Act. Pourtant, une équipe de recherche vient d’affirmer que ces techniques, loin d’être fiables, sont en réalité hautement fragiles. Il est ainsi possible de faire la rétro-ingénierie du schéma de protection utilisé moyennant quelques dizaines de dollars selon ces chercheurs. La conséquence de ce type d’attaque est précisément de faire passer un texte généré par une machine pour une origine humaine et vice versa.

Dans le même ordre d’idées, il est possible de recourir à la signature électronique pour marquer le contenu et rendre disponible une fiche informative sur celui-ci. C’est l’approche retenue par Content Credential, qui regroupe un certain nombre d’acteurs de l’industrie comme Adobe ou Microsoft et qui repose sur un standard développé par une organisation à but non lucratif, la Coalition for Content Provenance and Authenticity (C2PA). Le créateur peut signer le contenu et rendre disponible la vérification de son origine via ce système. Il s’agit là d’un mécanisme classique de signature électronique, et non d’un marquage de l’œuvre à la différence du premier procédé. Ce type de solutions est voué à se multiplier, non seulement sous la pression du législateur mais surtout pour protéger les droits d’auteur, mis à mal par les algorithmes génératifs.

Mais si le contenu n’est pas signé ou marqué, comment faire pour détecter son origine ? C’est ici qu’interviennent deux autres techniques.

La première repose sur l’entraînement spécifique d’un classifieur. Pour détecter ces différences et identifier leurs caractéristiques, il existe des jeux de données comme ai-text-detection-pile qui mettent côte-à-côte des textes générés par des humains et ceux par des IA. L’idée est d’entraîner un modèle à apprendre les caractéristiques de chaque groupe de texte pour, ensuite, pouvoir détecter les productions humaines des contenus synthétiques.

Une seconde approche réside dans la signature statistique des mots générés par les modèles. Cette technique a l’avantage de ne nécessiter que peu ou pas d’entraînement (zero ou few shots). Elle repose notamment sur la notion de perplexité, c’est-à-dire la mesure, intrinsèque au modèle, de la « surprise » qu’il rencontre lors de la génération des mots. Plus le score est proche de 1 moins le modèle est surpris et génère une prédiction du mot suivant performante. Parce que les modèles sont imparfaits, il est possible de détecter leur production à partir de ce score. Au fur et à mesure qu’il s’approche des productions d’origine humaine, cette technique perd en efficacité.

Récemment, des chercheurs ont développé une technique nommée ‘Binoculars’, qui s’appuie sur deux LLM (modèles de langage à grande échelle) pour évaluer, sans entraînement additionnel, l’origine d’un texte. Les résultats, rendus publics, sont assez impressionnants, notamment en ce qui concerne les faux positifs, c’est-à-dire la capacité à ne pas identifier à tort un texte écrit par un humain comme étant d’origine synthétique. Les créateurs de cette technique ont publié l’intégralité de leur méthode et des résultats. La Fondation Mozilla a souhaité tester ces travaux en utilisant la base de données ai-text-detection-pile et, malheureusement, leurs résultats se sont avérés beaucoup moins enthousiasmants. Par exemple, le nombre de faux positifs a doublé lors de leurs tests.

Cela met en lumière la complexité du problème et, surtout, l’absence de solutions fiables à l’état de l’art pour assurer la traçabilité des contenus par le marquage ou la détection. Même les géants du secteur ont pour le moment, renoncé à détecter le plagiat devant l’inefficacité des solutions mises en place.

Il sera intéressant de voir, dans les prochains mois, comment les groupes de travail mis en place par l’IA Act aborderont ce problème crucial et s’ils trouveront, ou non, des parades technico-juridiques pour y faire face.