L’association de données textuelles abondantes et des nouveaux modèles de Machine Learning comme les Transformers, a montré sa redoutable efficacité. Depuis 2017, les performances des modèles de langage n’ont cessé de s’améliorer.
Cet écosystème visant à produire des contenus écrits qui, une fois ingurgités par les modèles donneront en retour une valeur ajoutée considérable, repose sur les auteurs. Ces derniers, comme d’autres, n’ont pas pu peser face aux géants de la Tech avides d’exploiter les données pour entraîner leurs modèles. Le rapport de force était trop déséquilibré et qui aurait pu subodorer, il y a quelques années, de la puissance des Transformers dans le domaine du langage.
C’est d’ailleurs ce déséquilibre des forces qui fait regarder aujourd’hui la Directive 2019/790 du 17-4-2019 sur le droit d’auteur et les droits voisins, et plus particulièrement les dispositions concernant la fouille de données, avec un autre regard.
A l’époque, la justification du consentement par défaut au scraping de données reposait sur les objectifs poursuivis qui, disait-on, étaient principalement ceux de la recherche. Avec le recul, la recherche s’est révélée être un juteux business !
Pour autant, l’histoire n’est pas finie. Les rapports complexes entre données et IA, mêlant politique et économie, connaissent des dynamiques sans cesse renouvelées.
Trois actualités viennent illustrer ces liens – à la vie à la mort – entre modèle d’IA et données.
La première illustre une forme d’ironie : je m’appuie sur le fair use pour entraîner mes modèles mais, poussant mon avantage, je vous interdis de les utiliser pour en créer d’autres. C’est l’attitude de Google ou Microsoft entre autres.
La deuxième, plus pessimiste pour les auteurs, concerne les nouvelles manières de rechercher sur le web qui pourraient conduire à un effacement rapide des producteurs de contenus si rien n’est fait.
La troisième, à l’opposé, sonne comme une revanche. En effet, la capacité à produire des contenus répétitifs et synthétiques pourrait sonner le glas de la qualité des modèles et, par conséquent, conduire à revaloriser les contenus de qualité.
L’IA générative au service de l’IA générative
Vous manquez de données pour entraîner votre propre modèle ? Pourquoi ne pas faire appel à chatGPT pour générer des jeux de données synthétiques ?
Ces modèles sont accessibles programmatiquement. Par conséquent, il est tentant de les utiliser pour générer des jeux de données spécifiques pour entraîner ou ajuster des modèles.
C’est de cette manière que les équipes de Stanford ont monté le projet Alpaca. Ils ont fournir à GPT 3 des instructions de base pour lui faire générer un jeu de données de plus de 52 000 lignes. Le coût ? Moins de 500 USD ! Avec ces données, ils ont adapté un autre modèle de chez Meta (LLaMA) pour qu’il ressemble à chatGPT. Pour le moment, la copie ne semble pas tout à fait au niveau de l’original mais peu importe. Le procédé peut faire des émules.
Mais si l’on regarde attentivement les CGU de ces plateformes, on remarque que cette pratique est interdite.
Ces plateformes jouent à un jeu hypocrite en exploitant les données pour entraîner leurs services mais en interdisant à leurs clients de le faire. On me répondra qu’entre les données brutes – d’entraînement – et celles issues de l’inférence, il y a une différence. Certes, mais il y a bien un continuum entre les deux. Les deuxièmes sont dépendantes des premières qui n’existent plus dans le modèle entraîné/figé.
Ce phénomène d’invisibilisation des données originelles pourrait prendre une forme nouvelle avec les récentes interfaces de recherche.
Les nouvelles interfaces de recherche ou les liens disparus
La recherche sur le web est à l’aube d’une révolution. Nous avions déjà vu les démonstrations concernant Bing et la « merveille de la recherche alimentée par l’IA » (sic).
Google, pour sa part, vient de présenter ce à quoi son moteur ressemblera dans quelques mois : une interface profondément modifiée où le modèle d’IA fournit une réponse synthétique à partir des résultats de recherche.
Cette approche vient totalement impacter l’économie des contenus qui ne servent plus à générer du trafic mais à alimenter une machine à répondre en les incorporant !
Illustration de la nouvelle Search Generative Experience (SGE) de Google
La sélection des sites était déjà le fruit d’opérations particulièrement obscures mais désormais elle passe par le truchement de milliards de paramètres pour laquelle même les spécialistes avouent leur incapacité à comprendre les opérations.
Quand Google-Bard vous promettra de sélectionner le meilleur coiffeur en fonction des prix comparés et des avis clients dans un rayon de 5 kilomètres, il faudra vous y fier car vous n’aurez pas accès aux données brutes mais au résultat final. Passe pour un coiffeur mais que penser d’un avocat ou d’un médecin ? Où l’on aperçoit l’ampleur des enjeux.
Revenons à nos producteurs de contenus, désormais sans lecteurs, devenus simples rouages dans le moteur industriel de Google ou de Microsoft.
Les contenus sont dorénavant à deux endroits de la chaîne à la fois comme matière première d’entraînement et comme substrat des réponses fournies par les modèles. Les entreprises du secteur ont parfaitement conscience du risque pour les auteurs et des conséquences néfastes associées.
Fort de ce constat, les discussions sont en cours entre les géants de la Tech et les éditeurs majeurs tels que News Corp, Axel Springer, The New York Times et The Guardian sur l’utilisation du contenu d’actualités pour entraîner des modèles d’IA et incorporer le contenu dans les réponses des moteurs. Les entreprises technologiques seraient prêtes à payer des millions pour l’utilisation conforme aux droits d’auteur du contenu d’actualités entraîné par des modèles génératifs, avec des estimations allant de 5 millions à 20 millions de dollars par an. On aboutirait à un modèle de type streaming comme pour la musique.
Si l’enjeu est vital pour les auteurs, il existe également pour les producteurs de modèles : la raréfaction de données d’entraînement diverses en qualité et quantité est directement liée aux performances des LLM, comme le démontre un papier récent. Sur ce point, comme le pétrole, le stock n’est pas inépuisable et semble déjà avoir été sérieusement entamé.
Pire. Si l’on se projette désormais dans un monde où l’IA est devenue l’outil de base du producteur de contenu non pas comme une aide mais comme une machine à générer massivement des textes, quid de cette pollution pour l’avenir des modèles ?
Vers l’effondrement des modèles ?
L’idée d’un réseau envahi par les contenus générés par des bots n’est pas nouvelle. Elle a même inspiré, en 2021, une théorie conspirationniste, The Dead Internet Theory, résumée dans papier ironique intitulé « Peut-être que vous ne le saviez pas mais internet est mort il y a 5 ans ». L’idée farfelue de la manipulation sous-jacente n’a pas d’intérêt hormis pour étudier la sociologie des théories du complot. En revanche, l’idée d’un réseau envahi de contenus générés par des algorithmes s’appuie sur de solides constats.
Facebook annonce régulièrement supprimer des milliers de faux comptes. Les fermes à trolls sont devenues célèbres dans le monde entier depuis l’élection de D. Trump en 2016. Autant de phénomènes qui créent massivement du contenu toxique sur les réseaux.
Concernant la qualité du contenu, les algorithmes n’ont pas le monopole de la médiocrité. Derrière l’optimisation SEO se cache des milliers de contenus parfois de piètre qualité. Qui n’est pas tombé sur ces textes sans intérêt, sinon leur classement dans les résultats de recherche pour le site qui les héberge ? De même, les techniques de NLP sont utilisées depuis plusieurs années pour produire des contenus comme des brèves d’actualité.
Ce phénomène de pollution des contenus n’est pas nouveau. Cependant, Il a pris une tout autre ampleur avec l’arrivée des IA génératives de dernière génération fin 2022 et leur ouverture au grand public.
Des chercheurs britanniques ont simulé les conséquences de cette pollution des contenus par les LLM sur la qualité et l’avenir des modèles.
En effet, les jeux de données issus du web (web scraping ) intégreront inévitablement des contenus provenant massivement des modèles d’IA générative. Ce phénomène va engendrer un phénomène d’uniformisation et polluer les modèles jusqu’à provoquer leur effondrement selon les auteurs.
Cette altération advient car les données présentes deviennent de plus en plus uniformes et les exemples rares deviennent absents. Par conséquent, le modèle ne prenant plus en compte la diversité des données perd en qualité à tel point qu’il finit par s’effondrer.
Or, la capacité à modéliser des événements à faible probabilité est essentielle pour la robustesse des modèles qui peuvent prendre en compte une grande variété de scénarios, pour la compréhension de systèmes complexes ou pour garantir l’équité des prédictions.
Ce problème d’auto-pollution est à distinguer d’une autre tendance, évoquée plus haut, qui concerne le stock de contenus originaux qui a été déjà largement épuisé en raison de l’appétit des grands modèles de langage. On assiste donc à un croisement des courbes : épuisement du stock de textes de haute qualité et augmentation du taux de contamination par des contenus auto-générés. Deux défis qu’il faudra relever dans un avenir immédiat.
Concernant la diversité des contenus, les auteurs proposent judicieusement de mettre, là encore, les contenus de qualité au centre des débats pour assurer la performance à terme des IA génératives. Ils préconisent :
- la préservation de l’accès à des données originales et non produites par des LLM ;
- la nécessité de tracer les données produites par des IA vs celles produites par humains.
La première approche semble parfaitement jouable. Il n’est pas difficile d’isoler des jeux de données spécifiques en les identifiants comme étant d’origine humaine et suffisamment diverse. Cette question est également à mettre en perspective avec la description détaillée des données d’entraînement par les producteurs de modèle.
La deuxième préconisation est plus problématique à mettre en œuvre en raison de la difficulté à obliger les acteurs à marquer le contenu – même si certains le font déjà a minima – ou à mettre en œuvre des procédés de watermarking fiables. On se souvient du raté des DRM en d’autres temps.
Ces questions rebouclent avec la juste rémunération des auteurs qui, en produisant un contenu original, contribuent de manière centrale à l’économie de l’IA Generative.
D’une manière plus large, la traçabilité des contenus apparaît encore plus nécessaire et gagne une implication nouvelle au-delà des nombreuses justifications déjà avancées : contrefaçon, lutte contre les fake news, etc.