Ce droit d’invasion existe également dans le domaine de l’IA générative. La performance repose sur deux principes. Le premier est quantitatif : c’est le gigantisme du volume des données qui permet l’émergence de capacités nouvelles. Le second est qualitatif : en apprenant, en amont, à partir d’exemples de qualité dans un large spectre de la création humaine, les modèles sont plus efficaces dans leur phase d’utilisation.
Ces deux principes sont hélas antinomiques avec des contraintes comme la vie privée ou les droits de propriété intellectuelle. Pour les éluder, le secteur a recours depuis quelques années à différentes stratégies perpétuant le principe ancien d’innovation sans autorisation emblématique du monde des startups.
Il peut exister, selon les taxonomies, de nombreuses stratégies. J’ai choisi d’en retenir trois. La première, que l’on peut qualifier de pêche au filet dérivant, s’appuie sur une extraction massive, automatisée et multi-sources de données. La seconde, plus subtile, consiste, comme la pêche au leurre, à faciliter la transmission de données dans un but au départ légitime, pour ensuite généraliser leur utilisation à des cas non prévus initialement. La troisième s’appuie sur un paravent associatif ou universitaire pour collecter des données qui seront ensuite utilisées comme vecteur d’entraînement.
Common Crawl : le filet dérivant du web
La technique consiste à parcourir le web et à procéder à de l’extraction de données à partir de sites web. Cette approche, appelée web scrapping ou moissonnage, se fait, la plupart du temps, sans autorisation. Pis, elle utilise souvent des procédés de contournement pour accéder à des pages dont l’accès est restreint.
Le dataset le plus emblématique dans le domaine est, sans aucun doute, Common Crawl et ce à plusieurs titres.
Tout d’abord, il est très volumineux. L’organisation à but non lucratif Common Crawl met à disposition gratuitement et librement près de 240 milliards de pages qui couvrent 16 ans de scrapping du web. Chaque mois 3 à 5 milliards de nouvelles pages sont ajoutées.
Ensuite, il est très populaire. Ses données constituent l’élément de base de la plupart des LLM. Il est cité dans 8000 papiers de recherche. On le retrouve comme données d’entraînement de Google T5 ou encore de LlaMA. OpenAI n’a pas révélé les données à l’origine de GPT3 mais il y a fort à parier qu’une partie au moins de ce dataset a été utilisée. Par ailleurs, de nombreux jeux de données plus petits ou spécialisés sont issus d’une distillation du Common Crawl.
Un autre avantage réside dans sa diversité. Telle une gigantesque pièce montée, ce dataset est constitué de nombreuses couches regroupant pêle-mêle pages Web, Forum, images, petites annonces, commentaires, articles scientifiques, posts de blog, etc.
Cependant, sa taille et surtout son caractère indiscriminé, constituent sa principale faiblesse. Sur un milliard d’URL, 150 millions contiennent des données sensibles. Pis, 300000 sont considérées comme non fiables c’est-à-dire contenant des données à caractère raciste, complotiste ou discriminatoire.
Cette piètre qualité a amené Google à sortir une version retravaillée : the Colossal Clean Crawled Corpus, ou C4 pour les intimes. La principale opération a consisté à nettoyer les textes des nombreuses scories inévitables compte tenu des moyens de collectes. Scories qui sont de natures variées : contenu grossier ou offensant, textes dupliqués ou sans signification, etc.
Une étude détaillée de C4 réalisée par l’Allen Institute for IA est très instructive. La qualité des données, réelle dans le cadre du C4, ne doit pas faire oublier les problèmes initiaux provenant du substrat de base. Et ils sont nombreux !
Les données sont largement issues des secteurs de la création au sens large, ou du monde scientifique. Les trois sites les plus importants sont la base de données patents.google.com, Wikipedia et scribd.com. Ce dernier site, regroupant des millions de livres ou magazines est normalement accessible uniquement par abonnement… Encore plus dérangeant, la présence de b-ok.org , fermé aux Etats-Unis, connu pour abriter une longue liste d’œuvres contrefaites. La liste des sites problématiques est très très longue… et nécessiterait un article à part entière (en préparation).
Comme on le voit, cette technique industrielle de collecte de données ne trie pas les contenus et s’affranchit du consentement des auteurs légitimes. Parfois, l’accord de l’auteur est explicitement demandé dans le cadres des CGU mais l’utilisation des données n’est souvent pas celle prévue initialement !
Vos photos de vacances sur Flickr ou la pêche au leurre : le cas MegaFace
Source / https://exposing.ai/megaface
Dans les années 2010, l’IA appliquée aux images a connu son moment de gloire. On a parlé, à cette époque, de moment ImageNet en référence à la fois à la banque d’images du même nom et au tournant pris en 2012 en matière de reconnaissance d’images.
Les images sont beaucoup moins abondantes que le texte et surtout, l’apprentissage supervisé dans ce domaine nécessite une qualification par des humains. Par exemple, pour entraîner des systèmes de reconnaissance faciale, il faut fournir à la machine de nombreuses photos avec les zones définies comme étant des visages. Cette opération d’identification est manuelle.
En 2014, un ensemble d’organisations de recherche et de sociétés privées sortent un mega dataset de 99,3 millions de photos, le Yahoo Flickr Creative Commons 100 Million Dataset (YFCC100M). Cela tombe bien car Flickr, à cette date, appartient à Yahoo. L’intention affichée des promoteurs est de fournir un ensemble public et partageable à des fins de recherche. La licence est respectée car il n’y a pas d’utilisation commerciale.
Un an plus tard, l’université de Washington s’appuie sur le YFCC100M pour créer un ensemble de 5 millions de photos de visages annotées nommé MegaFace. Et là, les choses dérapent définitivement. Cet ensemble de photos de particuliers est téléchargé des centaines de fois par des organisations militaires ou policières du monde entier à des fins d’entraînement d’algorithmes de surveillance de masse. Selon le site exposing.ai, on y trouve notamment les polices turque, russe, Europol, Bytedance (Tiktok), Northrop Grunman…
Localisation des téléchargements : https://exposing.ai/megaface
Pour les utilisateurs de Flickr qui pensaient partager les photos de leur lune de miel, c’est la découverte peu réjouissante que l’immortalisation de leur vie privée est peut-être à l’origine de modèles de surveillance de masse. Si vous voulez connaître toute l’affaire dans ses détails, voici le lien : https://exposing.ai/megaface/
Dans l’histoire de Flickr, il y a un partenariat entre Yahoo et des universités. Ce paravent est une technique quasi systématique lorsque les datasets sont rendus publics. On peut y voir la volonté de promouvoir la recherche mais aussi quelques effets de bord bénéfiques pour ses initiateurs.
Distillation et paravent institutionnel
Stable Diffusion est un modèle très connu de génération d’images à partir de textes. La plupart des personnes pensent que ce modèle a été créé par la société Stability AI qui l’a popularisé. La réalité est bien plus subtile.
Une enquête rapide permet de découvrir que ce modèle a été créé par une équipe universitaire (Ludwig-Maximilians-Unversität München ou LMU). Stability AI a financé le temps machine nécessaire à la création du modèle. Et la dataset d’entraînement est LAION-5B qui contient 5 milliards de paires image/texte.
Attardons-nous quelques instants sur ces données. LAION (Large-Scale Artificial Intelligence Open Network) est une organisation à but non lucratif, fondée en Allemagne en 2021 . Elle a pour objectif de promouvoir la recherche dans le domaine des réseaux de neurones multimodaux, c’est-à-dire qui associent texte, image et son en fournissant des ensembles de données, des outils et des modèles. Elle est notoirement connue pour avoir construit le dataset de référence LAION-5B, sponsorisé par Hugging Face et Stability AI comme indiqué page 22 du papier de recherche.
L’origine des travaux de LAION trouve sa source dans l’absence de données disponibles en grande quantité permettant d’entraîner des architectures multimodales. Avant la sortie de ce dataset, en octobre 2022, la plupart des données dans ce secteur n’étaient pas divulguées par les sociétés commerciales ou, lorsqu’elles étaient disponibles, étaient de taille trop faible pour un entraînement efficient ou les nécessités de la recherche.
LAION-5B contient 5,85 milliards de paires texte/image dont 50% en langue anglaise. Par comparaison avec les autres jeux de données dans le domaine, il est 20 fois supérieur au dataset le plus important disponible dans ce secteur lors de son lancement, à savoir YFCC100M (cf. infra). Pour obtenir cette taille critique, il n’a pas été possible de recourir à une labellisation humaine, trop longue et, surtout, trop coûteuse. La voie suivie a été de s’appuyer sur notre vieille connaissance : le Common Crawl (CC). Les paires image/texte ont été extraites à partir des balises HTML des pages issues de CC. En sus, des pré-traitements ont été effectués pour s’assurer de la qualité des données. L’intégralité du code ayant servi à produire ce dataset est disponible librement.
LAION-2B-EN : un texte associé à l’url d’une image et des meta-données
Si l’on résume l’opération : LAION-5B a été créé par un organisme à but non lucratif grâce au financement de Hugging Face (HF) et Stability dans le souci, noble, de favoriser la recherche dans le secteur des modèles multimodaux. A la différence de HF, Stability édite une solution que l’on peut qualifier de Creation as a Service (CaaS) à partir de ce jeu de données. Ce dataset étant accessible librement, n’importe quel concurrent peut s’en servir. Alors où est le problème ?
Après tout, il existe plusieurs intérêts croisés qui se complètent. Le monde de la recherche veut accéder à des données permettant de progresser dans la compréhension et l’amélioration des modèles et le secteur privé apporte les financements en contrepartie d’une capacité à commercialiser. Dans ce schéma, on oublie un peu vite les ayants droit et l’absence de consentement.
Or, le Common Crawl est constitué d’innombrables œuvres protégées par la propriété intellectuelle. Dans ce contexte, le recours au paravent institutionnel permet d’invoquer deux règles centrales dans les procès à venir.
Dans les pays de common law, le principe du fair use permet d’exploiter les données en respectant certaines limites législatives et jurisprudentielles. En Europe, La directive (UE) 2019/790 sur le droit d’auteur et les droits voisins dans le marché unique numérique a introduit deux exceptions, dites TDM pour Text and Data Mining, quant à la nécessité de l’accord de l’auteur pour la fouille de données (TDM en français).
La première, concernée par l’article 3, vise la recherche scientifique. Dans ce cadre, le titulaire de droit ne peut s’opposer à la fouille de données si plusieurs conditions cumulatives sont réunies : il doit s’agir d’un projet de recherche scientifique, mené par un organisme de recherche mais pas seulement puisque les partenariats publics-privés, très souvent encouragés au niveau européen, sont explicitement mentionnés (considérant 11) ; enfin, les données doivent être obtenues de manière légitime. Cette première exception est très utile en cas de contestation des ayants droit puisqu’ils ne peuvent opposer leur refus.
La seconde, prévue par l’article 4, est encore plus générale car elle admet comme principe que la fouille est licite sauf refus de l’ayant droit (opt-out). Là encore, les données doivent être obtenues de manière légitime ; ce qui exclut les contenus piratés ou copiés avec des techniques de contournement. Cette seconde exception a, semble-t-il, échappé à beaucoup et les conditions de l’opt-out -notamment l’insertion des balises no-follow ou des CGU spécifiques- n’ont pas été au rendez-vous. Je vous fournis des liens en fin d’article sur les recherches possibles dans les datasets existants et la procédure pour refuser d’être indexé par le bot d’OpenAI.
Je me suis volontairement limité à ces trois stratégies emblématiques. Il en existe d’autres qui font ressortir différents enjeux. Le recours à des travailleurs sous-payés, découvert lors de la sortie de ChatGPT pour aligner le modèle, soulève des questions d’ordre social. La création de datasets synthétiques comme dans le cadre du modèle Alpaca, si elle est intéressante sur le plan économique -on peut générer des dizaines de milliers d’exemples pour quelques centaines de dollars- pose des problèmes contractuels car les fournisseurs s’y opposent désormais.
L’IA est sortie de la sphère de la recherche et la valeur potentiellement énorme qui peut être créée a radicalement changé la manière dont les acteurs se comportent. Le temps du partage et de l’ouverture semble en partie révolu. Les producteurs de données ont pris conscience de la manne entre leurs mains comme en témoignent les changements de CGU. De même, certains fournisseurs de modèles ne sont plus transparents depuis longtemps sur les paramètres ou les données d’entraînement.
Liens utiles :
- Am I in The Stack ? a Hugging Face Space by bigcode
Discover amazing ML apps made by the community - Have I Been Trained ?
- Data usage for consumer services FAQ – Open AI Help Center
Commonly asked questions about how we treat user data for OpenAI’s non-API consumer services like ChatGPT or DALL·E - GitHub Copilot litigation – Joseph Saveri Law Firm & Matthew Butterick
- Stable Diffusion litigation – Joseph Saveri Law Firm & Matthew Butterick