Comprendre

La qualité des textes comme frein au développement des LLM

Parmi les facteurs de succès de l'IA, les données constituent un enjeu clé. Leur quantité et, surtout, leur qualité, pourraient constituer un frein à l'augmentation de la performance des modèles.

Raphaël d'Assignies

26 juin 2023

Il est généralement admis que trois facteurs influencent la progression des modèles d’IA :

l’architecture des modèles qui permettent une meilleure performance lors de l’entraînement et de l’inférence ;
la capacité hardware matérialisée par les puces spécialisées comme les GPU ;
la disponibilité de grandes quantités de données qualitatives.

Un récent papier « When Will We Run Out of Data? » dresse un panorama assez complet des liens entre avenir des modèles d’IA, notamment les LLM, et jeu de données.

Si l’on considère, selon une expression désormais à la mode, que les données sont la matière première, il est important d’étudier les perspectives à court et moyen terme de cet élément essentiel.

Pour rappel, la performance actuelle des LLM est due, en partie, à un entraînement effectué avec des quantités de données considérables et auto-supervisées, c’est-à-dire ne réclamant pas d’annotation humaine. Or ces données ont déjà été utilisées – pour une partie importante – pour entraîner les modèles actuels et leur rythme de production, notamment pour les données de qualité, ne permet pas de suivre la progression actuelle.

Les auteurs extrapolent ces taux de croissance en utilisant deux méthodes : le taux de croissance historique et l’estimation de la taille optimale de l’ensemble de données nécessaires pour améliorer les modèles à l’avenir. Ils estiment également le stock total de données non étiquetées disponibles sur Internet au cours des prochaines décennies.

DASSIGNIES-avocat-intelligence-artificielle-cybersecurite-strategie-protection-actifs-immateriels-formations-expertises-blog-graph-projection-quality

Il est opéré une distinction entre données de haute qualité qui entretiennent un rapport vertueux avec la performance des modèles et contenu de piètre valeur.

On entend par stock de haute qualité :

les livres car ils sont généralement écrits par des experts dans un domaine donné et passent par un processus d’édition rigoureux ;
les articles scientifiques car ils sont écrits par des chercheurs et passent par un processus d’examen par les pairs ;
les articles Wikipedia. L’encyclopédie collaborative est considérée comme une source de données de haute qualité car elle est soumise à un processus d’édition communautaire rigoureux ;
les pages webs. Quand elles émanent de sources de référence.

Ces contenus nécessitent du temps pour leur production et une réelle expertise humaine. Les auteurs estiment que l’ensemble des données de haute qualité, qui est à la base des LLM actuels, ne grossit que de 7% par an et que le stock actuel ne dépasse pas une fois en magnitude la taille de la totalité des datasets actuellement disponibles. Cela laisse donc peu de marge de progression.

D’ailleurs, les auteurs estiment que le stock de données linguistiques de haute qualité sera probablement épuisé avant 2026/2027. En revanche, l’ensemble des données textuelles de faible qualité ne sera épuisé que beaucoup plus tard, entre 2030 et 2050.

Ces conclusions sont à remettre en perspective avec les débats actuels sur la place des auteurs dans les nouvelles interfaces de recherche, des dispositifs défensifs mis en place par les géants de la Tech eux-mêmes concernant les données produites et la perspective d’un appauvrissement généralisé des ressources publiées sur le web.

Déployer

Par Raphaël d'Assignies /

31 mars 2025

La recherche juridique augmentée par le raisonnement

La recherche juridique se trouve aujourd’hui dans une phase de transition significative, marquée par une succession d’approches méthodologiques …

Comprendre

Par Raphaël d'Assignies /

28 mars 2025

Le raisonnement juridique comme nouvelle frontière des modèles de langage

L’année 2024 a marqué un tournant décisif dans l’évolution des modèles d’intelligence artificielle avec l’émergence des modèles optimisés pour l …

Ressources

Par Raphaël d'Assignies /

24 mars 2025

Questions fréquentes : l’IA au sein d’un cabinet d’avocats

Les 10 questions/réponses les plus fréquemment rencontrées au cours des formations et des conférences que je donne sur l’implantation et l’utili …

À la croisée de l’intelligence artificielle et du droit, une newsletter mensuelle pour suivre les transformations du secteur juridique.

Retrouver chaque mois, des actualités et des articles qui explorent deux axes principaux :

L’actualité de la legaltech et de l’intelligence artificielle : innovations, outils pratiques et solutions technologiques qui font évoluer le quotidien des professionnels du droit
Les enjeux de l’IA juridique : analyses sur la régulation des modèles de langage, questions de propriété intellectuelle, implications éthiques et juridiques de ces technologies émergentes.

Une veille experte et accessible pour rester à la pointe des mutations qui façonnent l’avenir du droit.