Comprendre

Les jeux de données (dataset)

Raphaël d'Assignies
12 mai 2023

L’essor du Deep Learning tient à trois facteurs :

  • l’augmentation de la puissance de calcul ;
  • la mise au point de modèles plus performants comme les Transformers ;
  • l’explosion du volume des données d’apprentissage.
Les données sont le carburant des algorithmes d’IA. Elles entretiennent une relation intime avec les modèles d’inférence car, à côté de l’architecture, elles en sont le constituant essentiel. Leurs qualités et leurs défauts se transmettent tout au long de la chaîne de production du projet de Machine Learning.

Dès lors, comprendre leur condition de production, leur structure interne et leur typologie est essentiel.

L’élaboration des jeux de données

La mise au point d’importants jeux de données est un enjeu stratégique. Nous contribuons, souvent sans le savoir, à l’élaboration de ce carburant en ajoutant des photos sur les réseaux sociaux ou en qualifiant des photos de feux rouges !

La collecte et la structuration en vue de l’apprentissage constituent un enjeu en soi et une fraction importante du temps dans un projet d’IA.

Les producteurs

Il existe deux types de producteurs qui travaillent souvent en collaboration :

  • le monde de la recherche universitaire ;
  • les acteurs majeurs de l’IA (Google, Meta, OpenAI…).

La langue anglaise est largement dominante puisque les acteurs clés à l’origine des LLM et du volume de données sont essentiellement anglophones.

Cet usage a une influence sur la performance des modèles pré-entraînés car leur utilisation dans un contexte de langue moins fréquente comme le français se fait souvent à partir de traduction de mauvaise qualité.

Cette prédominance, avec l’explosion des projets, est lentement remise en cause avec la multiplication des datasets multilingues comme OSCAR.

La matière première

Les datasets sont constitués d’une quantité très importante de textes d’origines très diverses :

  • Wikipedia
  • presse généraliste et spécialisée
  • webcrawling (Common Crawl)
  • papiers scientifiques
  • documents métiers
  • livres
  • petites annonces & forums

A ce sujet, la transparence n’est pas la règle et les papiers de recherche, édités à l’appui des nouveaux modèles, ne sont pas précis sur la répartition des matières ou sur les volumes finaux traités lors de l’apprentissage.

Un des sujets clés à l’avenir est la récension structurée des données d’entraînement en s’appuyant à la fois sur les normes existantes (par exemple en matière de Big Data) et sur une analyse de risque claire à ce stade des projets.

Une fois la collecte effectuée, les données doivent être structurées pour répondre à des objectifs d’apprentissage précis.

Une structuration en fonction des objectifs

On distingue deux types d’approche qui sont liés directement au type de données à fournir au modèle :

  • l’approche supervisée (supervised learning) qui consiste à qualifier (labeliser) les textes. Une tâche typique est la classification (spam/non spam) qui nécessite en amont une qualification humaine ;
  • l’approche non supervisée (unsupervised learning) qui consiste à fournir des données sans labellisation pour des tâches de regroupement (clustering) ou de détection d’anomalies.

En matière textuelle, il est souvent fait recours à une manière automatique de créer des données labellisées (self supervised learning). Par exemple, un modèle qui vise à apprendre à générer des mots a uniquement besoin de phrases en entrée. Le label est constitué par le mot qui est masqué et qui doit être découvert par le modèle.

Cette caractéristique est très importante à comprendre car elle met à disposition, en matière de langage, une matière abondante et peu cher à produire.

Lorsqu’on veut utiliser des techniques plus sophistiquées, il faut élaborer des jeux de données spécifiques pour le dialogue ou pour établir des scores à partir d’échanges. Les jeux de données deviennent alors plus coûteux à produire et leur taille se réduit.

Ainsi, dans le domaine du NLP, les deux types de datasets cohabitent.

Typologie des datasets

Datasets généralistes

Ils sont constitués de l’association de contenus extrêmement variés et d’une volumétrie très importante.

Voici un exemple de répartition des données utilisées pour l’entraînement du modèle LLaMa de Meta :

L’objectif est d’embrasser une grande partie de l’étendue de la production textuelle humaine afin d’entraîner un modèle qui a vu énormément de cas d’agencement de la langue. Ils sont souvent à l’origine de modèles servant de fondation (Foundation Model) à des architectures plus spécialisées.

Les datasets spécialisés

Il y a deux manières de spécialiser un dataset :

  • en fonction des objectifs de l’entraînement (il s’agit de structurer le dataset) ;
  • en fonction de la matière (droit, médecine, chimie…) sur laquelle on souhaite spécialiser notre modèle.

Voici deux exemples de datasets spécialisés dans le droit :

1 – le premier est le Swiss Judgment Prediction

Ce dataset sert à entraîner un classifieur binaire (« approval », « dismissal ») à partir de certaines données d’une décision de justice.

2 – Le deuxième est un dataset contenant un très large corpus de jurisprudences, directives et règlements de l’Union européenne (EURLEX).

Ce jeu de données peut servir à entraîner un générateur de langage spécialisé dans le domaine juridique.

Les datasets spécialisés en droit sont référencés dans la partie ‘Ressources’.

Les données d’apprentissage

Pendant l’entraînement, les jeux de données sont généralement divisés en sous-parties répondant à des objectifs différents :

  • la partie « training » sert à entraîner le modèle ;
  • le jeu de données de validation vise à ajuster les paramètres d’apprentissage du modèle ;
  • enfin, la partie de « test » sert à le tester, c’est-à-dire à voir son comportement sur des données qu’il n’a pas vues.

Cette phase est souvent très coûteuse en temps machine et pose de nombreux problèmes techniques. S’il est possible d’entraîner de petits modèles de quelques millions de paramètres, les modèles comme GPT ne peuvent être produits que par des organisations qui ont des moyens financiers et humains très importants. Cette étape pose des enjeux particuliers qui font l’objet de travaux de recherche intense.

Les données d’évaluation (benchmark)

Pour établir des comparaisons fiables entre ces modèles, le monde académique a élaboré des datasets dit de benchmark sur plusieurs tâches qui permettent d’établir un classement avec une méthodologie documentée.

Ces données servent de points d’entrée pour les modèles pré-entrainés. Les sorties attendues étant connues, leurs performances, à l’aide de métriques courantes (F1-Score, Precision/Recall…) peuvent être comparées.

Clinique des datasets

L’amélioration de la qualité des données est un sujet multidimensionnel complexe. A chaque étape du cycle de vie, de nombreux risques peuvent affecter les données et donc le modèle qui en sortira.

Parmi ces risques, on peut citer :

  • l’absence de traçabilité et de transparence sur la collecte et les opérations de traitement ;
  • les biais de différentes natures embarqués dans les données ;
  • les atteintes à la vie privée ;
  • les attaques spécifiques comme le data poisoning ;
  • le non-respect des lois et réglementations en vigeur ;
  • le respect des droits des tiers ;

La communauté OpenLLM-France a élaboré une approche intéressante concernant la qualité des données qui peut se résumer avec le tableau suivant :