Comprendre

8 choses à (re)découvrir sur les modèles de langage

Les LLM fascinent autant qu'ils sont incompris. Voici huit questions fréquentes à leur sujet dont les réponses sont parfois des découvertes récentes.

Raphaël d'Assignies
13 juin 2023
La récente mésaventure de  l’avocat qui a fait une confiance aveugle à une machine en citant des cas qui n’existent pas m’a poussé à faire cette série de questions/réponses sur les LLM.

Certaines affirmations développées paraîtront évidentes à beaucoup. D’autres, je l’espère, sont des faits moins connus et découverts récemment par la communauté scientifique elle-même.

Au préalable, il est nécessaire de préciser ce que l’on entend par modèle de langage. Pour les spécialistes du traitement du langage, il s’agit d’un modèle statistique sur la distribution des mots en langage naturel. Pour être honnête, peu de personnes en avaient entendu parler avant l’arrivée de ChatGPT.

Les modèles de langage dont tout le monde parle aujourd’hui sont une technologie qui permet d’effectuer différents traitements sur la langue et notamment de générer du texte. C’est cette dernière fonctionnalité qui suscite le plus d’engouement actuellement.

Les modèles de référence à la mode sont GPT (OpenAI), PaLM ou LLaMA créés par les géants américains du web. Parmi les modèles adaptés spécifiquement, ChatGPT détrône tous les autres.

Voici quelques questions fréquentes :

Les humains sont dans la boucle mais où ?

On a beaucoup entendu parler de ChatGPT comme étant issu d’un processus d’adaptation de GPT pour le rendre conversationnel. En effet, le modèle de référence n’était pas adapté à la conversation et comportait de nombreux effets de bord néfastes liés à sa nature purement générative et ses données d’entraînement. Ce constat a conduit OpenAI, société ayant élaboré le modèle GPT, à construire une version spécifique appelée instructGPT début 2022.

A ce sujet, la technique utilisée est celle de l’apprentissage par renforcement qui consiste à entraîner le modèle à avoir le meilleur score à un jeu. Ici, le jeu est de produire une réponse qui plaît aux humains. Pour élaborer les règles, on a fait appel à des personnes réelles pour noter les réponses produites par le modèle. Le but du modèle est d’obtenir le meilleur score.

Dans ce cadre, les humains sont intervenus pour façonner le modèle qui doit apprendre à leur plaire. C’est une technique efficace pour le rendre conversationnel et moins toxique. En revanche, elle a une influence certaine sur les sorties du modèle dont la prévisibilité est aléatoire.

Combien ça coûte ?

Si vous faites appel à des modèles propriétaires comme ceux d’openAI, votre projet peut rapidement coûter très cher et devenir non viable. En effet, dans un projet classique, les LLM sont une brique qui peut être utilisée de manière intense et l’on est bien loin du jeu de questions/réponses que l’on fait avec chatGPT par exemple. Dès lors, la consommation de tokens peut exploser.

Dans l’économie d’un projet de deeplearning, le coût de l’utilisation du modèle représente fréquemment 90% du coût de maintenance.

Il faut ajouter à cela que les stratégies de prix diffèrent grandement entre les modèles mais également entre les sociétés qui les proposent.

Fort de ce constat, une équipe de Stanford s’est récemment emparée du sujet et a bâti une méthode permettant de réduire de 98% le coût induit par la consommation des tokens. Ils ont intitulé sobrement leur papier FrugalGPT.

Est-ce que la dimension compte ?

La dimension d’un LLM contient deux aspects. Le premier est le nombre de paramètres du modèle et le second, le volume de données d’entraînement. Autant le dire d’emblée, la taille compte énormément. A tel point que des chercheurs ont montré l’émergence de capacités liées à la taille comme le montre le graphique suivant.

Source : Emergent Abilities of Large Language Models – https://openreview.net/pdf?id=yzkSU5zdwD

Une nouvelle capacité émerge à partir d’une certaine taille puis augmente très rapidement par la suite.

Beaucoup plus surprenant, et inquiétant à la fois, les chercheurs « découvrent » l’habilité des modèles après la sortie. Cela signifie que leur capacité n’est pas prévue au départ et est découverte par la suite. Par exemple, les few-shot learnings ou encore la capacité à raisonner à l’aide de la chaîne de pensées ont été découvertes plusieurs mois après la sortie du modèle !

Ces découvertes ont permis une amélioration importante du modèle pour certaines tâches.

Puis-je entraîner mon propre modèle ?

Il est possible d’entraîner son propre modèle en partant de rien mais cela n’est pas la solution retenue dans 99% des cas. On utilise un modèle pré-entraîné – notre fameux modèle de référence – pour l’ajuster à des besoins spécifiques.

Dans cette optique, il existe une infinité d’options et de stratégies associées selon les objectifs.  Encore une fois, le LLM n’est souvent qu’une brique à spécialiser pour atteindre ses objectifs dans un ensemble fonctionnel plus vaste. C’est d’ailleurs cet aspect « couteau suisse » qui est déroutant de prime abord et pour l’utiliser efficacement il vaut mieux se concentrer sur ses aspects fonctionnels que sur le problème client à résoudre.

Peut-on expliquer les LLM ?

Compte tenu de la faille des modèles, il n’existe pas actuellement de technique permettant d’expliquer de manière satisfaisante leur fonctionnement interne.

Le nombre de connexions internes qui sont activées, parfois plusieurs fois pour produire un texte, ne sont pas explicables.

Ce constat oblige à être très prudent dans l’utilisation de ces systèmes notamment quand un certain nombre de conséquences préjudiciables sont prévisibles.

A cette absence d’explicabilité, il faut ajouter leur absence de fiabilité.

Peut-on leur apprendre à fournir des réponses fiables ?

L’objectif d’entraînement des modèles de référence est simplement de prédire une séquence de mots. C’est à l’aune de cet objectif qu’il est évalué et non d’être un assistant fiable pour répondre à des questions.

Cela signifie que, lorsque ChatGPT fournit une réponse médicale ou juridique, il faut se méfier dans 100% des cas. Son objectif n’est que de fournir une séquence de mots cohérente mais qui peut n’avoir que peu de lien avec le réel. Ce phénomène est appelé hallucination.

A ce phénomène, il faut ajouter l’ajustement opéré à partir de GPT qui a eu comme objectif d’orienter le modèle pour lui éviter de produire des contenus problématiques. Mais là encore, cet objectif n’est pas de fournir une réponse fiable mais d’éviter de produire, malgré l’apparente cohérence sémantique, un contenu offensant.

Pour contourner ce problème, il existe malgré tout une série d’approches qui permettent d’ajouter de la connaissance au LLM qui ne devient alors qu’une machine à traiter une source d’informations fiabilisées. Mais, même dans ce contexte, le pilotage du LLM (« lui dire quoi faire ») n’est pas non plus sûr !

Comment se faire obéir des LLM ?

Au fur et à mesure que l’on découvrait la puissance des LLM, la manière de s’adresser à eux faisait l’objet de nombreuses recherches. Ainsi est née une sorte de corpus doctrinal autour des prompts et de la manière d’adapter les modèles de base pour suivre nos instructions.

Pour autant, cette technique, si elle est très puissante, ne conduit pas à un pilotage absolument fiable des LLM. Nous ne sommes pas dans une logique déterministe où l’on dit quoi faire à la machine. On ne peut jamais garantir que le modèle va produire une sortie totalement alignée avec l’intention de l’utilisateur.

Et le droit d’auteur sur les données ?

Les jeux de données d’entraînement constituent la matière première de ces modèles. Ces données sont issues de source très variées dont certaines sont protégées par des droit de propriété intellectuelle.

Dans les pays de common law, le fair use permet d’exploiter les données en respectant certaines limites législatives et jurisprudentielles.

En France, le CPI définit la fouille de textes et de données comme « la mise en œuvre d’une technique d’analyse automatisée de textes et données sous forme numérique afin d’en dégager des informations, notamment des constantes, des tendances et des corrélations. » (CPI art. L122-5-3). Cette activité permet d’entraîner des modèles de machine learning.

Le régime applicable est issu d’un texte européen : la Directive  2019/790 du 17-4-2019 sur le droit d’auteur et les droits voisins.

A cet égard, il est prévu de se passer de l’autorisation des auteurs dans deux cas :

  • à des fins de recherche scientifique ;
  • par toute personne sauf si l’auteur s’y est opposé.

On peut s’interroger sur les modalités de cette dernière exception qui porte non seulement sur le droit d’auteur mais sur les droits voisins ou le droit des bases de données. Il semblerait que beaucoup n’aient pas pris conscience, à l’époque de l’élaboration du texte, de la valeur finale créée avec leur donnée comme le remarque Emmanuel Barthe. Ce n’est pas la première fois que les ayants droit découvrent qu’ils sont la locomotive des machines commerciales du web sans en tirer les bénéfices. Un long feuilleton sans fin.

Bien entendu, il y a plein d’autres interrogations concernant cette technologie fascinante comme :

  • Les modèles peuvent-il grossir indéfiniment ?
  • Comment sont traitées les données transmises aux modèles ?
  • Quid de la sécurité ?
  • Sont-ils de simples perroquets stochastiques ?
  • Peut-on aligner ces modèles avec nos valeurs en tant qu’humain ?