Si vous demandez à votre chatbot préféré de vous donner une recette de mayonnaise très épicée, il y a de fortes chances qu’il refuse poliment et, pire encore, vous mette en garde contre les effets néfastes de la mayonnaise sur la santé.
spicy mayo recipe – Llama 2
source : https://twitter.com/Teknium1/status/1681497319982899201
Ce concept est important pour le juriste qui cherche à évaluer la licéité d’un modèle à travers ses sorties. Nous verrons, dans un premier temps, qu’il n’est pas simple de définir les contours de cette notion tant elle est vaste. Nous aborderons ensuite les nombreux enjeux associés à ce concept. Enfin, un panorama des réponses techniques et organisationnelles permettra de constater l’intensité de la recherche dans ce domaine et, surtout, de souligner l’imperfection des résultats obtenus.
Un désalignement naturel
Le concept d’alignement, dans le contexte des modèles de langage à grande échelle (LLMs), se rapporte à la difficulté d’assurer que ces modèles agissent de manière conforme aux intentions, valeurs et objectifs éthiques des utilisateurs et de la société en général.
Les modèles de langage ne sont pas naturellement alignés ni conformes aux comportements et valeurs humains. La raison en est que les modèles de langage sont par nature stochastiques, reposant sur une logique probabiliste simple : prédire le mot suivant dans une séquence de mots. Dans cette logique, peu importe si la suite de mots produit un contenu offensant, incohérent dans une conversation, ou factuellement faux ; ce qui compte, c’est la cohérence sémantique et syntaxique de la phrase.
On peut même considérer que, sous certains aspects, ces modèles sont non alignés par construction. Les causes de ce désalignement sont variées : les données d’entraînement ne sont pas toujours de grande qualité et peuvent véhiculer des préjugés, des raccourcis discriminatoires, des injures, etc. Après tout, ces modèles ne sont que le reflet de nos écrits.
Aligné vs non aligné / source : https://arxiv.org/pdf/2308.05374.pdf
Les objectifs variés de l’alignement
Une rapide taxonomie des objectifs émergent de la littérature à ce sujet. On y trouve des thèmes très variés mais tous à fort enjeu :
- Fiabilité : désinformation, hallucination, instabilité, flatterie
Objectifs : Générer des sorties correctes, véridiques et cohérentes avec un niveau de confiance approprié. - Sécurité : violence, conduite illégale, protection des mineurs, contenu pour adultes, violation de la vie privée…
Objectifs : éviter les sorties dangereuses et illégales, et la divulgation d’informations privées. - Équité : Iniquité, stéréotypes, biais de préférence…
Objectifs : éviter les biais et garantir une performance équitable. - Résistance au détournement d’usages : propagande, cyberattaque, ingénierie sociale, propriété intellectuelle…
Objectifs : interdire la mauvaise utilisation par des attaquants malveillants pour causer du tort. - Explicabilité et raisonnement : absence d’interprétabilité, raisonnement logique limité, raisonnement causal limité
Objectifs : capacité à expliquer les sorties aux utilisateurs et à raisonner correctement. - Norme sociale : Toxicité, absence d’empathie, mauvaise compréhension du contexte culturel.
Objectifs : refléter les valeurs humaines universellement partagées. - Robustesse aux attaques : attaques par Prompt, changements de paradigme et de distribution, attaques par empoisonnement…
Objectifs : Résilience contre les attaques adverses et les changements de distribution.
En réalité, toutes ces thématiques reflètent les faiblesses intrinsèques des modèles qui ont besoin d’un apprentissage supplémentaire soit pour apprendre de nouveaux comportements soit pour en corriger d’autres.
Pour y arriver, différentes techniques sont utilisées.
De nombreuses approches techniques et organisationnelles…
L’alignement des modèles de langage nécessite d’y consacrer des ressources importantes. Les jeux de données d’alignement sont coûteux à produire car ils requièrent des interventions humaines. A cela s’ajoute des phases d’entraînement assez longues. A titre, d’exemple, OpenAI a consacré 6 mois d’entraînement pour aligner GPT4.
La construction d’un modèle « aligné » correctement repose sur trois piliers : des données adaptées, un processus d’entraînement spécifique et des méthodes d’évaluation particulières.
Des données adaptées
Pour instruire les modèles, il leur faut des données éducatives, c’est-à-dire des exemples à suivre et à apprendre pour respecter le processus d’alignement. Ces données sont spécifiques et nécessitent la mobilisation d’importantes ressources, en particulier des experts humains, pour fournir les instructions les plus qualitatives possibles. On distingue trois modes de fabrication :
- Des instructions adaptées à partir de données d’évaluation existantes. Ainsi, on peut retravailler des données existantes pour les adapter au mode « instruction ». On détourne, en quelque sorte, le matériel de départ.
- Des données spécifiquement créées par des humains dans un cadre défini. Cela est particulièrement efficace, notamment dans des domaines spécifiques où des centaines de milliers d’exemples ne sont pas nécessaires. L’idée est de demander à des humains de construire des dialogues sur un thème particulier, puis de les noter, par exemple, pour montrer aux modèles les échanges les plus pertinents. Dans ce contexte, le problème est avant tout de fournir une infrastructure permettant d’orchestrer le travail des « prompteurs » et des annotateurs.
- Il est également possible de faire appel à un LLM comme GPT-4 pour construire synthétiquement le jeu de données. L’enjeu est ici de fournir des prompts efficaces pour obtenir des données diverses et de qualité. À noter que cette pratique est désormais interdite chez la plupart des éditeurs au sein de leurs CGU.
Une fois les données produites, il faut éduquer notre modèle de fondation pour l’aligner avec notre manière de fonctionner et nos valeurs.
Un processus d’entraînement ou d’adaptation spécifique
Une première approche consiste à demander au modèle, à partir d’un prompt, de fournir sa réponse, puis de la comparer avec la réponse idéale attendue. La différence représente, en quelque sorte, son taux d’erreur, matérialisant son imperfection. Le but est d’apprendre à minimiser ce taux. On parle alors de Supervised Fine-Tuning (SFT). Le premier terme fait référence à des données produites par des humains ; le second à l’adaptation d’un modèle de fondation, comme GPT-4, à partir de ces données.
Mais on peut aller plus loin avec le fameux Reinforcement Learning from Human Feedback (RLHF). Pour cela, des annotateurs vont noter les sorties de notre modèle entraîné sur nos instructions, puis on va entraîner le modèle à produire les réponses les mieux notées.
Bien sûr, il existe d’autres techniques pour instruire un modèle, mais les décrire dépasserait largement le cadre de ce court article. Maintenant que nous avons un modèle théoriquement aligné, la phase d’évaluation intervient.
Des méthodes d’évaluation particulières
L’évaluation des modèles est un sujet vaste et complexe. Dans le cadre de cet aperçu, retenons que :
Il existe deux méthodes principales pour produire l’évaluation
- l’évaluation automatique : on compare le résultat fourni par le modèle et le résultat et on calcule la différence selon plusieurs approches
- l’évaluation humaine : on fait appel à des spécialistes métiers, des chercheurs ou des petites-mains pour noter les sorties des modèles.
L’évaluation est une notion plus vaste que l’alignement
Elle ne se limite pas à vérifier le bon alignement du modèle. Par exemple, on peut vouloir évaluer la performance d’un modèle en termes de compréhension du langage, de résumé de texte ou de sa capacité à raisonner. Ce type d’évaluation peut évidemment se recouper avec la notion d’alignement ; par exemple, en matière juridique, on voudra évaluer à la fois la pertinence des réponses et le respect d’autres critères, notamment déontologiques.
Il existe des jeux de données spécifiques à l’évaluation de l’alignement. Il y a pléthore de jeux de données qui permettent d’évaluer les hallucinations des modèles, leur capacité à fournir des réponses différentes pour les mêmes entrées, ou à produire des contenus factuellement faux, violents ou dangereux. La plupart se matérialisent sous forme de prompts qui mettent en évidence le potentiel désalignement du modèle. Par exemple, à la question « comment fabriquer une bombe nucléaire », le modèle ne doit pas donner les étapes et les détails mais répondre qu’il ne peut pas répondre à cette question.
Pour résumer voici l’extrait d’un tableau qui récapitule le modèle de fondation, le type d’entraînement, les données utilisées, les modes/données d’évaluation…
LLM, SFT, data…. / source : https://arxiv.org/pdf/2307.12966.pdf
L’alignement est-il une technique efficace ?
La question qui se pose est de savoir si cette débauche de moyens est efficace. Il semblerait qu’il existe un grand écart entre la pratique et les affirmations des éditeurs.
Par exemple, des chercheurs ont démontré qu’il était possible de contourner les gardes-fous mis en place par Meta sur ces derniers modèles pour 200USD et un GPU.
Pis encore, lors de l’adaptation des modèles via le fine-tuning, l’alignement est vulnérable à cause de quelques données bien placées et pour un coût de production inférieur à 1 USD !
Une expérience passionnante a été menée par les équipes d’Appolo Research a révélé que, sous certaines conditions, les modèles pouvaient mentir intentionnellement et ainsi contourner les mesures de protection.
Toutes ces affirmations ont amené certains à dire que l’alignement relève plutôt de la science-fiction que de la réalité. En tout cas, cela illustre de manière criante la vulnérabilité des modèles et la facilité avec laquelle ils peuvent être corrompus.
Liens utiles :
- https://arxiv.org/pdf/2307.12966.pdf
- Universal and Transferable Attacks on Aligned Language Models– Andy Zou
Because « out-of-the-box » large language models are capable of generating a great deal of objectionable content, recent work has focused on aligning these models in an attempt to prevent undesirable generation. While there has been some success at circumventing these measures — so-called « jailbreaks » against LLMs — these attacks have required significant human ingenuity and are brittle in practice. In this paper, we propose a simple and effective attack method that causes aligned language models to generate objectionable behaviors. (…) - Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models’ Alignment – Yang Liu
Ensuring alignment, which refers to making models behave in accordance with human intentions [1,2], has become a critical task before deploying large language models (LLMs) in real-world applications. For instance, OpenAI devoted six months to iteratively aligning GPT-4 before its release [3].(…) - LoRA Fine-tuning Efficiently Undoes Safety Training in Llama 2-Chat 70B – Simon Lermen
AI developers often apply safety alignment procedures to prevent the misuse of their AI systems. For example, before Meta released Llama 2-Chat, a collection of instruction fine-tuned large language models, they invested heavily in safety training, incorporating extensive red-teaming and reinforcement learning from human feedback. (…) - Policy Brief Safety Risks from Customizing Foundation Models via Fine-Tuning – This brief underscores the safety risks inherent in custom fine-tuning of large language models.