Techniques d’évaluation : l’avènement des méthodes reposant sur des modèles de langage
En matière juridique, l’état de l’art récent reposait sur deux piliers :
- L’évaluation de modèles de langage spécifiquement entraînés pour la matière juridique.
- Cette évaluation se faisait à travers différents jeux de données spécialisés dans certaines tâches : résumé de cas, identification de clauses, inférence (NLI).
Les données spécialisées d’évaluation ont, en partie, été reprises dans le LegalBench et ont fait l’objet, comme nous le verrons, d’une sévère rationalisation. En revanche, la méthode d’évaluation a radicalement changé puisqu’au lieu d’évaluer des modèles spécialisés et spécifiquement entraînés, il s’agit de noter les performances de grands modèles de langage dans des domaines juridiques variés en s’appuyant sur leur capacité intrinsèque ou leur apprentissage à partir de quelques exemples (few-shot learning).
Cette approche se retrouve aujourd’hui dans d’autres domaines généralistes via des approches comme G-Val ou Prometheus. En aparté, il serait intéressant d’étudier la portabilité d’une approche comme G-Eval en matière juridique.
Typologie des tâches proposée par les auteurs
Dans leur volonté de rationaliser l’approche, les auteurs ont classifié leurs données selon plusieurs tâches regroupées en deux familles :
Premier groupe : Raisonnement par syllogisme
Le premier groupe de tâches repose sur la notion de syllogisme et consiste à évaluer la capacité du modèle à :
- Identifier la matière juridique associée à une question/problème (issue-spotting)
- Connaître les règles de droit (rule-recall)
- Qualifier et analyser les faits (rule-application)
Identification de la matière juridique associée à une question/problème (issue-spotting)
Cette tâche peut être comparée à un classifieur multiclasses. À partir d’un texte, souvent sous forme interrogative, le modèle doit lui attribuer une matière juridique : droit de la famille, des étrangers, de la consommation, etc. Ces textes sont issus de conversations courantes et ne sont donc pas posés de manière académique, ce qui complique la tâche.
Connaissance de la règle de droit (rule-recall)
Cette partie est moins intéressante pour nous car elle s’appuie principalement sur les connaissances internes des modèles qui ont été entraînés sur de larges corpus de droit anglo-saxon.
Qualification et analyse des faits (rule-application)
C’est la partie la plus riche car elle contient, traditionnellement, le plus de données. En effet, il s’agit de classifier (d’interpréter) des parties de textes pour leur attribuer une qualification. L’exemple classique est la détection de la nature des clauses dans un contrat. Cette partie s’appuie principalement sur le dataset CUAD.
Zoom sur le CUAD (Contract Understanding Atticus Dataset )
Le Contract Understanding Atticus Dataset (CUAD) est un exemple de jeu de données juridiques d’entraînement. Il comprend plus de 500 contrats, chacun soigneusement étiqueté par des experts juridiques pour identifier 41 types différents de clauses importantes, pour un total de plus de 13 000 annotations. La structure du dataset est inspirée d’un autre jeu de données devenu un classique du NLP, le Stanford Question Answering Dataset (SQuAD).
CUAD regroupe des colonnes dont le contexte (le texte de la clause à analyser), la question portant sur l’identification d’un point important (identifier les parties, les modalités de résiliation, une clause pénale, etc.) et la réponse (pas de réponse ou, s’il y a une réponse, l’endroit où elle se situe dans le contexte).
Second groupe : Interprétation et classification
Une autre grande famille repose sur l’interprétation, c’est-à-dire la capacité du modèle à comprendre un texte, comme une clause d’un contrat, de manière pertinente.
Enfin, la dernière famille concerne la capacité à classifier les éléments d’un texte selon une approche juridique : identification d’une règle de droit, d’une définition, d’une interprétation jurisprudentielle, etc.
Bien entendu, ces catégories sont poreuses, mais elles ont le mérite de rationaliser l’approche de différents jeux de données qui étaient jusque-là épars.
Méthodologie de déploiement
La construction des prompts
La méthode consiste à écrire manuellement les instructions (les prompts) en fournissant quelques exemples additionnels directement issus du jeu de données. Les mêmes instructions ont été fournies à l’ensemble des modèles à évaluer, quelle que soit leur taille ou leur fournisseur (propriétaire ou open source).
L’évaluation
Pour évaluer les sorties, les chercheurs ont utilisé deux méthodes selon la tâche à effectuer. Pour les tâches de classification, ils ont comparé la sortie du modèle avec la sortie idéale fournie par le jeu de test. Pour les tâches plus complexes comme la qualification des faits et l’application de la règle, des professionnels ont été sollicités pour évaluer le modèle. Cette évaluation a porté à la fois sur la performance à qualifier les faits et à appliquer la règle, mais également sur les explications fournies à l’appui du raisonnement.
Preuve que les humains ont encore toute leur place dans les processus d’évaluation et de pilotage de l’IA !
Résultats et conclusion
Une des parties les plus intéressantes de l’article détaille les conclusions de cette évaluation en matière de stratégie de prompting dans le domaine juridique. Les auteurs se penchent sur deux questions intéressantes.
Les LLM peuvent-ils se reposer sur leur connaissance intrinsèque d’une règle pour l’appliquer ?
Dans le domaine juridique, la base de connaissances paramétrique du modèle est plus faible car il a vu beaucoup moins d’exemples de textes juridiques que de critiques de cinéma. Pour des tâches comme l’application d’une règle de droit à des faits, il faut parfaitement connaître les fondements juridiques applicables.
Pour quantifier le phénomène, les auteurs ont comparé deux prompts : l’un contenant la règle applicable dans la question et l’autre distinguant la description de la règle applicable des faits. Les travaux montrent une variation importante entre les tâches plutôt qu’entre les deux familles de prompts.
Dans quel registre de langue faut-il s’adresser au LLM ?
La question est de savoir si le professionnel du droit doit s’adresser au LLM comme quelqu’un du métier ou, au contraire, utiliser un vocabulaire plus commun. Ici, les résultats sont clairs : l’utilisation d’un vocabulaire métier dans le prompt affecte significativement les résultats de manière positive. Cela s’explique par le fait que le prompt aide le modèle à se positionner dans le bon univers sémantique, améliorant ainsi les réponses produites.
Conclusion
Ce rapide aperçu montre l’importance de produire des données d’évaluation accessibles, diversifiées et ouvertes. Les avocats ont toute leur place dans ce monde qui repose principalement sur le langage. Cet exemple illustre également ce que peut apporter la culture d’interface entre les data scientists et les juristes/avocats, une coopération indispensable à la bonne gouvernance des systèmes d’IA à l’avenir.