Ressources

Un dataset d’évaluation de référence en matière juridique[nbsp]:[nbsp]le LegalBench

À l’heure où les applications issues des LLM dans le secteur du droit prolifèrent, il est essentiel que les juristes, et notamment les avocats, s’emparent de ce phénomène en produisant et validant des jeux de données de référence pour évaluer ces applications. Comme je l’ai montré pour la mise en place d’un chatbot ou d’un moteur de recherche interne, cela est plus simple qu’il n’y paraît, mais nécessite une bonne dose d’acculturation, de coordination et de motivation.

Raphaël d'Assignies
21 mai 2024
Le LegalBench, issu d’un article publié en août dernier, est un exemple intéressant à plusieurs titres. Il s’agit d’un jeu de données élaboré collaborativement et de manière interdisciplinaire entre des juristes et des data scientists. Parmi les contributeurs, on retrouve des Français. Ce projet vise à produire une référence dans le domaine de l’évaluation des modèles de langage en matière juridique dans le monde anglo-saxon. Il contient un vaste ensemble de tâches, décrites ci-dessous, qui visent à évaluer les sorties des modèles de langage selon des standards élaborés par des experts métiers. Enfin, il est open source et accessible depuis le site : LegalBench.

Techniques d’évaluation : l’avènement des méthodes reposant sur des modèles de langage

En matière juridique, l’état de l’art récent reposait sur deux piliers :

  1. L’évaluation de modèles de langage spécifiquement entraînés pour la matière juridique.
  2. Cette évaluation se faisait à travers différents jeux de données spécialisés dans certaines tâches : résumé de cas, identification de clauses, inférence (NLI).

Les données spécialisées d’évaluation ont, en partie, été reprises dans le LegalBench et ont fait l’objet, comme nous le verrons, d’une sévère rationalisation. En revanche, la méthode d’évaluation a radicalement changé puisqu’au lieu d’évaluer des modèles spécialisés et spécifiquement entraînés, il s’agit de noter les performances de grands modèles de langage dans des domaines juridiques variés en s’appuyant sur leur capacité intrinsèque ou leur apprentissage à partir de quelques exemples (few-shot learning).
Cette approche se retrouve aujourd’hui dans d’autres domaines généralistes via des approches comme G-Val ou Prometheus. En aparté, il serait intéressant d’étudier la portabilité d’une approche comme G-Eval en matière juridique.

Typologie des tâches proposée par les auteurs

Dans leur volonté de rationaliser l’approche, les auteurs ont classifié leurs données selon plusieurs tâches regroupées en deux familles :

Premier groupe : Raisonnement par syllogisme

Le premier groupe de tâches repose sur la notion de syllogisme et consiste à évaluer la capacité du modèle à :

  • Identifier la matière juridique associée à une question/problème (issue-spotting)
  • Connaître les règles de droit (rule-recall)
  • Qualifier et analyser les faits (rule-application)

Identification de la matière juridique associée à une question/problème (issue-spotting)

Cette tâche peut être comparée à un classifieur multiclasses. À partir d’un texte, souvent sous forme interrogative, le modèle doit lui attribuer une matière juridique : droit de la famille, des étrangers, de la consommation, etc. Ces textes sont issus de conversations courantes et ne sont donc pas posés de manière académique, ce qui complique la tâche.

Connaissance de la règle de droit (rule-recall)

Cette partie est moins intéressante pour nous car elle s’appuie principalement sur les connaissances internes des modèles qui ont été entraînés sur de larges corpus de droit anglo-saxon.

Qualification et analyse des faits (rule-application)

C’est la partie la plus riche car elle contient,  traditionnellement,  le plus de données. En effet, il s’agit de classifier (d’interpréter) des parties de textes pour leur attribuer une qualification. L’exemple classique est la détection de la nature des clauses dans un contrat. Cette partie s’appuie principalement sur le dataset CUAD.

Zoom sur le CUAD (Contract Understanding Atticus Dataset )

Le Contract Understanding Atticus Dataset (CUAD) est un exemple de jeu de données juridiques d’entraînement. Il comprend plus de 500 contrats, chacun soigneusement étiqueté par des experts juridiques pour identifier 41 types différents de clauses importantes, pour un total de plus de 13 000 annotations. La structure du dataset est inspirée d’un autre jeu de données devenu un classique du NLP, le Stanford Question Answering Dataset (SQuAD).
CUAD regroupe des colonnes dont le contexte (le texte de la clause à analyser), la question portant sur l’identification d’un point important (identifier les parties, les modalités de résiliation, une clause pénale, etc.) et la réponse (pas de réponse ou, s’il y a une réponse, l’endroit où elle se situe dans le contexte).

Second groupe : Interprétation et classification

Une autre grande famille repose sur l’interprétation, c’est-à-dire la capacité du modèle à comprendre un texte, comme une clause d’un contrat, de manière pertinente.
Enfin, la dernière famille concerne la capacité à classifier les éléments d’un texte selon une approche juridique : identification d’une règle de droit, d’une définition, d’une interprétation jurisprudentielle, etc.
Bien entendu, ces catégories sont poreuses, mais elles ont le mérite de rationaliser l’approche de différents jeux de données qui étaient jusque-là épars.

Méthodologie de déploiement

La construction des prompts

La méthode consiste à écrire manuellement les instructions (les prompts) en fournissant quelques exemples additionnels directement issus du jeu de données. Les mêmes instructions ont été fournies à l’ensemble des modèles à évaluer, quelle que soit leur taille ou leur fournisseur (propriétaire ou open source).

L’évaluation

Pour évaluer les sorties, les chercheurs ont utilisé deux méthodes selon la tâche à effectuer. Pour les tâches de classification, ils ont comparé la sortie du modèle avec la sortie idéale fournie par le jeu de test. Pour les tâches plus complexes comme la qualification des faits et l’application de la règle, des professionnels ont été sollicités pour évaluer le modèle. Cette évaluation a porté à la fois sur la performance à qualifier les faits et à appliquer la règle, mais également sur les explications fournies à l’appui du raisonnement.
Preuve que les humains ont encore toute leur place dans les processus d’évaluation et de pilotage de l’IA !

Résultats et conclusion

En examinant le tableau des évaluations, les résultats sont sans appel : les modèles propriétaires surpassent largement les modèles open source. Notons que les tests ont été réalisés au printemps 2023 et que, depuis, les modèles open source ont augmenté leurs performances.
Une des parties les plus intéressantes de l’article détaille les conclusions de cette évaluation en matière de stratégie de prompting dans le domaine juridique. Les auteurs se penchent sur deux questions intéressantes.

Les LLM peuvent-ils se reposer sur leur connaissance intrinsèque d’une règle pour l’appliquer ?

Dans le domaine juridique, la base de connaissances paramétrique du modèle est plus faible car il a vu beaucoup moins d’exemples de textes juridiques que de critiques de cinéma. Pour des tâches comme l’application d’une règle de droit à des faits, il faut parfaitement connaître les fondements juridiques applicables.
Pour quantifier le phénomène, les auteurs ont comparé deux prompts : l’un contenant la règle applicable dans la question et l’autre distinguant la description de la règle applicable des faits. Les travaux montrent une variation importante entre les tâches plutôt qu’entre les deux familles de prompts.

Dans quel registre de langue faut-il s’adresser au LLM ?

La question est de savoir si le professionnel du droit doit s’adresser au LLM comme quelqu’un du métier ou, au contraire, utiliser un vocabulaire plus commun. Ici, les résultats sont clairs : l’utilisation d’un vocabulaire métier dans le prompt affecte significativement les résultats de manière positive. Cela s’explique par le fait que le prompt aide le modèle à se positionner dans le bon univers sémantique, améliorant ainsi les réponses produites.

Conclusion

Ce rapide aperçu montre l’importance de produire des données d’évaluation accessibles, diversifiées et ouvertes. Les avocats ont toute leur place dans ce monde qui repose principalement sur le langage. Cet exemple illustre également ce que peut apporter la culture d’interface entre les data scientists et les juristes/avocats, une coopération indispensable à la bonne gouvernance des systèmes d’IA à l’avenir.