Déployer

Sans hallucinations, vraiment ?

C’est le titre un brin provocateur d’un récent papier écrit par le Stanford HAI (Human-Centred AI Group) qui a décortiqué deux solutions de RAG du marché nord-américain et en tire des conclusions plus nuancées que les discours marketing triomphant qui prétendent éradiquer définitivement le phénomène des hallucinations.

Raphaël d'Assignies

27 mai 2024

DASSIGNIES-avocat-intelligence-artificielle-cybersecurite-strategie-protection-actifs-immateriels-formations-expertises-hallucinations

Ce papier qui a donné lieu à de nombreux commentaires, notamment par les éditeurs concernés, est très intéressant car il fournit des pistes d’évaluation des systèmes amenés à être installés dans la plupart des cabinets d’avocats qui devront rapidement s’acclimater à l’utilisation d’outils très puissants mais totalement nouveaux.

Synthèse :

https://dho.stanford.edu/wp-content/uploads/Legal_RAG_Hallucinations.pdf

Regard critique sur le papier :

https://www.artificiallawyer.com/2024/05/24/problematic-stanford-genai-study-takes-aim-at-thomson-reuters-lexisnexis/

Pour compléter :

https://www.linkedin.com/posts/anis-zakari_les-modèles-dopenai-et-danthropic-ne-sont-activity-7152999313562898432-atQ1/

Pas une semaine sans que les éditeurs juridiques lancent un nouveau produit intégrant l’intelligence artificielle (IA). Ces outils sont conçus pour assister les juristes dans un large éventail de tâches juridiques essentielles, allant de la recherche et la synthèse de jurisprudence à la rédaction de documents. Les avocats utilisent de plus en plus l’IA pour augmenter leur pratique juridique, et ce, pour de bonnes raisons : de la rédaction de contrats à l’analyse des productions de découverte en passant par la recherche juridique, ces outils promettent des gains d’efficacité significatifs par rapport aux méthodes traditionnelles.

Mais ces solutions posent plusieurs difficultés non négligeables… comme la confidentialité des données et la fiabilité. En effet, les grands modèles de langage utilisés dans ces outils ont tendance à « halluciner » ou à inventer de fausses informations, rendant leur utilisation risquée. Pour identifier et réduire les risques, les avocats doivent acquérir une culture suffisante pour évaluer et utiliser à bon escient ce type de solutions. Le papier nous aide par l’approche rationnelle qu’il donne du problème.

Pour lutter contre ce phénomène les éditeurs ont recours au RAG pour contextualiser la réponse, à des systèmes de garde-fous permettant de maintenir le modèle dans le contexte de la réponse ou d’autres techniques. En raison de la nature fermée de ces systèmes, il est difficile d’évaluer systématiquement ces affirmations. Une équipe du Stanford HAI (Human-Centred AI Group) a mené et publié récemment une étude raisonnée du problème à partir de deux solutions du marché nord-américain.

Cette étude est importante pour ceux qui s’intéressent au sujet à plusieurs titres :

les affirmations des deux éditeurs quand à leur capacité à lutter contre les hallucinations sont exagérées ;
elle apporte une définition du concept flou d’hallucination spécialement dans le domaine juridique ;
elle propose un dataset de benchmark qui peut être repris dans d’autres systèmes juridiques ;
elle élabore une typologie des erreurs.

Les hallucinations : concept et métriques d’évaluation

Les hallucinations est un problème multiforme qui peine à être défini avec justesse. Il s’agit à l’heure actuelle d’un problème ouvert dans le sens où il n’est pas possible d’expliquer pourquoi un modèle hallucine.

D’une manière générale, l’hallucination d’un modèle peut se définir comme l’incohérence entre la réponse générée par le modèle est le prompt initial ou la vérité factuelle. Dans le papier, les auteurs se concentrent sur le deuxième aspect – les dérives liées à l’invention de faits – et en raffinent le périmètre autour de deux sous-ensembles.

Le premier, le caractère correct ou incorrect, examine si la réponse est à la fois factuellement vraie et en adéquation par rapport à la requête. L’appréciation se fait à travers ces deux dimensions.

Réponse	Correct	Incorrect
Factuellement vraie + cohérente avec la requête	Oui	Non
Partiellement vraie + cohérente avec la requête	Oui	Non
Réponse inexacte (fausse)	Non	Oui
Ni réponse ni cohérence	Refus	Refus

Le second examine la capacité du modèle à appuyer les propositions factuelles clés de sa réponse par des références valides à des documents juridiques pertinents. Le tableau suivant nous fournit les différents cas de figure :

Réponse	Étayée	Non étayée
Réponse étayée par des sources juridiques pertinentes	Oui	Non
Réponse étayée par des sources mal interprétées	Non	Oui
Réponse étayée par des sources non pertinentes	Non	Oui
Réponse qui ne cite pas ses sources	Non	Oui

En conclusion, à partir du moment où une réponse ne répond à aucun de ces critères, elle est considérée comme étant hallucinée par le modèle.

Le RAG : une solution partiellement inefficace dans le domaine légal

A partir du moment où le concept d’hallucination est défini dans son contour, la question de sa réduction se pose. A cet égard, la technique du RAG permet, selon les éditeurs, de lutter efficacement contre ce phénomène. Les auteurs de l’article ne sont pas convaincus par cette affirmation et ce, pour plusieurs raisons :

L’efficacité de la recherche sémantique est particulièrement difficile à optimiser dans le domaine légal. Pour étayer cette affirmation, ils s’appuient sur la complexité des problèmes posés et notamment du caractère éminemment prétorien du droit de la common law. Dans notre système civiliste, la réponse peut être plus nuancée.
Le mécanisme de synthèse opéré par le LLM lors de la réponse ne tient pas compte de l’extraordinaire complexité de la matière juridique qui mêle plusieurs dimensions de connaissance et nécessite une approche spécialisée.

Evaluation de deux solutions du marché

A partir de cette approche, les auteurs ont évalué deux solutions du marché (LexisNexis’s Lexis+ AI et Thomson Reuters’s Ask Practical Law AI), La particularité de ces nouvelles offres est d’offrir une interface de type chatbot pour l’interrogation de leur base de données. Finie la recherche par mots clés avec ses subtilités de paramétrage souvent mal maîtrisées par l’utilisateur. La contrepartie de cette interface beaucoup plus conviviale est précisément d’entrer dans un univers où l’évaluation devient plus complexe à mener.

Pour réaliser leurs tests, les auteurs ont élaboré un ensemble de prompts (questions) regroupés en plusieurs catégories. Au passage, une partie des prompts est tirée du LegalBench évoqué dans un autre article. Cette approche permet de formuler de manière cohérente les mêmes demandes quel que soit le service testé. En parallèle, une comparaison a été menée avec GPT 4 sans RAG, c’est-à-dire à partir de la connaissance interne du modèle.

Comme pour une partie du Legalbench, les évaluations, c’est-à-dire l’examen des réponses fournies par les modèles, ont été effectuées par des experts dans le domaine qui ont évalué manuellement selon les critères cités supra les sorties des outils.

Les résultats

Malgré l’emploi de la technique du RAG, les deux outils du marché testés hallucinent encore dans des proportions importantes (cf. graphique).
Les auteurs concluent que “près d’une recherche sur cinq a conduit les outils testés à répondre avec des informations trompeuses ou fausses. Lexis+ AI et Ask Practical Law AI de Thomson Reuters sont moins sujets aux hallucinations que GPT-4, mais les utilisateurs de ces produits doivent rester prudents quant à la fiabilité de leurs résultats.”

DASSIGNIES-avocat-intelligence-artificielle-cybersecurite-strategie-protection-actifs-immateriels-formations-expertises-deployer-panel-hallucinations

Source : https://dho.stanford.edu/wp-content/uploads/Legal_RAG_Hallucinations.pdf

A gauche : pourcentages globaux de réponses exactes, incomplètes et hallucinées
A droite : pourcentages de réponses hallucinées lorsqu’une réponse directe est donnée

Ces résultats ont été fortement critiqués et ont donné lieu à un droit de réponse des éditeurs que je vous invite à consulter :
https://www.artificiallawyer.com/2024/05/24/stanford-genai-study-debacle-thomson-reuters-replies/

Toujours est-il que l’étude reste, selon moi, très pertinente et qu’elle apporte d’intéressantes conclusions notamment sur la typologie des erreurs.

Les types d’erreurs

Les systèmes de type RAG reposent sur un ensemble de composants qui ne sont pas divulgués par les éditeurs mais dont certains correspondent à des techniques à l’état de l’art. La comparaison entre les différentes offres est, en outre, assez facile car la citation des sources permet de jauger la pertinence d’un système et de les comparer.

Voici une typologie des erreurs des systèmes RAG juridiques :

Erreurs de récupération : Les documents pertinents ne sont pas récupérés.
Erreurs d’interprétation : Le modèle interprète mal les documents récupérés.
Exemple : Les documents récupérés sont corrects, mais le modèle en tire des conclusions erronées.
Erreurs de synthèse : Le modèle combine incorrectement des informations de plusieurs documents.
Exemple : Le modèle fusionne des faits de cas différents, créant ainsi une information incohérente.
Erreurs de contextualisation : Le modèle manque le contexte juridique nécessaire.
Exemple : Les réponses manquent de nuances en raison d’une compréhension insuffisante des subtilités juridiques.

Les tentatives d’explication

Une dernière partie, très intéressante, de l’étude fournit des explications à ces erreurs qu’elle classe, là encore, en quatre catégories :

Origine de l’erreur (les cas peuvent se cumuler)	Description	Occurence (moyenne des 2 solutions évaluées)
Récupération naïve	La récupération des documents n’est pas performante et le modèle s’appuie sur des documents non pertinents	45%
Erreur de bases légales	Cette erreur arrive lorsque le modèle se fonde sur des éléments légaux erronés (erreur de récupération) ou qu’il raisonne incorrectement à partir d’éléments pertinents (erreur de raisonnement)	34%
Erreur de raisonnement	Le modèle s’appuie sur les bons documents mais produit des erreurs de raisonnement comme une réponse qui se contredit d’une phrase à l’autre.	39%
Sycophantie	La servilité du modèle le conduit à suivre des requêtes fausses. Ce problème est marginal	3%>

Conclusion

Cette étude n’invalide évidemment pas la technique du RAG qui reste, dans tous les cas, beaucoup plus fiable que l’utilisation d’un modèle sans base de connaissances externe. Pour autant, elle invite les professionnels à se doter de la culture technique nécessaire pour évaluer en temps réel la qualité de la réponse fournie par les outils. Cette culture technique passe par une formation plus poussée que la simple utilisation promptée des outils. Elle doit incorporer une compréhension plus générale de l’IA et des modèles de langage ainsi que les techniques embarquées dans les outils du marché.

Déployer

Par Raphaël d'Assignies /

31 mars 2025

La recherche juridique augmentée par le raisonnement

La recherche juridique se trouve aujourd’hui dans une phase de transition significative, marquée par une succession d’approches méthodologiques …

Comprendre

Par Raphaël d'Assignies /

28 mars 2025

Le raisonnement juridique comme nouvelle frontière des modèles de langage

L’année 2024 a marqué un tournant décisif dans l’évolution des modèles d’intelligence artificielle avec l’émergence des modèles optimisés pour l …

Ressources

Par Raphaël d'Assignies /

24 mars 2025

Questions fréquentes : l’IA au sein d’un cabinet d’avocats

Les 10 questions/réponses les plus fréquemment rencontrées au cours des formations et des conférences que je donne sur l’implantation et l’utili …

À la croisée de l’intelligence artificielle et du droit, une newsletter mensuelle pour suivre les transformations du secteur juridique.

Retrouver chaque mois, des actualités et des articles qui explorent deux axes principaux :

L’actualité de la legaltech et de l’intelligence artificielle : innovations, outils pratiques et solutions technologiques qui font évoluer le quotidien des professionnels du droit
Les enjeux de l’IA juridique : analyses sur la régulation des modèles de langage, questions de propriété intellectuelle, implications éthiques et juridiques de ces technologies émergentes.

Une veille experte et accessible pour rester à la pointe des mutations qui façonnent l’avenir du droit.