Déployer

Sans hallucinations, vraiment[nbsp]?

C’est le titre un brin provocateur d’un récent papier écrit par le Stanford HAI (Human-Centred AI Group) qui a décortiqué deux solutions de RAG du marché nord-américain et en tire des conclusions plus nuancées que les discours marketing triomphant qui prétendent éradiquer définitivement le phénomène des hallucinations.

Raphaël d'Assignies
27 mai 2024

Ce papier qui a donné lieu à de nombreux commentaires, notamment par les éditeurs concernés, est très intéressant car il fournit des pistes d’évaluation des systèmes amenés à être installés dans la plupart des cabinets d’avocats qui devront rapidement s’acclimater à l’utilisation d’outils très puissants mais totalement nouveaux.

Synthèse :

https://dho.stanford.edu/wp-content/uploads/Legal_RAG_Hallucinations.pdf

Regard critique sur le papier :

https://www.artificiallawyer.com/2024/05/24/problematic-stanford-genai-study-takes-aim-at-thomson-reuters-lexisnexis/

Pour compléter :

https://www.linkedin.com/posts/anis-zakari_les-modèles-dopenai-et-danthropic-ne-sont-activity-7152999313562898432-atQ1/

Pas une semaine sans que les éditeurs juridiques lancent un nouveau  produit intégrant l’intelligence artificielle (IA). Ces outils sont conçus pour assister les juristes dans un large éventail de tâches juridiques essentielles, allant de la recherche et la synthèse de jurisprudence à la rédaction de documents. Les avocats utilisent de plus en plus l’IA pour augmenter leur pratique juridique, et ce, pour de bonnes raisons : de la rédaction de contrats à l’analyse des productions de découverte en passant par la recherche juridique, ces outils promettent des gains d’efficacité significatifs par rapport aux méthodes traditionnelles.

Mais ces solutions posent plusieurs difficultés non négligeables… comme la confidentialité des données et la fiabilité. En effet, les grands modèles de langage utilisés dans ces outils ont tendance à « halluciner » ou à inventer de fausses informations, rendant leur utilisation risquée. Pour identifier et réduire les risques, les avocats doivent acquérir une culture suffisante pour évaluer et utiliser à bon escient ce type de solutions. Le papier nous aide par l’approche rationnelle qu’il donne du problème.

Pour lutter contre ce phénomène les éditeurs ont recours au RAG pour contextualiser la réponse, à des systèmes de garde-fous permettant de maintenir le modèle dans le contexte de la réponse ou d’autres techniques. En raison de la nature fermée de ces systèmes, il est difficile d’évaluer systématiquement ces affirmations. Une équipe du Stanford HAI (Human-Centred AI Group) a mené et publié récemment une étude raisonnée du problème à partir de deux solutions du marché nord-américain.

Cette étude est importante pour ceux qui s’intéressent au sujet à plusieurs titres :

  • les affirmations des deux éditeurs quand à leur capacité à lutter contre les hallucinations sont exagérées ;
  • elle apporte une définition du concept flou d’hallucination spécialement dans le domaine juridique ;
  • elle propose un dataset de benchmark qui peut être repris dans d’autres systèmes juridiques ;
  • elle élabore une typologie des erreurs.

Les hallucinations : concept et métriques d’évaluation

Les hallucinations est un problème multiforme qui peine à être défini avec justesse. Il s’agit à l’heure actuelle d’un problème ouvert dans le sens où il n’est pas possible d’expliquer pourquoi un modèle hallucine.

D’une manière générale, l’hallucination d’un modèle peut se définir comme l’incohérence entre la réponse générée par le modèle est le prompt initial ou la vérité factuelle. Dans le papier, les auteurs se concentrent sur le deuxième aspect – les dérives liées à l’invention de faits –  et en raffinent le périmètre autour de deux sous-ensembles.

Le premier, le caractère correct ou incorrect, examine si la réponse est à la fois factuellement vraie et en adéquation par rapport à la requête. L’appréciation se fait à travers ces deux dimensions.

Réponse Correct Incorrect
Factuellement vraie + cohérente avec la requête Oui Non
Partiellement vraie + cohérente avec la requête Oui Non
Réponse inexacte (fausse) Non Oui
Ni réponse ni cohérence Refus Refus

 

Le second examine la capacité du modèle à appuyer les propositions factuelles clés de sa réponse par des références valides à des documents juridiques pertinents. Le tableau suivant nous fournit les différents cas de figure :

Réponse Étayée Non étayée
Réponse étayée par des sources juridiques pertinentes Oui Non
Réponse étayée par des sources mal interprétées Non Oui
Réponse étayée par des sources non pertinentes Non Oui
Réponse qui ne cite pas ses sources Non Oui

 

En conclusion, à partir du moment où une réponse ne répond à aucun de ces critères, elle est considérée comme étant hallucinée par le modèle.

Le RAG : une solution partiellement inefficace dans le domaine légal

A partir du moment où le concept d’hallucination est défini dans son contour, la question de sa réduction se pose. A cet égard, la technique du RAG permet, selon les éditeurs, de lutter efficacement contre ce phénomène. Les auteurs de l’article ne sont pas convaincus par cette affirmation et ce, pour plusieurs raisons :

  • L’efficacité de la recherche sémantique est particulièrement difficile à optimiser dans le domaine légal. Pour étayer cette affirmation, ils s’appuient sur la complexité des problèmes posés et notamment du caractère éminemment prétorien du droit de la common law. Dans notre système civiliste, la réponse peut être plus nuancée.
  • Le mécanisme de synthèse opéré par le LLM lors de la réponse ne tient pas compte de l’extraordinaire complexité de la matière juridique qui mêle plusieurs dimensions de connaissance et nécessite une approche spécialisée.

Evaluation de deux solutions du marché

A partir de cette approche, les auteurs ont évalué deux solutions du marché (LexisNexis’s Lexis+ AI et Thomson Reuters’s Ask Practical Law AI), La particularité de ces nouvelles offres est d’offrir une interface de type chatbot pour l’interrogation de leur base de données. Finie la recherche par mots clés avec ses subtilités de paramétrage souvent mal maîtrisées par l’utilisateur. La contrepartie de cette interface beaucoup plus conviviale est précisément d’entrer dans un univers où l’évaluation devient plus complexe à mener.

Pour réaliser leurs tests, les auteurs ont élaboré un ensemble de prompts (questions) regroupés en plusieurs catégories. Au passage, une partie des prompts est tirée du LegalBench évoqué dans un autre article. Cette approche permet de formuler de manière cohérente les mêmes demandes quel que soit le service testé. En parallèle, une comparaison a été menée avec GPT 4 sans RAG, c’est-à-dire à partir de la connaissance interne du modèle.

Comme pour une partie du Legalbench, les évaluations, c’est-à-dire l’examen des réponses fournies par les modèles, ont été effectuées par des experts dans le domaine qui ont évalué manuellement selon les critères cités supra les sorties des outils.

Les résultats

Malgré l’emploi de la technique du RAG, les deux outils du marché testés hallucinent encore dans des proportions importantes (cf. graphique).
Les auteurs concluent que “près d’une recherche sur cinq a conduit les outils testés à répondre avec des informations trompeuses ou fausses. Lexis+ AI et Ask Practical Law AI de Thomson Reuters sont moins sujets aux hallucinations que GPT-4, mais les utilisateurs de ces produits doivent rester prudents quant à la fiabilité de leurs résultats.”

Source : https://dho.stanford.edu/wp-content/uploads/Legal_RAG_Hallucinations.pdf

A gauche : pourcentages globaux de réponses exactes, incomplètes et hallucinées
A droite : pourcentages de réponses hallucinées lorsqu’une réponse directe est donnée

Ces résultats ont été fortement critiqués et ont donné lieu à un droit de réponse des éditeurs que je vous invite à consulter :
https://www.artificiallawyer.com/2024/05/24/stanford-genai-study-debacle-thomson-reuters-replies/

Toujours est-il que l’étude reste, selon moi, très pertinente et qu’elle apporte d’intéressantes conclusions notamment sur la typologie des erreurs.

Les types d’erreurs

Les systèmes de type RAG reposent sur un ensemble de composants qui ne sont pas divulgués par les éditeurs mais dont certains correspondent à des techniques à l’état de l’art. La comparaison entre les différentes offres est, en outre, assez facile car la citation des sources permet de jauger la pertinence d’un système et de les comparer.

Voici une typologie des erreurs des systèmes RAG juridiques :

  1. Erreurs de récupération : Les documents pertinents ne sont pas récupérés.
  2. Erreurs d’interprétation : Le modèle interprète mal les documents récupérés.
    Exemple : Les documents récupérés sont corrects, mais le modèle en tire des conclusions erronées.
  3. Erreurs de synthèse : Le modèle combine incorrectement des informations de plusieurs documents.
    Exemple : Le modèle fusionne des faits de cas différents, créant ainsi une information incohérente.
  4. Erreurs de contextualisation : Le modèle manque le contexte juridique nécessaire.
    Exemple : Les réponses manquent de nuances en raison d’une compréhension insuffisante des subtilités juridiques.

Les tentatives d’explication

Une dernière partie, très intéressante, de l’étude fournit des explications à ces erreurs qu’elle classe, là encore, en quatre catégories :

 

Origine de l’erreur (les cas peuvent se cumuler) Description Occurence (moyenne des 2 solutions évaluées)
Récupération naïve La récupération des documents n’est pas performante et le modèle s’appuie sur des documents non pertinents 45%
Erreur de bases légales Cette erreur arrive lorsque le modèle se fonde sur des éléments légaux erronés (erreur de récupération) ou qu’il raisonne incorrectement à partir d’éléments pertinents (erreur de raisonnement) 34%
Erreur de raisonnement Le modèle s’appuie sur les bons documents mais produit des erreurs de raisonnement comme une réponse qui se contredit d’une phrase à l’autre. 39%
Sycophantie La servilité du modèle le conduit à suivre des requêtes fausses. Ce problème est marginal 3%>

Conclusion

Cette étude n’invalide évidemment pas la technique du RAG qui reste, dans tous les cas, beaucoup plus fiable que l’utilisation d’un modèle sans base de connaissances externe. Pour autant, elle invite les professionnels à se doter de la culture technique nécessaire pour évaluer en temps réel la qualité de la réponse fournie par les outils. Cette culture technique passe par une formation plus poussée que la simple utilisation promptée des outils. Elle doit incorporer une compréhension plus générale de l’IA et des modèles de langage ainsi que les techniques embarquées dans les outils du marché.