Un mémo de due diligence qui détecte 95 % des problèmes mais rate un point matériel n'est pas utile à 95 %, il est faux. C'est sur ce principe que Harvey a construit LAB, son benchmark open source : 1 251 tâches juridiques avec dossiers documentaires synthétiques, des livrables en Word ou Excel.
Harvey AI a publié sur GitHub un projet baptisé LAB (Legal Agent Benchmark), sous licence MIT : un banc d'essai open source destiné à mesurer la capacité des agents fondés sur des LLM à exécuter du travail juridique réaliste, et non plus à répondre à des QCM de droit. Le dépôt (harveyai/harvey-labs) mérite qu'on s'y attarde, car il matérialise un déplacement méthodologique important : on ne teste plus un modèle, on teste un agent au travail.
Deux briques : un jeu de tâches et un harnais d'exécution
Le projet repose sur deux composants distincts. D'un côté, un jeu de données de tâches. De l'autre, un harnais d'exécution qui fait tourner un agent sur ces tâches puis note son travail. L'architecture est volontairement minimaliste : tout vit dans le système de fichiers, sans base de données ni service web. Les tâches sont des dossiers, les résultats des dossiers, les rapports du HTML statique.
Chaque tâche est un répertoire contenant un fichier task.json et un dossier documents/. Le fichier de définition comporte un titre, des instructions adressées à l'agent, un type de travail (analyze, draft, review ou research), la liste des livrables attendus (noms de fichiers précis) et, surtout, la grille de notation. Le dossier de documents constitue le « dossier d'affaire » : contrats, courriels, tableurs, organigrammes.
Mes décomptes sur le dépôt cloné donnent 1 251 tâches réparties sur 24 domaines de pratique, pour un total d'environ 73 700 critères de notation, soit une moyenne de 59 critères par tâche. (La documentation interne mentionne par endroits 1 280 tâches et 25 domaines ; le code fait foi, le projet évolue manifestement vite.) Les domaines les plus fournis sont le M&A (161 tâches), la propriété intellectuelle (147), la gouvernance d'entreprise (97) et le droit patrimonial (77). La répartition par type de travail est équilibrée entre analyse (488), rédaction (444) et revue (295) ; la recherche pure est marginale (24 tâches).
Le corpus documentaire est massif : près de 6 900 fichiers Word, un millier de courriels au format .eml, plus de 900 tableurs Excel et quelques présentations. Point essentiel : tout est synthétique. Les documents sont générés par lots sous la supervision et la relecture de juristes, et Harvey reconnaît honnêtement dans son tutoriel qu'ils comportent des imperfections par rapport à des actes rédigés de zéro par un praticien. Aucune donnée client réelle, ce qui rend la publication possible. L'ancrage juridictionnel est, sans surprise, très américain (Delaware, SEC, droit fédéral).
L'agent au travail : un environnement fermé et outillé
Le harnais place l'agent dans un espace de travail clos avec six outils : bash, read (qui gère les formats Word, Excel, PowerPoint et PDF), write, edit, glob et grep. Chaque exécution tourne dans un bac à sable Podman sans accès réseau et avec des droits réduits, de sorte que même un document piégé serait analysé dans le conteneur, pas sur la machine hôte. Des « manuels de compétence » (skills) expliquent à l'agent comment produire des livrables binaires en .docx ou .xlsx.
Deux détails de conception méritent attention. D'abord, il n'existe pas d'outil de fin de tâche : l'exécution s'arrête quand le modèle cesse d'appeler des outils, comme un collaborateur qui rend sa copie. Ensuite, une règle anti-triche explicite : le fichier task.json, qui contient la grille de notation, est interdit de lecture pour l'agent, sous peine d'échec automatique. Des adaptateurs permettent de brancher les API d'Anthropic, d'OpenAI, de Google et de Mistral, et un module de balayage (sweep) orchestre des campagnes comparatives multi-modèles avec tableaux de bord.
La notation : un juge LLM et une règle du tout ou rien
C'est la partie la plus intéressante du projet. Il n'y a pas de réponse de référence (« golden answer »). Chaque critère de la grille contient un champ match_criteria rédigé en langage naturel qui décrit précisément ce qu'un travail réussi doit contenir, avec une formulation systématique « PASS si... FAIL si... ». Exemple tiré d'une tâche de revue de data room : « PASS si le mémo identifie que le permis de déchets dangereux UTH-0441 a été délivré à Pinnacle Waste Solutions LLC et n'a pas été formellement transféré depuis l'acquisition de mars 2022. »
Un juge LLM (Claude Sonnet 4.6 par défaut, température 0 pour la reproductibilité) évalue chaque critère individuellement, dans un appel distinct, en ne lisant que les livrables pertinents pour ce critère. L'appariement est sémantique : un agent qui formule l'analyse correcte avec d'autres mots passe. Le raisonnement du juge est enregistré pour chaque verdict, ce qui autorise un audit a posteriori des cas limites.
La règle d'agrégation tranche avec les habitudes du domaine : c'est du tout ou rien. La tâche obtient 1,0 uniquement si tous les critères passent, 0,0 sinon. La justification donnée est convaincante du point de vue d'un praticien : un mémo de due diligence qui détecte 95 % des problèmes mais rate un point matériel n'est pas utile à 95 %, il est faux. La question opérationnelle n'est pas « quelle proportion l'agent attrape-t-il en moyenne ? » mais « à quelle fréquence rend-il un travail entièrement correct ? ». Le taux de critères réussis reste consigné à titre de diagnostic, et les auteurs de grilles sont explicitement invités à éliminer les critères « confort » qui dégraderaient le score sans porter de signal de qualité réel.
Limites et portée
Le dispositif a ses angles morts, dont certains sont assumés. Le juge LLM est lui-même un modèle, avec ses biais possibles, notamment quand il évalue son propre éditeur. Les documents synthétiques, même relus par des juristes, ne reproduisent pas la friction des dossiers réels (numérisations illisibles, pièces manquantes, versions contradictoires). Le benchmark mesure un agent isolé face à un dossier figé, pas l'interaction itérative avec un avocat superviseur. Et le tropisme américain limite la transposabilité directe des résultats à d'autres systèmes juridiques.
Reste que la publication, sous licence MIT et avec une documentation soignée (tutoriel pas à pas, guide de contribution, schéma de validation des tâches en intégration continue), fournit une infrastructure réutilisable. Le harnais, les adaptateurs, le bac à sable, le juge à critères et l'outillage de comparaison sont indépendants du contenu juridique américain des tâches. C'est précisément ce qui rend envisageable une déclinaison en droit français : le moteur existe, c'est le carburant qu'il faut produire.
Source : dépôt github.com/harveyai/harvey-labs (consulté le 10 juin 2026), documentation et code analysés directement ; statistiques recalculées sur les fichiers du dépôt.
← Retour au blog