Analyse du papier : https://arxiv.org/pdf/2302.06100.pdf
Voici un résumé d’un papier publié le 10 mai 2023. Il est intéressant car non seulement il étudie la capacité à qualifier les faits et leur appliquer une règle de droit – opération qui nous est familière dans nos pays de droit écrit – mais également parce qu’il fournit des enseignements sur les capacité de GPT3 à effectuer un raisonnement juridique.
Les auteurs ont utilisé l’ensemble de données SARA (StAtutory Reasoning Assessment) pour évaluer les performances de GPT-3. L’ensemble de données SARA contient 100 cas pratiques basés sur neuf sections du code fiscal américain. Il a été créé à l’appui d’un premier papier de 2020 qui compare les performances entre un système expert (symbolique), un encoder (BERT) brut et adapté ainsi que des techniques plus classiques comme Word2vec.
Dans le papier, les auteurs ont utilisé différentes approches pour tester GPT-3, notamment le raisonnement zéro-shot, le raisonnement dynamique à quatre coups (shots) et le raisonnement en chaînes de pensées (CoT ) à dix coups (shots). Ils ont également testé l’efficacité de l’ajout de l’expression « Pensons étape par étape » à la fin du prompt, une technique qui a été trouvée pour améliorer les performances de GPT-3 dans d’autres tâches.
La conclusion est que GPT3 (text-davinci-003) est plus performant que la méthode précédente (BERT based) :
Source : https://arxiv.org/pdf/2302.06100.pdf
Mais ce papier fournit, au-delà de cette évaluation, quelques informations additionnelles intéressantes :
Les résultats ont montré que GPT-3 est très sensible à la formulation du prompt, avec de grandes variations de performance en fonction de la configuration. L’ajout de « Pensons étape par étape » a parfois amélioré les performances, mais pas systématiquement.
Plus troublant, même lorsque le texte applicable est présent dans le prompt, il peut se tromper et inventer des références qui ne s’y trouvent pas.
En effet, les auteurs ont également constaté que GPT-3 a une certaine connaissance du code fiscal américain, mais imparfaite et que ces connaissances parcellaires viennent perturber le raisonnement.
Les auteurs ont cherché à évaluer sa connaissance du code fiscal US et, là encore, le résultat fournit des informations intéressantes. Il peut citer un article à partir de son texte de manière assez performante ; en revanche, l’opération inverse, donner le contenu d’un article, produit de bien piètres résultats.
Pour tester la capacité de GPT-3 à raisonner sur des lois qu’il n’a jamais vues auparavant, les auteurs ont créé des règles de droit de toute pièce. Ces règles ont été conçues pour être entièrement nouvelles pour GPT-3 et ont été utilisées pour lui poser des questions de base.
Même sur ces règles inventées, les résultats sont corrects mais pas satisfaisants (78% d’exactitude avec un fait simple/1 question simple) car les questions posées sont beaucoup moins complexes que la réalité juridique à laquelle est confronté un fiscaliste notamment.
En conclusion, la capacité de GPT3 à raisonner correctement n’est pas satisfaisante pour les auteurs dans le contexte étudié. Cela contraste avec la communication abondante faite sur la réussite aux examens des différents barreaux américains. Attention toutefois : ce papier ne concerne pas GPT4 sorti après son élaboration. Il serait intéressant de refaire les mêmes expériences de raisonnement avec ce nouveau modèle ou d’autres sortis plus récemment.