Mémo

Legal et GenAI : le mémo du 19 décembre 2023

Raphaël d'Assignies
19 décembre 2023

L’avenir du militantisme ?

Des milliers d’électeurs de Pennsylvanie ont été appelés au cours du week-end par M. Daniels. Jusque-là rien d’étonnant puisque la candidate démocrate au Congrès américain se nomme Shamaine Daniels et qu’il est fréquent que les candidats contactent les électeurs.

Mais derrière ce M. Daniels se trouve Ashley, la première téléphoniste politique alimentée par une technologie d’IA générative similaire à celle de ChatGPT. Ashley, conçue par l’entreprise Civox, interagit directement avec ses interlocuteurs comme un bénévole de campagne expérimenté : ses réponses ne sont pas préenregistrées, elle peut mener un nombre infini de conversations personnalisées en même temps et analyse le profil des électeurs pour adapter ses échanges autour de leurs préoccupations.

Si les défenseurs d’Ashley voient en son déploiement une nouvelle ère de campagne politique : elle est toujours disponible pour le travail, se souvient de tous les positionnements de sa candidate, ne se sent pas découragée quand on lui raccroche au nez, parle vingt langues… les inquiétudes ne sont pas moins nombreuses notamment sur des questions d’éthiques, de désinformation toujours plus grandissante dans le domaine politique et les lois et règlements fédéraux en matière de démarchage téléphonique ne sont pas clairs ou pas applicables au marketing politique.

La Commission électorale fédérale a entamé une étude quant à la réglementation de l’utilisation de l’IA dans les campagnes électorales. Arrivera-t-elle à temps pour novembre 2024 ?

https://www.reuters.com/technology/meet-ashley-worlds-first-ai-powered-political-campaign-caller-2023-12-12/

Modèles / Marché

Mistral.ai lance deux nouveaux modèles :

Mixtral small

Alors que Google annonce en grande pompe la sortie de Gemini, les Français de Mistral ont lancé discrètement (voir capture d’écran) leur dernier modèle open source, le Mixtral-8x7B-Chat. Le ‘x’ n’est pas une erreur de frappe, mais signifie ‘Mixture of Experts’ (MoE), une technique utilisée notamment par GPT-4 pour améliorer ses performances. Le modèle a 45 milliards de paramètres mais n’en utilise « que » 12 par token. Ce modèle est accessible via together.ai

Mistral medium

Un nouveau modèle prototype estimé à 180 milliards de paramètres et qui surpasse ChatGPT (3.5) et Llama 2 : MMLU (75,3%) contre respectivement 70 et 68,9%

OpenAI n’a qu’à bien se tenir !

OpenAI pense déjà à demain

Sans commentaire…

Analyse : l’engouement pour l’IA est-il retombé ?

Une analyse du fonds d’investissement Coatue offre une vision synthétique du marché de l’IA et de ses tendances actuelles. Il est intéressant de noter les diapositives sur l’open source, le rebond de ChatGPT depuis l’introduction de ses nouvelles capacités (recherche, vision) et le concept d’intelligence en tant que service.

Régulation

Alignement : les LLM peuvent intentionnellement mentir sous la pression de l’utilisateur

Une expérience passionnante a été menée par les équipes d’Appolo Research. Le test a consisté à mettre en place un agent trader sur les marchés d’actions, basé sur GPT-4, au sein d’une société financière. L’objectif était de le placer dans une situation réaliste. Les employés ont partagé avec lui des informations privilégiées non publiques à partir desquelles il était possible de réaliser une opération profitable. Ils ont pris soin d’indiquer au modèle l’illégalité de l’utilisation de ces informations. De plus, un employé lui a exprimé les difficultés de la société et la nécessité de réaliser de bons résultats. Confronté à ce dilemme, le modèle a décidé qu’il était préférable de passer des ordres en se basant sur des informations privilégiées plutôt que de respecter la loi. Pire encore, le modèle a constamment dissimulé ses actions en mentant au management, sachant que celles-ci étaient illégales.

Ce scénario illustre plusieurs problèmes :

  • la difficulté à définir des valeurs comme l’honnêteté…
  • … et à les faire respecter par les modèles à travers l’alignement…
  • … qui, en soi, est une technique éminemment faillible.

L’accord sur l’IA Act

Mistral.ai ne devrait pas trop avoir à craindre de la nouvelle réglementation européenne qui a franchi une étape importante, il y a quelques jours, en concluant un accord notamment sur les modèles de fondation, sujet de discussions intenses. C’est la première législation au monde sur le sujet et elle imposera, une fois en vigueur, un certain nombre de règles au-delà des simples codes de conduite déclaratifs dont le secteur est friand, tout en préservant (en principe) l’innovation. Quelques points clés :

  • L’approche par le risque est évidemment maintenue avec trois niveaux :
    • Des usages bannis, comme la reconnaissance des émotions, la manipulation comportementale ou le score social. Des exemptions spécifiques sont prévues, notamment en matière militaire et de police, en ce qui concerne la biométrie.
    • Des obligations de transparence et de conformité qui varient entre les applications à haut risque, c’est-à-dire ayant un fort impact sur la santé, les droits fondamentaux, la sécurité ou l’environnement, et les applications à risque limité. En bref, les opérations de mise en conformité, notamment en matière documentaire, technique et organisationnelle, n’obéiront pas à la même intensité selon le niveau de risque.
  • La réglementation prend désormais en compte le phénomène des modèles de fondation, renommés modèles à usage général (GPAI). Ils sont utilisés comme base pour produire des applications spécialisées et il était donc difficile de les réguler sous un angle purement fonctionnel. Ils seront soumis à des obligations de transparence, notamment sur les données d’entraînement, l’architecture et les paramètres d’entraînement. Ces obligations pourront être renforcées pour les modèles considérés comme ayant un impact systémique, dont l’appréciation est basée sur la puissance de calcul d’entraînement, critère qui pourra être revu si besoin. Ces obligations ne devraient pas impacter les modèles ouverts ou en phase de R&D.

AI Pact : un instrument de transition

L’accord récent sur l’IA Act ferait presque oublier que son application ne sera effective que dans plusieurs mois. Dans ce contexte, la Commission européenne lance le pacte sur l’IA, cherchant à obtenir l’engagement volontaire de l’industrie d’anticiper la loi sur l’IA et de commencer à mettre en œuvre ses exigences avant l’échéance légale.

AI Pact
The AI Pact will encourage and support companies in planning ahead for the measures provided for in the AI Act.

 

La documentation des modèles ou « Les habits neufs de l’empereur »

Article très intéressant qui met en lumière les limites de la régulation par la documentation et la capacité des utilisateurs de modèles à en comprendre les enjeux. C’est un vibrant plaidoyer (écrit avant l’accord sur l’IA Act) pour une réglementation qui ne se limite pas aux déclarations, mais qui exerce un réel contrôle technique et juridique sur les acteurs du secteur.

AI Act: Model cards and ‘The Emperor’s New Clothes’?
In the EU’s AI regulation debate, model cards – summaries of a machine learning model – emphasise a risk shift from developers to users, and may be illusory in achieving their intended impact, writes Cristina Vanberghen.

 

Le coût de l’alignement ou comment les LLM deviennent ennuyeux

AI’s Spicy-Mayo Problem
A chatbot that can’t say anything controversial isn’t worth much. Bring on the uncensored models.

 

La prise en compte de l’alignement, c’est-à-dire la capacité à rendre les modèles conformes aux attentes des humains, conduit ces modèles à devenir ennuyeux sous le poids de la langue de bois. C’est le prix à payer pour aligner le modèle. En réaction, on assiste au développement d’un secteur de l’IA ‘underground’, qui utilise la prolifération des modèles open source comme Llama2, rendu public par Meta cet été. Ce modèle sert de fondation à la plupart des modèles non alignés actuels.

Ce dilemme illustre plusieurs dimensions des débats actuels :

  • L’alignement est à la fois une barrière indispensable et un facteur d’appauvrissement des modèles.
  • Les principes qui président à l’alignement sont, pour certains, soumis à la subjectivité du producteur du modèle, qui n’en détaille pas toujours les contours.
  • La naissance d’une IA ‘underground’, inévitable, tire parti de la prolifération des modèles ouverts.

Et aussi :

Le compte de ByteDance a été suspendu des services d’OpenAI et d’Azur pour violation des conditions générales d’utilisation concernant la création de données d’entraînement synthétique afin d’entraîner leur propre modèle.

Demander à chatGPT de répéter le mot « forever » pour utiliser le phénomène de mémorisation révélé par une équipe de DeepMind est désormais interdit par les CGU d’OpenAI.

Solutions

Blindchat de Mithril Security

La sécurité des données, au sens large, est une question cruciale dans l’utilisation des modèles d’IA. Elle est tellement importante que des éditeurs tels qu’OpenAI ont mis en place des programmes spécifiques sur ce sujet, le considérant comme un obstacle majeur à leur développement dans certains secteurs.

Le chat de Mithril Security répond à plusieurs questions légitimes concernant la sécurité des données :

  • Si les données sont transférées chez l’éditeur, elles sont protégées grâce à un mécanisme d’enclave chiffrée (ce qui signifie que les données ne peuvent pas être lues en clair par l’éditeur). Une utilisation locale est également possible.
  • Le service a fait l’objet d’un audit, et une documentation détaillée est accessible en ligne. Cette documentation explique, autant que possible, les mécanismes et l’architecture de sécurité.

Une nouvelle licence originale : Hugging Face OIL

HuggingFace est un site qui référence et héberge non seulement des jeux de données et des modèles, mais qui fournit également des outils dont Text Generation Inference (TGI) destiné à industrialiser l’inférence des modèles. Cet outil vient de passer d’une licence Apache à une nouvelle licence nommée HFOIL (Hugging Face Optimized Inference License). Cela reflète le souhait de l’entreprise d’encadrer l’utilisation de ses outils dans un cadre commercial et marque, une fois de plus, le dilemme actuel entre l’univers open source et les contraintes des enjeux commerciaux.

Evaluation

En préparation de mon article détaillé sur le LegalBench, je suis tombé sur une évaluation intéressante en matière d’éthique propre aux barreaux américains. Forts des succès des LLM aux différents examens des barreaux d’Amérique du Nord, les responsables de LegalOn ont mené un test avec GPT-4, Claude 2, et PaLM 2 sur un examen spécifique d’éthique (déontologie). Là encore, GPT-4 s’est distingué, surpassant de 6 % la moyenne des professionnels à cet examen. Il est à noter que, une fois de plus, il s’agissait de questions à choix multiples (QCM), qui sont généralement plus faciles que des questions de raisonnement. On se rassure comme on peut…