Déployer

Prolifération des modèles opensource : enjeux et conséquences

Raphaël d'Assignies

23 mai 2023

DALL-E-2023-05-16-18.52.20—Nuclear-proliferation-in-the-style-of-vaporwave.png

Dans un mémo interne à Google, ayant récemment (opportunément ?) fuité, l’auteur met en perspective les conséquences d’un phénomène émergent à savoir l’utilisation des modèles opensource dans le domaine de l’IA générative.

Ce mémo est très intéressant car il pointe les avancées récentes de l’IA générative :

la capacité à entraîner les modèles à partir d’un simple ordinateur,
le caractère maîtrisé et privé de ces modèles,
l’utilisation de ces derniers sur un simple ordinateur portable.

Il pointe les faiblesses de Google mais également d’OpenAI de manière alarmiste en matière d’avantages concurrentiels : pourquoi payer pour utiliser des modèles qui sont, par ailleurs, disponibles gratuitement ?

A cela, il met en exergue la rapidité des innovations, en quelques jours parfois, qui réduisent les avantages concurrentiels de Google et d’autres.

Le coup est venu de Meta (ex. Facebook) qui publie depuis longtemps, par l’intermédiaire du Facebook’s AI Research, de nombreuses librairies dans le domaine de l’IA comme Pytorch. En faisant opportunément fuiter les différentes versions de son modèle LLaMA, Meta a ouvert la voie à la prolifération des modèles. Il suffit pour s’en convaincre de visualiser les variantes recensées à fin avril :

Model	Size	Training data
LLaMA (base model)	7B, 13B, 33B, 65B	Various
Alpaca	7B, 13B	52k GPT-3 instructions
Vicuna	7B, 13B	70k ChatGPT conversations
Koala-distill	7B, 13B	117k cleaned ChatGPT conversations
GPT4-x-Alpaca	13B	20k GPT4 instructions
WizardML	7B	70k instructions synthesized with ChatGPT/GPT-3
OpenAssistant LLaMA	13B, 30B	600k human interactions (OpenAssistant Conversations)

Source : https://agi-sphere.com/llama-models

Ces différentes variantes correspondent au fine-tuning de LLaMA en utilisant différentes techniques. Une des plus intéressantes est Alpaca, initiée par Stanford qui a utilisé les capacités de GPT pour créer un jeu de données de 52000 exemples à partir d’un jeu de 175 instructions de base. Pour quelques centaines de dollars, et en s’appuyant sur un modèle propriétaire, Llama a été adapté avec ce jeu de données pour donner Alpaca.

L’intérêt de cette approche est de démontrer qu’on peut atteindre une certaine performance pour quelques centaines de dollars en générant un jeu de données synthétique à partir d’autres modèles. En bref, vous pouvez concurrencer Bard ou ChatGPT avec un investissement minime. A l’heure, où Google annonce vouloir mettre de l’IA partout, cette innovation va certainement bouleverser les positions acquises de longue date.

DASSIGNIES-avocat-intelligence-artificielle-cybersecurite-strategie-protection-actifs-immateriels-formations-expertises-blog-¨PT-4-grades

Source : https://lmsys.org/blog/2023-03-30-vicuna/

A partir de cette description idyllique dans un monde libre de concurrents loyaux (:-), on peut se poser plusieurs questions : Quelle sera la réponse des BigTech à ce qui est perçu comme une menace existentielle ? Ce phénomène va-t-il rompre les liens de dépendances avec les LLM ? Quelle responsabilité portent les acteurs qui mettent ce type de technologies entre les mains de tout un chacun ?

La fermeture comme moyen de protection

Loin de faciliter la montée en puissance de l’opensource dans le domaine de l’IA générative, cette guerre des modèles va vraisemblablement entraîner une crispation des géants du web qui, jusqu’à alors, dans le domaine, pratiquaient une politique d’hyper-ouverture parfois surprenante.

D’ailleurs Google, à l’origine du papier ayant formalisé les Tranformers, a donné l’ordre à ses chercheurs, selon le Washington Post, de fermer les écoutilles ; autrement-dit d’arrêter de publiciser leur recherche. Cette nouvelle stratégie, en pleine tempête ChatGPT, vise à préserver, selon le journal, le business model de Google et, par voie de conséquence, son futur.

De la même manière, et comme cela a été souligné à maintes reprises, OpenAI n’a pas rendu publiques des informations jugées stratégiques concernant GPT4.

Meta pourrait continuer à publier ses recherches et ses modèles y voyant, au-delà des aspects philosophiques de l’opensource, un moyen de couper l’herbe sous le pied de ses concurrents. Mais cette politique pourrait brusquement changer dans l’avenir.

Dans tous les cas, la plupart des projets qui s’appuient aujourd’hui sur des modèles pré-entraînés restent dépendant des LLM pour exister.

Les LLM : une barrière à l’entrée quasiment infranchissable aujourd’hui.

L’entraînement des LLM pose actuellement trop d’enjeux pour être accessible à la plupart des organisations.

Il ne faut pas perdre de vue que la puissance des modèles repose sur des facteurs quantitatifs. C’est le nombre de paramètres qui fait la puissance des modèles et, notamment, leur capacité à comprendre le langage ou être utilisés de manière généraliste.

Au-delà de l’enjeu financier que représente l’entraînement, il y a également les enjeux liés à la taille des jeux de données, aux reprises sur erreurs… Ces différents aspects sont autant de barrières, à l’heure actuelle, pour entraîner de nouveaux modèles aussi performants que ceux d’OpenAI par exemple.

Malgré l’accueil enthousiaste de modèles alternatifs comme Alpaca, ils restent en deçà, en terme de performance, des modèles propriétaires comme le démontre un papier récent.

Ce constat, à date, fait que le passage par un LLM est indispensable pour produire un résultat satisfaisant. Par conséquent, le lien avec ces modèles ne peut pas être rompu. Cela signifie que la dépendance au bon vouloir de géants comme Meta reste entière.

Si ces derniers ne sont plus disponibles ou répondent à des conditions drastiques, beaucoup d’acteurs devront se contenter de versions obsolètes.

On m’objectera qu’il existera toujours des acteurs faisant le jeu de l’ouverture comme HuggingFace à qui l’on doit notamment Bloom, parfait exemple de symbiose entre public et privé.

Dans tous les cas, l’existence de LLM aptes à être utilisés dans différentes langues, avec des jeux de données connus est un enjeu stratégique non seulement sur le plan économique mais également sur le plan géo-politique.

Les effets de bord de la prolifération

L’impensée de l’industrie de l’IA Générative réside dans les conséquences de l’utilisation de ces modèles.

Si l’on se concentre sur les conséquences plus larges de la prolifération des modèles, on peut se poser la question des effets délétères que cela engendre à mettre en regard du bénéfice de la liberté et de l’innovation.

En effet, on pensera ce que l’on veut des BigTechs sur les aspects éthiques de l’IA – hypocrisie ou réelle prise de conscience – mais la concentration permet, notamment au régulateur, d’identifier un responsable. Un juste milieu est également de mettre en place des politiques plus ou moins restrictives quant à la diffusion des modèles pré-entraînés en vue d’une réutilisation.

A l’inverse, la prolifération risque de créer un far-west difficile à réguler dans l’avenir. Dans un monde où l’IA générative va bouleverser la notion de vérité, la prolifération consiste à donner l’arme nucléaire à n’importe quel délinquant.

Pour autant, il existe des parades qui sont un mélange de droit souple et de régulations plus contraignantes comme le prépare actuellement le législateur européen.

Déployer

Par Raphaël d'Assignies /

31 mars 2025

La recherche juridique augmentée par le raisonnement

La recherche juridique se trouve aujourd’hui dans une phase de transition significative, marquée par une succession d’approches méthodologiques …

Comprendre

Par Raphaël d'Assignies /

28 mars 2025

Le raisonnement juridique comme nouvelle frontière des modèles de langage

L’année 2024 a marqué un tournant décisif dans l’évolution des modèles d’intelligence artificielle avec l’émergence des modèles optimisés pour l …

Ressources

Par Raphaël d'Assignies /

24 mars 2025

Questions fréquentes : l’IA au sein d’un cabinet d’avocats

Les 10 questions/réponses les plus fréquemment rencontrées au cours des formations et des conférences que je donne sur l’implantation et l’utili …

À la croisée de l’intelligence artificielle et du droit, une newsletter mensuelle pour suivre les transformations du secteur juridique.

Retrouver chaque mois, des actualités et des articles qui explorent deux axes principaux :

L’actualité de la legaltech et de l’intelligence artificielle : innovations, outils pratiques et solutions technologiques qui font évoluer le quotidien des professionnels du droit
Les enjeux de l’IA juridique : analyses sur la régulation des modèles de langage, questions de propriété intellectuelle, implications éthiques et juridiques de ces technologies émergentes.

Une veille experte et accessible pour rester à la pointe des mutations qui façonnent l’avenir du droit.