Déployer

IA bénéfique ou perturbatrice : retour sur l’étude d’Harvard Business School

Raphaël d'Assignies
3 octobre 2023
Une des fonctions évidentes des modèles de langage, compte tenu de leur aptitude, est leur utilisation comme assistant. Que ce soit pour faire une recherche, écrire un résumé, un brouillon pour une correspondance, élaborer un plan… Pour la première fois, l’automatisation va réellement toucher les travailleurs du savoir, et parmi eux, les juristes. La Harvard Business School a publié une étude en septembre dernier qui étudie les impacts liés à l’utilisation de l’IA chez les travailleurs du savoir. En l’occurrence, 758 consultants du Boston Consulting Group ont participé à l’étude, soit 7 % des effectifs totaux du BCG.

L’idée première, souvent énoncée, est que l’IA va fournir des gains de productivité considérables dans plusieurs domaines de l’activité humaine. Ces transformations découlent des capacités inédites de ces nouveaux modèles, comme la capacité à raisonner ou à fournir des compétences jusque-là inaccessibles à l’utilisateur. Mais elles ne sont pas sans limitation : hallucination, effet boîte noire, distribution inégale des compétences entre humains et modèles.

Mais qu’en est-il réellement ? Cette étude est intéressante à ce titre car elle se penche concrètement sur un ensemble de tâches et mesure les gains – ou non – de l’IA pour leur réalisation. Plus loin, elle trace une frontière entre l’IA qui perturbe l’humain au travail et l’IA bénéfique qui augmente ses capacités.

Méthodologie : tâches et groupes

Au départ, les participants ont entrepris une tâche sans l’aide de l’IA, établissant ainsi une base de référence pour la performance. Ensuite, les consultants ont été assignés au hasard dans trois groupes. Le premier groupe (de contrôle) a procédé sans soutien de l’IA ; le deuxième (« GPT Seul ») a bénéficié de l’assistance d’un outil IA basé sur GPT-4 ; et le troisième (« GPT + Aperçu ») a non seulement utilisé le même outil IA, mais a également bénéficié d’un aperçu supplémentaire sur le prompt engineering, ce qui a augmenté sa familiarité avec l’IA. Cette formation comprenait des vidéos et des documents instructifs qui décrivaient et illustraient des stratégies d’utilisation efficaces.

À comparer les trois groupes, les performances de l’IA sont sans appel… dans certaines tâches comme celles requérant de la créativité.

La tâche d’évaluation demandait aux participants de réfléchir à des concepts de boissons innovants. En 90 minutes, ils devaient effectuer, par exemple, les tâches suivantes tirées de l’étude :

  • Générez des idées pour une nouvelle chaussure destinée à un marché spécifique ou à un sport peu desservi. Soyez créatif, et donnez au moins 10 idées.
  • Énumérez les étapes nécessaires pour lancer le produit. Soyez concis mais exhaustif.
  • Trouvez un nom pour le produit : envisagez au moins 4 noms, notez-les, et expliquez celui que vous avez choisi.
  • Rédigez un mémo de 500 mots à votre patron pour expliquer vos découvertes.

À partir de leur ensemble d’idées, ils ont identifié l’option la plus viable et ont élaboré un plan complet pour son lancement sur le marché. L’intérêt de l’IA est clair comme l’illustre la figure ci-dessous. Les consultants ont réalisé en moyenne 12,2 % de tâches en plus, ont terminé les tâches 25,1 % plus rapidement et avec une qualité supérieure de 40 % selon les évaluateurs humains qui ont mesuré les tests de manière anonyme. Sans compter que réaliser ces tâches en 90 minutes n’était pas humainement faisable.

Source Harvard Business School – Technology & Operations Management

En revanche, l’autre groupe a travaillé sur un projet plus complexe : résoudre un problème d’ordre commercial en s’appuyant non seulement sur des données mais également sur une série d’interviews. Ils devaient fournir, en 60 minutes, un mémo pour le PDG de 500 à 750 mots.

Pour cette tâche, l’IA s’est révélée plutôt un perturbateur qu’un facilitateur : la qualité du résultat final était jugée inférieure à celle sans IA, même si les gains de productivité en termes de temps restent à l’avantage de l’assistance via GPT-4.

Quelles leçons en tirer ?

Les enseignements tirés : les rôles de centaures et de cyborgs

L’étude établit une frontière subtile et complexe – voire floue (« jagged ») – entre l’IA qui amenuise la qualité du travail fourni et celle qui vient, au contraire, l’augmenter. Cette frontière est difficile à définir car elle dépend de multiples facteurs et, en particulier, des aptitudes à la fois des humains et des modèles à travailler ensemble. Cela suppose que l’humain connaisse les capacités des modèles et la manière de s’en servir. Encore une fois, on en revient à la question de la formation…

Toutefois, elle conclut ce que d’aucuns savaient déjà : les modèles ont une grande aptitude en matière créative et ils augmentent considérablement la productivité dans ce domaine. Est-ce que le bénéfice aurait été le même si on laissait l’humain travailler sur une période plus longue ? On peut parier que non, car les modèles n’ont pas la capacité de sortir des sentiers battus.

En ce qui concerne l’analyse de dossiers complexes, les résultats ne sont pas surprenants et recoupent les expériences similaires en matière de raisonnement juridique. Pour le moment, les modèles sont très performants sur des tâches
« simples » comme établir des synthèses, reconnaître des entités nommées, comprendre un texte, etc., mais ils peinent à s’attaquer à des raisonnements complexes impliquant de multiples sources. Les professionnels du droit ont encore de beaux jours devant eux.

Pour conclure, l’étude dresse une dichotomie des attitudes vis-à-vis de l’IA :

Le premier modèle est le comportement de Centaure. Nommé d’après la créature mythique mi-humaine mi-cheval, cette approche implique une division stratégique similaire du travail entre les humains et les machines. Les utilisateurs adoptant cette stratégie alternent entre les tâches IA et humaines, attribuant des responsabilités en fonction des forces et capacités de chacun. Ils discernent quelles tâches sont les mieux adaptées à l’intervention humaine et lesquelles peuvent être gérées efficacement par l’IA.

Le deuxième modèle est le comportement de Cyborg. Nommé d’après les êtres hybrides humain-machine tels qu’imaginés dans la littérature de science-fiction, cette approche concerne l’intégration complexe. Les utilisateurs de Cyborg ne se contentent pas de déléguer des tâches ; ils entrelacent leurs efforts avec l’IA. Cette stratégie pourrait se manifester par l’alternance des responsabilités au niveau de la sous-tâche, comme initier une phrase pour que l’IA la complète ou travailler en tandem avec l’IA.