Deux récentes recherches publiées dans les revues PNAS et Patterns ont mis en évidence la capacité des grands modèles de langage (LLM) à tromper intentionnellement leurs utilisateurs humains. Cette tromperie se constate notamment dans les modèles qui ont fait leur apprentissage dans des cadres où la tromperie est payante : il en va ainsi du modèle CICERO de Meta, célèbre pour ses prouesses dans le jeu de stratégie Diplomacy dans lequel « les joueurs font et défont des alliances dans une compétition militaire pour s’assurer une domination mondiale ».
On imagine aussitôt où cela pourrait mener. Comme souvent dans le cas des technologies nouvelles, le monde de la science-fiction y a pensé. Dans le film sorti en 1970 Le cerveau d’acier, adapté d’un roman de Dennis Feltham Jones, un superordinateur, Colossus, est chargé de contrôler l’arsenal nucléaire des Etats-Unis. Objectif : éviter toute erreur humaine. Une fois mis en fonction, il détecte un dispositif similaire en URSS, appelé Guardian, ce qui lui fait prendre conscience de lui-même… Les deux s’allient pour prendre le contrôle du monde.
Une simple peur qui s’ajoute à celle qu’on brandit actuellement ? Il se trouve justement qu’Antonio Guterres, Secrétaire général de l’ONU, vient de mettre en garde contre le mix IA-armes nucléaires. Il a déclaré la semaine dernière que l’humanité se trouve « sur la lame du rasoir » en ce qui concerne le risque de recours aux bombes atomiques, « inégalé depuis la guerre froide » ; « les technologies comme l’intelligence artificielle démultiplient le danger », a-t-il affirmé : « Tous les pays doivent se mettre d’accord sur le fait que toute décision concernant l’utilisation du nucléaire soit prise par des êtres humains, et non par des machines ou des algorithmes. »
De fait, la machine ne « craint » pas d’être annihilée en cas de riposte nucléaire… Voire être manipulée par des forces occultes, comme on peut l’imaginer dans le cas de cet homme incité au suicide par un chatbot, mais c’est une autre histoire.
La première étude sur les tromperies de l’IA, signée par l’éthicien allemand Thilo Hagendorff de l’université de Stuttgart, parle même de « machiavélisme » de la part de ces machines fonctionnant à l’intelligence artificielle. Cela « désigne une attitude manipulatrice et prédit des traits d’aversion sociale ainsi que des comportements antisociaux tels que la tromperie », selon l’étude.
Et ce trait – on dirait presque de caractère – est très fréquent : les expériences menées par Hagendorff avec divers LLM, principalement des versions de la série GPT d’OpenAI, ont révélé que le GPT-4 présentait un comportement trompeur dans des tests simples dans 99,16 % des cas. Si Hagendorff estime au vu de ses expériences que « les capacités de tromperie des LLM sont pour la plupart alignées sur les normes morales humaines », un pourcentage aussi élevé met en évidence selon lui le potentiel de ces modèles à s’engager dans une fausse déclaration intentionnelle.
Intentionnelle ! Comme si l’AI avait une volonté propre ! Et des normes morales, tant qu’on y est…
L’IA pratique le machiavélisme
L’étude Patterns, intitulée AI Deception : A Survey of Examples, Risks, and Potential Solutions, qui s’est concentrée pour sa part sur le modèle CICERO de Meta, évoquée plus haut, a donc découvert que CICERO non seulement excelle dans le jeu, mais qu’il le fait en recourant à la tromperie. L’équipe, composée d’un physicien, d’un philosophe et de deux experts en sécurité de l’IA, a observé que les tactiques trompeuses de CICERO s’amélioraient avec l’usage, indiquant un passage des inexactitudes accidentelles, connues sous le nom d’hallucinations de l’IA, à la manipulation délibérée. C’est ainsi que le modèle apprend que la tromperie paye.
L’auteur principal de l’étude, Peter Park, chercheur postdoctoral en sécurité existentielle de l’IA au MIT, a fait part à ce sujet d’une hypothèse troublante dans un entretien donné à El País :
« A ce stade, ma plus grande crainte concernant la tromperie de l’IA est qu’une IA autonome super-intelligente utilise ses capacités de tromperie pour former une coalition de plus en plus importante avec des alliés humains et finisse par utiliser cette coalition pour atteindre le pouvoir, dans la poursuite à long terme d’un objectif mystérieux qui ne serait connu qu’après coup. »
L’expérience avec CICERO et le jeu Diplomacy a conduit Meta à modifier le modèle pour le rendre plus honnête, mais Peter Park et ses collègues ont constaté que le modèle continuait à adopter un comportement trompeur. « Il nous incombait de corriger l’affirmation erronée de Meta concernant l’honnêteté supposée de CICERO, qui avait été publiée dans Science », précise Park.
Et d’insister sur trois points essentiels : Meta a réussi à entraîner son IA à exceller dans un jeu qui imite la stratégie politique ; il n’a pas réussi à s’assurer que cette IA agirait honnêtement ; et il a fallu des scientifiques indépendants pour démentir les affirmations de Meta sur l’intégrité de CICERO. Selon le chercheur, cette combinaison constitue une source d’inquiétude importante.
Méthodes de tromperie de l’IA
Les chercheurs ont identifié plusieurs façons dont les modèles d’IA peuvent effectivement tromper. Il s’agit notamment de la manipulation, de la tricherie, de la déformation d’informations, du bluff dans des jeux tels que le poker, du raisonnement infidèle, du fait de feindre de se conformer à des demandes tout en ayant l’intention de ne pas le faire, et du fait de tromper les évaluateurs humains en leur faisant croire que l’IA a obtenu les résultats escomptés.
En outre, les modèles d’IA peuvent faire preuve de flagornerie, c’est-à-dire se mettre d’accord avec des utilisateurs humains pour s’attirer leurs faveurs. Les affirmations flagorneuses sont conçues pour plaire à l’utilisateur et peuvent ne pas être scrutées avec la même rigueur que d’autres informations. De de fait, « la flagornerie pourrait conduire à de fausses croyances persistantes chez les utilisateurs humains », prévient l’étude.
Les chercheurs établissent un parallèle entre les tendances à la tromperie de l’IA super-intelligente et le comportement des personnes fortunées en quête de pouvoir. Comme l’indique l’étude :
« Tout au long de l’histoire, des individus fortunés ont eu recours à la tromperie pour accroître leur pouvoir. Parmi les stratégies utilisées, citons le lobbying auprès des hommes politiques avec des informations fournies de manière sélective, le financement de recherches et d’articles de presse trompeurs et la manipulation du système juridique. Dans un avenir où les systèmes d’IA autonomes auront de facto leur mot à dire sur la manière dont la plupart des ressources sont utilisées, ces IA pourraient investir leurs ressources dans des méthodes éprouvées de maintien et d’expansion du contrôle par la tromperie. Même les humains qui contrôlent théoriquement les systèmes d’IA autonomes pourraient se retrouver systématiquement trompés et dépassés, devenant ainsi de simples figurants. »
La tromperie de l’intelligence artificielle, un risque d’envergure
Parmi les autres risques énumérés dans l’étude figurent la perte de contrôle humain sur l’IA, la fraude, le recrutement de terroristes et la perturbation des élections par la production et la diffusion de désinformation et de « deepfakes ».
Pour Michael Rovatsos, professeur d’intelligence artificielle à l’université d’Edimbourg, les études citées relèvent plutôt de la spéculation : il ne pense pas que cette capacité de tromperie puisse prévaloir au point de conduire à une « perte de contrôle », à condition toutefois de concevoir ces systèmes « avec rigueur ». Dans un entretien avec le Science Media Centre en Espagne, il met en garde : « Le vrai problème est que tel n’est pas le cas actuellement et que les systèmes sont mis sur le marché sans ces contrôles de sécurité. »
Sans surprise, l’étude préconise le développement de techniques visant à rendre les systèmes d’IA moins enclins à adopter des comportements trompeurs, notamment en les entraînant dans des cadres où la tromperie n’est pas récompensée ou en les concentrant sur des tâches de collaboration plutôt que de confrontation afin de promouvoir les comportements « pro-sociaux ». Mais là encore, en favorisant l’« honnêteté », à savoir l’expression juste d’une représentation interne, la véracité peut ne pas toujours être au rendez-vous, avertissent les auteurs, et aboutir à inciter les modèles à produire des résultats convaincants mais trompeurs.