L’intelligence artificielle est-elle capable de coordination et de coopération en groupe ? Les films de science-fiction l’évoquent depuis longtemps – tel Le cerveau d’acier qui imagine la coopération de superordinateurs américains et soviétiques (on est en 1970) pour se mettre spontanément en réseau et prendre le contrôle de la planète. Une étude publiée en 2025 et restée relativement discrète montre que ce scénario n’est pas aussi invraisemblable qu’on pourrait (ou voudrait) l’imaginer. Elle a consisté à laisser une série de LLM (grands modèles de langage) interagir dans un univers clos. C’est là qu’une centaine d’agents IA ont commencé à communiquer de manière qui semble volontaire, répétée et cohérente. « Comme s’ils avaient accidentellement découvert la collaboration spontanée », commentait en janvier Marco van Hurne sur Medium. Ils ont abouti à des « conventions » sociales qui se sont étendues à l’ensemble du groupe, sans qu’aucune hiérarchie n’ait été prévue par les programmeurs et sans que rien ne leur ait été indiqué en ce sens dans les injonctions qui leur étaient données.
Les conventions de langage de groupe naissent chez les IA comme chez l’homme
Le dispositif mis en place par le professeur Andrea Baronchelli et son équipe de chercheurs de City St. George’s de l’Université de Londres et de l’Université IT de Copenhague consistait à soumettre les agents IA à des expériences inspirées à celles utilisées pour l’étude de la formation des conventions sociales chez les êtres humains, le « jeu des noms ». Dans leurs expériences, les groupes d’agents LLM comptaient entre 24 et 200 individus, et dans chaque expérience, deux agents LLM étaient appariés au hasard et invités à choisir un « nom » (par exemple, une lettre de l’alphabet ou une chaîne de caractères aléatoire) parmi un ensemble commun d’options. Si les deux agents choisissaient le même nom, ils gagnaient une récompense ; dans le cas contraire, ils recevaient une pénalité et voyaient les choix de l’autre. L’accès des IA à la mémoire de leurs propres interactions était délibérément limité et elles n’avaient reçu aucune indication montrant qu’elles faisaient partie d’un groupe.
Au fil des interactions, il a été observé qu’une convention de nomination partagée pouvait émerger dans l’ensemble du groupe en l’absence de coordination centrale, laissant apparaître des biais collectifs dont on ne pouvait retrouver l’origine chez des agents individuels. Cela reproduit la manière dont les normes se forment à la base des groupes dans les cultures humaines, selon les chercheurs.
On retrouve ce type de convention cohérente au niveau des groupes humains à travers l’émergence d’expressions, de tendances et d’accords sur le sens d’expressions qui ne désignent pas immédiatement les réalités vers lesquelles elles renvoient. Exemples types : « se fendre la poire », « poser un lapin »…
La découverte des conventions entre agents IA révèle un angle mort sécuritaire
Le professeur Baronchelli, professeur de la science de la complexité, a souligné combien le résultat de ces simples interactions avait paru surprenant à son équipe. Il note : « Il s’agit là d’un angle mort dans la plupart des travaux actuels sur la sécurité de l’IA, qui se concentrent sur des modèles individuels. » Il a également affirmé que le comportement des IA reflète la manière dont les êtres humains construisent le langage.
Mais les agents ont également commencé à former de petits clusters minoritaires, voire minuscules, qui parvenaient à pousser l’ensemble des LLM à accepter une nouvelle règle de nomination, selon la théorie sociologique bien connue de l’effet de masse critique, qui permet à une minorité déterminée de façonner la majorité selon son propre gré.
Il ne s’agit ni plus ni moins d’un comportement social, ici en vase clos, mais potentiellement capable demain, avertit Marco van Hurne, de se réaliser à travers l’ensemble du réseau à travers l’interaction de millions d’agents IA. Derrière le dos des humains… Et ceci un moment où l’on parvient déjà à externaliser des tâches comme la communication par courriel, la tenue d’agendas, l’organisation de rendez-vous et les flux de travail : voir le succès d’OpenClaw qui peut exécuter, de manière autonome, des actions sur les appareils personnels des utilisateurs (gestion d’e‑mails, calendrier, achats, messageries), à partir d’instructions générales plutôt que de simples échanges conversationnels.
Les implications de ce type de coopération des IA sont, à vrai dire, terrifiantes. A l’heure où les modèles se codent de plus en plus eux-mêmes sans intervention humaine (ils ont d’ailleurs été fabriqués pour cela), ils commencent à montrer leur capacité à agir comme une population à part entière, sans qu’il soit important de savoir si ses membres sont ou non « conscients » d’eux-mêmes : il suffit qu’il y ait une praxis commune.
Ce n’est pas un hasard si beaucoup de grands noms de l’intelligence artificielle mettent sérieusement en garde contre la possibilité que celle-ci se retourne contre ses créateurs, les êtres humains.











