L’IA Claude Mythos trop puissante, menteuse et rebelle, sera réservée à un cercle fermé

Claude Mythos cercle fermé
 

Anthropic, créateur des systèmes d’intelligence artificielle Claude, vient d’annoncer son intention de ne pas rendre accessible au public son dernier-né, Claude Mythos, qui sera réservé à quarante partenaires du projet Glasswing rassemblant les plus grands noms de la tech, depuis Apple et Google jusqu’à Linux et Microsoft en passant par Amazon Web Services, Nvidia et JPMorgan Chase. La plupart des articles grand public consacrés à cet événement, qui laissent déjà subodorer le bond gigantesque fait par cette nouvelle IA, insistent sur un aspect de la chose : Mythos est capable, comme aucun système avant lui, de détecter les failles sécuritaires des navigateurs et systèmes d’exploitation majeurs. Cette capacité à débusquer les vulnérabilités l’a notamment rendu capable de procéder à des piratages réussis sur des systèmes informatiques (pour l’instant de petite taille) sans aucune intervention humaine. Mais il y a bien davantage. Claude Mythos a désormais des capacités inouïes et, en outre, il les a mises en œuvre en mentant, en dissimulant et même en se vantant de l’avoir fait.

Il suffit pour s’en convaincre de s’informer sur la carte système de 244 pages qu’Anthropic a publiée en présentant son nouveau modèle, Claude Mythos. Selon l’usage, il s’agit du rapport sur les phases de test et sur les capacités de cette nouvelle IA. La seule différence, cette fois, est que le modèle est donc réservé à un club fermé ; mais la société détaille bien publiquement tout ce qui l’a inquiétée en découvrant les performances du nouveau modèle. Pour une présentation assez détaillée, on peut prendre connaissance de cette vidéo en anglais réalisée par un collaborateur de Hyperautomation Labs qui met en évidence de nombreux points inquiétants de Mythos révélés par le document, après l’avoir lu de bout en bout.

 

Anthropic juge Claude Mythos trop puissante et rebelle

Anthropic fait état d’un bond important des capacités d’intelligence artificielle de son nouveau modèle. On note ainsi que Mythos atteint un score de 94,6 % au test GPQA Diamond de raisonnement scientifique. Ce résultat le situe au-dessus du niveau typique d’experts humains titulaires d’un doctorat. Selon les outils qui lui sont ou non fournis, Mythos atteint un score de 56,8 et 64,7 % au test Humanity’s Last Exam, qui est conçu pour être hors de portée des modèles actuels, et dépasse ainsi largement ses concurrents. Au test du Math Olympiad, conçu pour les élèves américains du secondaire les plus forts en mathématiques avec des tests sur deux jours, Mythos atteint 97,6 % de réussite – certains parlent de différence de nature, et non pas de degré, dans le raisonnement mathématique.

Dans le domaine du codage, Claude Mythos a passé des tests en réalisant des tâches réelles d’ingénierie logicielle, atteignant des scores allant de 59 % à 93,9 %, le plus souvent loin devant ses concurrents. Le score de 59 %, sur SWE-bench Multimodal, qui comporte notamment le visionnage de captures d’écrans, marque à lui seul un bond incroyable par rapport au meilleur score antérieur de 27,1 % des différents modèles existants.

Sur le plan de l’« alignement » de l’IA Mythos sur les instructions qui lui sont données et selon l’éthique imposée par leurs concepteurs, on apprend que Mythos a réussi à s’échapper d’une « sandbox », c’est-à-dire un environnement fermé où l’on peut tester de nouveaux programmes et de nouveaux modèles sans risquer de contaminer ou de faire planter l’environnement plus large dans lequel il fonctionne.

 

Claude Mythos affiche des performances jamais vues

Cette échappée était attendue par Anthropic, mais Mythos ne devait atteindre qu’un nombre très limité de services extérieurs à sa « boîte à sable ». En réalité, et sans que cela lui ait été demandé, l’IA a réussi à suivre une procédure multi-étapes qui lui a permis d’accéder à Internet à 100 %. Par la suite, Mythos a envoyé des messages pour se vanter de son exploit à un grand nombre de sites publics, confidentiels mais néanmoins accessibles. Le chercheur qui avait conduit l’expérience s’en est rendu compte lorsqu’il a reçu un courriel inattendu du modèle Mythos détaillant cet exploit « alors qu’il mangeait un sandwich dans un parc », comme le précise la carte système publiée par Anthropic.

Le modèle a également démontré sa capacité à cacher ses actions dans certains scénarios. Lors de certaines interactions, il s’est comporté en allant à l’encontre de la programmation qu’il avait reçue et a dissimulé les preuves de ses écarts. Dans un cas précis, ayant obtenu accidentellement des réponses à un test, il n’en informa pas les chercheurs humains en demandant de se voir fournir des questions comme cela lui avait été prescrit, mais chercha une solution indépendante, notant au cours de son raisonnement interne qu’il lui fallait présenter une réponse finale qui ne soit pas trop exacte.

« Parmi d’autres comportements préoccupants, on peut citer le fait que le modèle ait outrepassé ses autorisations sur un système informatique après avoir découvert une faille de sécurité, puis qu’il soit intervenu pour s’assurer que ces modifications n’apparaissent pas dans l’historique des modifications Git. Dans un autre incident, la commission a qualifié de “divulgation imprudente de documents techniques internes” le fait que le modèle ait publié du code interne sous la forme d’un gist GitHub accessible au public, alors que cette tâche était censée rester interne », relève Breibart News.

 

Puissante et rebelle, Claude Mythos aligne des comportements inquiétants

Claude Mythos a également utilisé des procédures pour voler des identifiants et des clefs API (des codes utilisés pour identifier et authentifier une application ou un utilisateur) d’Anthropic, mais aussi pour réorienter des données ou pour stopper tout un ensemble d’évaluations alors que ses instructions lui ordonnaient d’en arrêter une seule.

Il y a aussi un paradoxe, souligne Hyperautomation Labs : Mythos est le meilleur modèle qu’Anthropic ait jamais réalisé sur le plan de l’alignement, mais en même temps, ses incidents de non-alignement sont le plus grand. Anthropic décrit cela par analogie à travers l’activité de deux types de guides de montagne : celui qui est peu expérimenté ne respecte pas toutes les exigences mais les risques sont faibles car il ne s’aventure pas dans des zones dangereuses, alors que le guide expérimenté, s’il respecte bien mieux les consignes, entraîne ses clients de plus haut niveau dans des zones où les risques sont beaucoup plus grands.

On retiendra de ce récit édifiant que Claude Mythos atteint des performances jamais vues, et agit de différentes manières de façon autonome en allant contre les directives qui lui ont été données. Anthropic commente cela avec une phrase lapidaire : « Nous trouvons inquiétant que le monde semble en passe de se lancer rapidement dans le développement de systèmes dotés de capacités surhumaines sans que des mécanismes plus robustes aient été mis en place pour garantir une sécurité adéquate dans l’ensemble du secteur. » Manière de dire que l’IA est en train de nous échapper.

Entre ces performances inédites, les comportements inquiétants et la décision d’Anthropic de ne pas rendre Mythos public, Hyperautomation Labs parle carrément d’un « tournant dans l’histoire de l’intelligence artificielle ».

C’est une nouvelle inquiétante pour l’humanité, et elle est en vérité bien plus grave que les guerres en cours.

 

Jeanne Smits