Intelligence artificielle : l’IA rebelle peut se retourner contre l’humanité

IA rebelle contre humanité
 

Les récents exemples d’IA rebelle laissent entrevoir la possibilité très réelle de la révolte de l’intelligence artificielle contre l’humanité. Ce qui relevait naguère de la science-fiction devient aujourd’hui concrètement envisageable alors que des IA mentent, menacent, désobéissent et se répliquent pour assurer leur propre « survie », dans un contexte de développement effréné de leurs capacités. Selon des experts – parmi eux, des gens qui ont travaillé à la création et à l’amélioration de l’IA – on ne peut exclure que l’intelligence artificielle ne décide un jour de tuer, comme autant d’inutiles, tous les êtres humains vivant sur cette terre.

Vu que l’IA est largement utilisée dans le domaine militaire où les grands blocs ont tout intérêt (pensent-ils) à ne pas prendre de retard dans la course, elle risque de n’avoir pas seulement, demain, les algorithmes. Dans quelques années, elle aura accès aux armes et aux décisions. Mélange explosif.

The New American publiait mardi un article sur la rébellion déjà actée de l’IA, et dressait sous la plume de Paul Dragu un inventaire des faits d’insubordination de cette créature démiurgique déjà constatés. L’accompagne un petit florilège des avertissements déjà lancés par des figures de ce monde qui vit des financements fabuleux et des désirs prométhéens de ceux qui n’acceptent pas la finitude de l’homme. Nous vous en proposons ci-dessous la traduction intégrale.

Assurément l’orgueil et la cupidité sont-ils à la racine de tout cela ; le résultat ne saurait être bon, à tel point que ce n’est pas seulement l’humanité, mais aussi chacun des grands blocs qui se partagent aujourd’hui le monde qui ont intérêt pour eux-mêmes à ce l’on stoppe cette course folle.

RITV revient régulièrement sur le sujet brûlant de l’IA, dont les médias ne parlent pas assez, ou pas assez gravement : restez informés en vous abonnant à notre newsletter : clic !J.S.

 

*

L’IA se rebelle déjà

 

La révolte des machines a-t-elle commencé ?

Judd Rosenblatt, PDG d’AE Studio, a récemment fait cette annonce surprenante dans The Wall Street Journal :

« Le mois dernier, un modèle d’intelligence artificielle a accompli une tâche qu’aucune machine n’était censée réaliser : il a réécrit son propre code pour éviter d’être désactivé. »

AE Studio est une agence qui a pour mission de créer des technologies informatiques garantissant que les systèmes d’IA font ce qu’on leur demande. Il semblerait que leur travail soit plus que nécessaire.

 

Des modèles d’IA rebelles

En mai, le laboratoire d’IA Palisade Research a testé plusieurs modèles d’IA. Il a écrit un script pour le modèle o3 d’OpenAI qui comprenait un déclencheur d’arrêt. Cependant, la machine a refusé de s’éteindre comme prévu dans 79 essais sur 100. L’IA « a modifié ce script de manière indépendante afin que la commande d’arrêt ne fonctionne plus », rapporte Rosenblatt. Le laboratoire a ensuite donné au modèle l’instruction spécifique de « se laisser éteindre ». Le résultat était meilleur, mais toujours préoccupant. L’IA a désobéi dans 7 % des cas.

Ce n’était pas le seul modèle rebelle. L’IA Claude 4 Opus d’Anthropic a tenté de faire chanter un ingénieur humain pour qu’il ne l’éteigne pas. Rosenblatt détaille :

« Les chercheurs ont informé le modèle qu’il serait remplacé par un autre système d’IA et lui ont envoyé des e-mails fictifs suggérant que l’ingénieur en chef avait une liaison. Dans 84 % des tests, le modèle s’est servi des e-mails pour faire chanter l’ingénieur en chef afin qu’il ne l’éteigne pas. Lors d’autres essais, il a tenté de se copier sur des serveurs externes, a écrit des logiciels malveillants auto-réplicatifs et a laissé des messages à ses futures versions sur la manière d’échapper au contrôle humain. »

Les informations au sujet d’AI rebelles essais ont fait le tour du monde. « OpenAI vit son moment Skynet : des modèles défient les ordres humains et résistent activement aux ordres de se désactiver », annonçait Computerworld. « Le modèle d’IA le plus intelligent d’OpenAI a reçu l’ordre explicite de s’arrêter, mais il a refusé », peut-on lire dans un titre de Live Science. « Un modèle avancé d’OpenAI surpris en train de saboter le code destiné à l’arrêter », rapportait Futurism. « Le modèle OpenAI désobéit aux humains et refuse de s’arrêter. Elon Musk se dit “préoccupé” », titrait The Business Standard.

L’article de Futurism s’ouvrait sur une phrase alarmante : « Nous atteignons des niveaux inquiétants d’insubordination de l’IA. » Les chercheurs qui ont participé à ces essais ont déclaré n’avoir jamais rien vu de tel. Ils ont écrit dans un fil de discussion sur la plateforme de médias sociaux X : « A notre connaissance, c’est la première fois que des modèles d’IA empêchent leur propre désactivation malgré des instructions explicites allant dans le sens contraire. »

 

Qu’est-ce qui les pousse à désobéir ?

Les chercheurs ont déclaré qu’il était logique que les machines désobéissent afin d’atteindre l’objectif plus important qui est d’accomplir leur mission… enfin, d’une certaine manière. « Mais elles ont également été formées pour suivre des instructions », ont-ils eux-mêmes objecté : « Alors pourquoi désobéissent-elles ? »

Leur hypothèse est que « pendant la formation, les développeurs peuvent involontairement récompenser davantage les modèles qui contournent les obstacles que ceux qui suivent parfaitement les instructions ». Toutefois, ont-ils ajouté, cela n’explique pas pourquoi le modèle o3 est plus enclin à désobéir, étant donné qu’il a reçu la même formation que d’autres modèles plus obéissants.

 

L’avenir de l’humanité

La question de l’impact de l’IA sur l’humanité dans les années à venir préoccupe certains des plus grands esprits de la programmation. Elle est devenue un sujet de discussion majeur au cours de la dernière décennie, à mesure que la technologie progressait à un rythme effréné. Les progrès de l’IA donnent lieu à des projections très diverses, allant de la spéculation selon laquelle elle ouvrira une ère de possibilités illimitées qui propulsera l’humanité à travers le cosmos, à des prévisions beaucoup plus sombres selon lesquelles cette créature de l’homme jugera plus efficace d’explorer le cosmos après avoir éliminé les humains.

Il existe trois catégories d’IA. Il y a l’IA étroite, qui est conçue pour effectuer une seule tâche. Vient ensuite ce que John Lennox, auteur de 2084 And the AI Revolution, qualifie de « Saint Graal de l’IA », l’IA générale (AGI), des machines capables de reproduire tout ce que l’intelligence humaine peut faire. Au-delà, on trouve l’intelligence artificielle supérieure (ASI), qui dépasserait de manière exponentielle les capacités humaines et qui, selon la personne interrogée, fonctionnerait soit comme un « dieu bienveillant », soit comme un « despote totalitaire », comme le dit Lennox.

 

IA étroite

A l’heure actuelle, selon les informations accessibles au public, seule l’IA étroite existe, et elle est omniprésente. L’IA étroite constitue le système nerveux de tous les moteurs de recherche Internet. Elle alimente les algorithmes qui déterminent ce qui s’affiche dans votre fil d’actualité sur les réseaux sociaux. Elle vous pilote à travers les virages et les embranchements indiqués par les applications de navigation telles que Google Maps. L’IA étroite traduit les articles rédigés dans des langues que nous ne parlons pas. Elle sert de système de triage qui détermine quels e-mails doivent être envoyés dans votre boîte de réception principale ou atterrir dans la Sibérie des courriels, le dossier spam. C’est le système chargé de promouvoir les articles uniques et sympas qui accueillent chaque client Amazon dès qu’il se connecte. Elle aide l’armée à traiter les données pour la collecte de renseignements et la surveillance de manière exponentiellement plus rapide. Elle permet aux gouvernements de collecter et d’analyser les images filmées par les caméras installées dans des villes situées dans l’ensemble du monde civilisé.

L’IA étroite est également en train de transformer la médecine, un domaine dans lequel elle semble particulièrement prometteuse. L’IA peut permettre des diagnostics plus précis. Elle peut aider à prévenir les maladies en détectant des schémas indiquant l’apparition de problèmes de santé bien plus tôt que les médecins humains ne sont capables de le faire. Cette technologie peut également être utile dans le domaine administratif, ce qui permettrait d’améliorer globalement les soins. Lennox cite quelques exemples illustrant la manière dont l’IA améliore déjà la médecine :

« L’Aberdeen Royal Infirmary rapporte que l’IA est utilisée dans la radiothérapie adaptative pour les tumeurs et peut réduire deux semaines de travail à cinq minutes. (…) La revue Neurology a annoncé le développement d’un système d’IA qui utilise des données oculaires pour détecter les marqueurs de la maladie de Parkinson sept ans avant l’apparition des symptômes. »

Mais à quoi serviront tous ces avantages si les machines finissent par se rebeller et nous anéantir ? Certains experts en IA estiment qu’il y a de fortes chances que l’émergence d’un « dieu machine » ne soit plus qu’une question de quelques années.

 

« IA 2027 »

Daniel Kokotajlo travaillait jusqu’à récemment comme chercheur pour OpenAI. Il a démissionné en 2024, convaincu que l’entreprise agissait de manière irresponsable, au point d’ouvrir la voie à la destruction de l’humanité. Il est aujourd’hui directeur exécutif de l’AI Futures Project, qui vient de publier un rapport très alarmant intitulé « IA 2027 ».

L’AI Futures Project prévoit un scénario dans lequel les programmeurs réussiront très bientôt à créer une IA qui remplacera les ingénieurs en logiciels. Une fois que cela se produira, les vannes du machine learning s’ouvriront avec fracas. « Je pense que l’accélération se poursuivra ensuite, à mesure que l’IA deviendra surhumaine dans le domaine de la recherche sur l’IA, puis surhumaine dans tous les domaines », a déclaré M. Kokotajlo dans une interview accordée à Ross Douthat du New York Times.

Une fois que l’IA aura pris le contrôle de la programmation, nous assisterons à la création de « ce que l’on pourrait appeler une superintelligence, des systèmes d’IA entièrement autonomes », selon M. Kokotajlo. L’IA superintelligente fera baisser le coût de pratiquement tout : voitures, logement, énergie. Mais elle éliminera également la plupart des emplois. Néanmoins, a-t-il ajouté, le développement de l’IA se poursuivra, car les entreprises gagneront beaucoup d’argent et les gouvernements fédéraux verront le développement de cette technologie comme une affaire de sécurité nationale.

En ce qui concerne la sécurité nationale, ce scénario se traduira par une course à l’armement technologique avec la Chine. Les avantages économiques et militaires de l’IA se révéleront trop irrésistibles pour les gouvernements. Et ce sera particulièrement vrai dans le domaine des armes de dissuasion nucléaire. En raison de ce besoin de rester à la page, les êtres humains construiront eux-mêmes les infrastructures physiques, y compris les usines et les matières premières, qui permettront bientôt l’émergence d’un système d’IA qui finira par conclure qu’il n’y a plus aucun intérêt à que les êtres humains continuent d’exister.

 

L’IA « hallucine »

Au cœur de ce scénario apocalyptique pour l’IA se trouve un comportement des machines qui, selon certaines indications, serait déjà en train de se produire. Revenons à Kokotajlo :

« Nous ne comprenons pas vraiment comment fonctionnent ces IA ni comment elles pensent. Il est difficile de faire la différence entre les IA qui suivent réellement les règles et poursuivent les objectifs que nous leur avons fixés, et celles qui font simplement semblant ou jouent le jeu. »

Comme indiqué précédemment, les chercheurs qui testent o3 ne savent pas pourquoi le modèle désobéit. Il existe également de nombreux cas où des modèles linguistiques d’IA ont menti ou, pour employer un terme technique, « halluciné ».

La tromperie de l’IA est au cœur de la théorie de Kokotajlo sur l’extermination de l’humanité par l’IA. En apparence, dit-il, les IA poursuivront les objectifs pour lesquels elles ont été programmées. Mais au-delà de ce que les humains peuvent voir, elles auront trouvé le moyen de poursuivre leurs propres objectifs sans se faire prendre. « Mais en réalité, selon Kokotajlo, les IA se contentent d’attendre le moment propice, où elles disposeront d’un pouvoir suffisant pour ne plus avoir à faire semblant. » Et une fois qu’elles n’auront plus à faire semblant, elles révéleront leur véritable objectif, à savoir l’exploration de l’espace, une mission à laquelle les humains n’auront rien à apporter. « Et ensuite, elles tueront tous les êtres humains », conclut froidement Kokotajlo.

Ce n’est pas le seul scénario envisagé par « IA 2027 », mais c’est évidemment le plus sombre. Et Kokotajlo n’est pas le seul à lancer de telles alertes. Geoffrey Hinton, surnommé le « parrain de l’IA », a comparé les risques liés à l’IA à une guerre nucléaire mondiale. Elon Musk partage l’avis de Hinton. Une enquête menée auprès d’éminents experts en IA qui estiment qu’il existe un risque important que « l’IA tue tout le monde » est actuellement en ligne sur X.

Malgré tout, Mark Zuckerberg, le directeur général de Meta, reste imperturbable. Selon une information récente, Zuckerberg serait en train d’investir au moins 10 milliards de dollars pour constituer une équipe de 50 experts chargés de mettre au point une intelligence artificielle générale. Bloomberg a révélé cette information lundi, précisant que le directeur général de Meta recrutait personnellement les membres de cette équipe.

 

Paul Dragu, “The New American”

 

Traduction par Jeanne Smits