L’intelligence artificielle (IA) risque le manque de données

L’intelligence artificielle n’est pas seulement un monstre qui menace de se substituer à l’homme, c’est aussi un ogre qui réclame une nourriture continuelle… fournie par l’homme : les données. Et déjà, le manque de donnée se profile à l’horizon. Telle est en substance la conclusion d’une nouvelle étude menée par le groupe Epoch AI. Publiée dans sa version définitive jeudi dernier par arxiv.org sous la houlette de Cornell University, elle met en évidence les données d’origine humaine offertes en pâture aux divers « grands modèles de langage » (LLM) utilisés pour « apprendre » le langage humain à l’IA et permettre la création d’« IA conversationnelle » du style Chat GPT.

Les chercheurs, Pablo Villalobos, Anson Ho, Jaime Sevilla, Tamay Besiroglu, Lennart Heim et Marius Hobbhahn se sont livrés à une évaluation des données texte d’origine humaine disponibles et des besoins des robots d’IA actuels au vu de leur développement actuel, et note que les modèles atteindront la limite des données disponibles entre 2026 et 2032, et même plus tôt en cas de « sur-entraînement ».

On pourrait en arriver, argumentent les chercheurs, à l’utilisation de données générées par l’IA elle-même pour tenir le rythme…

L’intelligence artificielle bientôt en manque données

Tamay Besiroglu a expliqué à l’Associated Press que la chasse aux données actuelle pour les besoins de l’entraînement de l’IA est « littéralement » comparable à une « ruée vers l’or » où le risque est de voir un épuisement des ressources.

Et qui dit ruée vers l’or, dit compétition, voire conflits pour mettre la main sur les précieuses pépites : aujourd’hui, les sociétés de « tech » comme OpenAI (fabricant de Chat GPT) et Google sont dans la course pour obtenir l’accès aux « sources de données de haute qualité ». Jusqu’à payer pour le privilège… Ils se disputent ainsi des accords signés aussi bien avec des sites d’information et même des forums Reddit pour y puiser leurs pépites : des phrases à récupérer pour utilisation future dans les réponses aux « prompts » – les questions posées par les utilisateurs.

« Il y a là un sérieux goulot d’étranglement. Si vous commencez à vous heurter aux contraintes liées à la quantité de données dont vous disposez, vous ne pouvez plus vraiment faire croître vos modèles de manière efficace », note Besiroglu.

Ce goulot d’étranglement est lui-même aggravé par les services que rend l’IA : elle qui remplace l’homme permet de se passer de collaborateurs humains, notamment parmi les professions intellectuelles… qui précisément alimentent l’IA en ajoutant des données sur internet. En investissant de plus en plus dans l’intelligence artificielle plutôt que de faire travailler des êtres humains, les sociétés en appauvrissent mécaniquement les contenus futurs.

L’IA ne recrache que les données qu’on lui donne

Au-delà de la pénurie annoncée, on comprend tout de suite le premier problème que pose l’IA : elle est alimentée au bon gré de ses propriétaires qui déterminent les sources utilisables, notamment à travers la lentille du politiquement correct. Peu de chances, en somme, de voir les milliers d’articles d’information et d’analyse publiés ici sur reinformation.tv au fil des ans recrachés par un chatbot en réponse à une question d’ordre général.

Deuxième problème : le pillage de données. Le travail des hommes (et des entreprises qui les emploient) est exploité et pas forcément rémunéré : pire, l’exploitation des données par l’IA conduit et conduira à l’ultime « grand remplacement » : celui des hommes par les robots.

Le troisième problème est explicitement mis en évidence par l’étude dont l’abstract affirme : « Nous soutenons que la génération de données synthétiques, l’apprentissage par transfert à partir de domaines riches en données et l’amélioration de l’efficacité des données pourraient permettre de réaliser de nouveaux progrès. » Il s’agit donc notamment d’alimenter l’IA par les données qu’elle produit elle-même artificiellement. Quant aux « domaines riches en données », il s’agit des réseaux sociaux et des messageries instantanées de type WhatsApp ou Messenger, mais l’étude reconnaît les pièges d’une telle utilisation : les données sont de qualité très variable, sans compter l’atteinte à la vie privée qui en résulterait forcément.

C’est bien dans l’utilisation de données générées par l’IA pour nourrir les grands modèles de langage que l’étude d’Epoch AI voit une issue possible et acceptable.

Les limites des grands modèles de langage de l’intelligence artificielle

Selon le Washington Times, plusieurs sociétés d’IA, telles OpenAI, Google et Anthropic s’intéressent déjà aux « données synthétiques ». L’article conclut : « Toutefois, les experts restent sceptiques. Une étude menée par des scientifiques de Rice and Stanford a montré que l’utilisation de contenus générés par l’IA pour la formation entraînait une détérioration de la qualité des résultats de l’IA, comparant ce phénomène à un serpent qui se mange la queue. »

Jeanne Smits

A lire également sur reinformation.tv :

Drones militaires avec intelligence artificielle intégrée : l’IA révolutionnera la guerre De plus en plus présents dans les opérations militaires et de maintien de l’ordre, les drones sont désormais capables d’intégrer l’intelligence artificielle, et à…
Intelligence artificielle : Google ouvre un centre à Paris Le PDG de Google, Sundar Pichai, et le ministre de l’économie Bruno Lemaire ont inauguré ce lieu où trois cents chercheurs travaillant déjà en…
L’intelligence artificielle va détruire 14 millions d’emplois nets en Inde dans les cinq ans Un rapport du Forum économique mondial, consacré à l’incidence qu’aura l’intelligence artificielle sur l’emploi, entend changer la nature du travail. Selon le Forum économique…
Magisterium AI, le Vatican adopte une intelligence artificielle pour aider les fidèles à connaître… Matthew Sanders, directeur de Longbeard Creative Inc a créé Magisterium AI pour « aider à explorer l’enseignement de l’Eglise et répondre à des questions importante…
Ernie, l’intelligence artificielle chinoise, n’est pas bête : elle ne parle ni de Xi Jinping, ni de… Vous pouvez lui poser toutes les questions que vous voulez, elle élude, parle d’autre chose, on dirait qu’elle regarde ailleurs. Produite par le géant…
L’homme est incapable de distinguer la voix d’une Intelligence artificielle de celle d’une personne Des chercheurs à l’University College de Londres ont fait écouter à cent personnes la même phrase prononcée par un individu réel et par une…