L’intelligence artificielle n’est pas seulement un monstre qui menace de se substituer à l’homme, c’est aussi un ogre qui réclame une nourriture continuelle… fournie par l’homme : les données. Et déjà, le manque de donnée se profile à l’horizon. Telle est en substance la conclusion d’une nouvelle étude menée par le groupe Epoch AI. Publiée dans sa version définitive jeudi dernier par arxiv.org sous la houlette de Cornell University, elle met en évidence les données d’origine humaine offertes en pâture aux divers « grands modèles de langage » (LLM) utilisés pour « apprendre » le langage humain à l’IA et permettre la création d’« IA conversationnelle » du style Chat GPT.
Les chercheurs, Pablo Villalobos, Anson Ho, Jaime Sevilla, Tamay Besiroglu, Lennart Heim et Marius Hobbhahn se sont livrés à une évaluation des données texte d’origine humaine disponibles et des besoins des robots d’IA actuels au vu de leur développement actuel, et note que les modèles atteindront la limite des données disponibles entre 2026 et 2032, et même plus tôt en cas de « sur-entraînement ».
On pourrait en arriver, argumentent les chercheurs, à l’utilisation de données générées par l’IA elle-même pour tenir le rythme…
L’intelligence artificielle bientôt en manque données
Tamay Besiroglu a expliqué à l’Associated Press que la chasse aux données actuelle pour les besoins de l’entraînement de l’IA est « littéralement » comparable à une « ruée vers l’or » où le risque est de voir un épuisement des ressources.
Et qui dit ruée vers l’or, dit compétition, voire conflits pour mettre la main sur les précieuses pépites : aujourd’hui, les sociétés de « tech » comme OpenAI (fabricant de Chat GPT) et Google sont dans la course pour obtenir l’accès aux « sources de données de haute qualité ». Jusqu’à payer pour le privilège… Ils se disputent ainsi des accords signés aussi bien avec des sites d’information et même des forums Reddit pour y puiser leurs pépites : des phrases à récupérer pour utilisation future dans les réponses aux « prompts » – les questions posées par les utilisateurs.
« Il y a là un sérieux goulot d’étranglement. Si vous commencez à vous heurter aux contraintes liées à la quantité de données dont vous disposez, vous ne pouvez plus vraiment faire croître vos modèles de manière efficace », note Besiroglu.
Ce goulot d’étranglement est lui-même aggravé par les services que rend l’IA : elle qui remplace l’homme permet de se passer de collaborateurs humains, notamment parmi les professions intellectuelles… qui précisément alimentent l’IA en ajoutant des données sur internet. En investissant de plus en plus dans l’intelligence artificielle plutôt que de faire travailler des êtres humains, les sociétés en appauvrissent mécaniquement les contenus futurs.
L’IA ne recrache que les données qu’on lui donne
Au-delà de la pénurie annoncée, on comprend tout de suite le premier problème que pose l’IA : elle est alimentée au bon gré de ses propriétaires qui déterminent les sources utilisables, notamment à travers la lentille du politiquement correct. Peu de chances, en somme, de voir les milliers d’articles d’information et d’analyse publiés ici sur reinformation.tv au fil des ans recrachés par un chatbot en réponse à une question d’ordre général.
Deuxième problème : le pillage de données. Le travail des hommes (et des entreprises qui les emploient) est exploité et pas forcément rémunéré : pire, l’exploitation des données par l’IA conduit et conduira à l’ultime « grand remplacement » : celui des hommes par les robots.
Le troisième problème est explicitement mis en évidence par l’étude dont l’abstract affirme : « Nous soutenons que la génération de données synthétiques, l’apprentissage par transfert à partir de domaines riches en données et l’amélioration de l’efficacité des données pourraient permettre de réaliser de nouveaux progrès. » Il s’agit donc notamment d’alimenter l’IA par les données qu’elle produit elle-même artificiellement. Quant aux « domaines riches en données », il s’agit des réseaux sociaux et des messageries instantanées de type WhatsApp ou Messenger, mais l’étude reconnaît les pièges d’une telle utilisation : les données sont de qualité très variable, sans compter l’atteinte à la vie privée qui en résulterait forcément.
C’est bien dans l’utilisation de données générées par l’IA pour nourrir les grands modèles de langage que l’étude d’Epoch AI voit une issue possible et acceptable.
Les limites des grands modèles de langage de l’intelligence artificielle
Selon le Washington Times, plusieurs sociétés d’IA, telles OpenAI, Google et Anthropic s’intéressent déjà aux « données synthétiques ». L’article conclut : « Toutefois, les experts restent sceptiques. Une étude menée par des scientifiques de Rice and Stanford a montré que l’utilisation de contenus générés par l’IA pour la formation entraînait une détérioration de la qualité des résultats de l’IA, comparant ce phénomène à un serpent qui se mange la queue. »