Intelligence artificielle : l’AI permet de transformer un sujet audio en vidéo

 
Des recherches menées à l’université de Washington ont permis de développer un outil d’intelligence artificielle qui permet de prendre un sujet d’information audio et de l’illustrer de manière à créer une vidéo très réaliste. Le logiciel fonctionne à partir de nouveaux algorithmes dont la nouveauté consiste à améliorer la « vision informatique ». Grâce à l’AI, il permet de présenter des images d’une personne délivrant un discours ou parlant, tout simplement, en synchronisant les mots et des mouvements des lèvres créés de manière synthétique.
 
L’intelligence artificielle s’exerce à travers l’apprentissage à partir de vidéos numérisées déjà existantes, au moyen d’un réseau de neurones constitué de neurones artificiels. La technique passe par l’analyse de vidéos d’un individu, puis par la traduction de différents sons audio en formes élémentaires de la bouche. Elle est doublée par une nouvelle technique de synthèse des mouvements de la bouche qui permet d’imposer de manière réaliste les formes et les textures de la bouche pour les faire correspondre aux paroles, sur une vidéo existante d’une personne donnée.
 

Transformer un sujet audio en vidéo : la preuve par l’AI et Obama

 
L’équipe a travaillé sur Barack Obama, produisant des vidéos tout à fait réalistes de l’ex-président des Etats-Unis parlant de terrorisme, de paternité et d’emploi, à partir de documents divers. Elles ont été créées à partir de clips audio d’une part, et de l’autre, d’images vidéo d’Obama retravaillées. Le résultat est spectaculaire, puisqu’il permet au bout du compte de présenter le même discours, les mêmes paroles comme s’ils avaient été prononcés à des moments ou dans des décors très différents.
 
Si les chercheurs ont choisi Obama pour mener leur projet, c’est en raison de la masse de documents audio disponibles. On a ainsi réussi à faire apparaître un discours prononcé par Obama du temps de sa jeunesse comme contemporain.
 
L’intérêt commercial de la technique est évident. Il suffira bientôt d’obtenir un document audio de haute qualité pour les transformer en vidéo de plus haute résolution encore à partir d’un enregistrement standard. On pourrait également envisager de créer un personnage historique en réalité virtuelle et de le faire parler, voire de converser avec lui, de manière très convaincante.
 

L’intelligence artificielle permet de filmer des discours qui n’ont jamais existé

 
On parle également d’améliorer la qualité des chats video dont la facette audio est souvent excellente mais abîmée par le volume des données vidéo qui circulent plus difficilement : on peut imaginer que demain l’on synthétise des mouvements de la bouche des interlocuteurs pour permettre des vidéo-conversations plus fluides.
 
Que dire enfin de la fabrication de faux documents à travers de savants montages de documents audio existants plaqués sur une vidéo en donnant l’illusion que tel ou tel propos a effectivement été tenu par l’intéressé ? Les chercheurs n’évoquent pas cette possibilité mais on ne voit pas ce qu’il empêcherait d’être mise en œuvre… Et là, quel boulevard pour les manipulations en tous genres !
 

Anne Dolhein

 
Intelligence artificielle AI transformer sujet audio vidéo