Les hypertrucages sont de retour dans l’actualité après qu’il eut été rapporté qu’un groupe de chercheurs travaillant au Samsung AI Center de Moscou a lancé une initiative appelée Mega Portraits (portraits mégapixels).
Dans un article de recherche, ils écrivent que les portraits sont basés sur un concept appelé « avatars de tête neuraux », qui offrent une nouvelle façon fascinante de créer des modèles de tête virtuels. Ils contournent la complexité de la modélisation réaliste basée sur la physique des avatars humains en apprenant la forme et l’apparence directement à partir des vidéos de personnes qui parlent.
La question qui préoccupe beaucoup est de savoir si une technologie comme celle-ci pourrait éventuellement conduire à une augmentation effrénée du nombre de cas d’hypertrucages.
Moscou est l’un des sept centres d’intelligence artificielle de Samsung dans le monde, les autres étant situés à Toronto, Montréal, New York, Cambridge (Royaume-Uni), Séoul et Mountain View, en Californie. Selon la société, les principaux projets sur lesquels on y tavaille actuellement sont la génération d’avatars humains photoréalistes, la modélisation 3D et les techniques de manipulation d’images.
Fin juin, le FBI Internet Crime Complaint Center (IC3) a mis en garde contre une augmentation des plaintes concernant l’utilisation d’hypertrucages et d’informations personnelles identifiables (IPI) volées pour postuler à divers emplois en télétravail et en travail à domicile.
Les hypertrucages, a déclaré le bureau dans un avis, contiennent une « vidéo, une image ou un enregistrement modifié et manipulé de manière convaincante pour représenter quelqu’un faisant ou disant quelque chose qui n’a pas été réellement fait ou dit ».
« Les plaintes font état de l’utilisation d’usurpation de voix, ou potentiellement d’hypertrucages vocaux, lors d’entretiens en ligne avec des candidats potentiels. Dans ces entretiens, les actions et le mouvement des lèvres de la personne vue interviewée à la caméra ne se coordonnent pas complètement avec l’audio de la personne qui parle. Parfois, des actions telles que tousser, éternuer ou d’autres actions auditives ne sont pas synchronisées avec ce qui est présenté visuellement.
En outre, dans un rapport publié en février par l’Institut canadien des affaires mondiales, l’auteur Abby MacDonald a prévenu qu’un « hypertrucage réaliste soigneusement créé et publié à un certain moment pourrait influencer le résultat d’une élection démocratique, inciter à la violence contre certains groupes ou exacerber les politiques et clivages sociaux ».
Le rapport indique que « la technologie repose sur deux percées importantes dans l’apprentissage automatique et l’intelligence artificielle. Le premier est un réseau de neurones. Plus ces algorithmes sont exposés à des informations, plus ils peuvent les répéter avec précision. Le second est les réseaux antagonistes génératifs (RAG), qui combinent essentiellement deux réseaux de neurones et les font se concurrencer pour produire un meilleur produit final ».
Adaptation et traduction française par Renaud Larue-Langlois