OpenAI peut désormais recréer des voix humaines grâce à sa plateforme « Voice Engine ». La société financée par Microsoft tient le nouveau moteur d’IA près de sa poitrine en raison d’implications éthiques et juridiques évidentes.
Après le succès massif de ChatGPT, DALL-E et Sora, OpenAI s'aventure désormais dans le domaine du son, en particulier de la parole et de la voix humaines. Le Voice Engine AI est actuellement en phase de test bêta, mais les internautes ne pourront peut-être pas souscrire à un abonnement.
Voice Engine peut recréer des voix humaines multilingues avec seulement 15 secondes d'enregistrement
ChatGPT a pris d'assaut le monde, DALL-E a libéré la créativité de millions de personnes et Sora pourrait bientôt permettre aux internautes ordinaires de devenir des créateurs de films. Après le texte, les images et les vidéos, OpenAI annonce Voice Engine, une plateforme d'IA capable de recréer des voix humaines.
Le New York Times reçu une démo de la plateforme Voice Engine. Le moteur d'IA serait capable de recréer la voix d'un humain à partir d'un enregistrement de 15 secondes. Si cela ne suffit pas, après avoir absorbé les informations nécessaires, Voice Engine peut prononcer n'importe quelle invite textuelle avec la voix humaine recréée.
Nous partageons nos enseignements à partir d'un aperçu à petite échelle de Voice Engine, un modèle qui utilise la saisie de texte et un seul échantillon audio de 15 secondes pour générer une parole naturelle qui ressemble beaucoup à l'orateur d'origine. https://t.co/yLsfGaVtrZ
-OpenAI (@OpenAI) 29 mars 2024
Étonnamment, l’invite textuelle n’a même pas besoin d’être dans la langue maternelle du locuteur, dont la voix a été utilisée pour entraîner le moteur d’IA. En d’autres termes, un anglophone natif peut parler en espagnol, en français, en chinois ou dans de nombreuses autres langues via Voice Engine.
Compte tenu des pièges évidents d’une telle technologie, OpenAI a assuré qu’elle explorait plusieurs contrôles de sécurité tels que les filigranes. Il y aurait des contrôles qui empêcheraient Voice Engine de créer les voix humaines de certaines personnes.
#OpenAI Un nouveau moteur vocal aide un patient qui a perdu la parole à cause d'une tumeur cérébrale à parler à nouveau couramment. @OpenskiesX pic.twitter.com/YB0mjKJYew
– RameshR (@rezmeram) 29 mars 2024
Il est intéressant de noter que Jeff Harris, chef de produit OpenAI, aurait affirmé que la société n'avait pas l'intention dans l'immédiat de gagner de l'argent grâce à cette technologie. L'objectif principal du est d'être utile aux personnes qui ont perdu la voix à cause d'une maladie ou d'un accident, a-t-il ajouté.
OpenAI proposera-t-il sa dernière création aux internautes sous forme d’abonnement ?
Sora d'OpenAI, qui permet aux utilisateurs de créer un film de 60 secondes avec uniquement des invites textuelles, n'est pas disponible au grand public. De même, la société n’a publié aucune version de Voice Engine.
Voice Engine est actuellement disponible pour « un petit groupe d’entreprises ». En termes simples, quelques entreprises, probablement sur invitation, ont un accès limité à la plateforme.
Inutile de mentionner qu’une plate-forme d’IA capable de recréer des voix humaines, dans plusieurs langues, sur la base d’un enregistrement en 15 langues a d’énormes implications éthiques et juridiques.
OpenAI annonce publiquement son moteur vocal, qui permet le clonage vocal à partir de 15 secondes d'audio.https://t.co/zMRViqN5f5
Développé à l’origine fin 2022, ils l’ont testé avec divers partenaires de confiance. Certains échantillons de démonstration sont partagés dans le billet de blog. Ils n'ont pas… pic.twitter.com/aGK0ghwlsv
— Tanishq Mathew Abraham, Ph.D. (@iScienceLuvr) 29 mars 2024
OpenAI peut avoir un accès restreint à Voice Engine. Cependant, il est inquiétant de constater que l’IA s’est métamorphosée en un monstre.
En plus de fausses images et vidéos convaincantes, les escrocs et les fraudeurs utilisent l’IA pour imiter les voix humaines depuis un certain temps déjà. Plusieurs victimes ont été la proie de faux messages vocaux qui donnaient l’impression que leurs proches étaient en difficulté et demandaient de l’argent.
OpenAI vient de lancer Voice Engine,
Il utilise la saisie de texte et un seul échantillon audio de 15 secondes pour générer un discours au son naturel qui ressemble beaucoup au locuteur d'origine.
L’audio de référence et généré est très proche et difficile à différencier.
Plus de détails dans 🧵 pic.twitter.com/tJRrCO2WZP– AshutoshShrivastava (@ai_for_success) 29 mars 2024
Entre de mauvaises mains, Voice Engine pourrait accepter et recréer les voix d’hommes politiques, de célébrités, de journalistes et d’autres personnalités éminentes. La plateforme pourrait être utilisée pour créer des clips audio convaincants diffusant de la désinformation ou de la propagande. Dans un scénario tout aussi effrayant, les pirates informatiques et les criminels pourraient compromettre les systèmes de sécurité reposant sur l’authentification vocale.
Par conséquent, OpenAI censurerait et réglementerait très probablement fortement la plate-forme Voice Engine. Il lui faudrait élaborer des verrous numériques robustes et intelligents ainsi que des contrôles de sécurité rigoureux pour éviter toute utilisation abusive.
Mis à part les préoccupations de sécurité et d'éthique, le moteur vocal d'OpenAI pourrait être extrêmement utile aux producteurs de films et de séries Web qui ont besoin de doubler leurs créations dans d'autres langues. De même, les domaines de l’éducation et du divertissement pourraient également en bénéficier énormément.
