Les voix générées par l'IA ne sont pas une nouveauté, elles existent depuis des décennies. Quoi qu'il en soit, les voix numériques que nous avons connues au fil des ans ne tromperaient personne. Cependant, je pense qu'aujourd'hui, les voix numériques ont atteint un point où elles peuvent être effrayantes. Et ce pour plusieurs raisons. Les voix générées par l'IA sont-elles trop réalistes aujourd'hui ?
Nous avons parcouru un long chemin depuis ces voix cliniques et décousues que nous avons entendues au fil des ans. Pensez aux anciennes voix numériques des années 2000 et 2010. Google Assistant et Alexa étaient à peu près aussi performants que possible. Cependant, avec l'essor de l'IA générative, un énorme effort a été fait pour rendre l'IA plus réaliste, et vous pouvez parier que cela a eu un effet profond sur la quantité de travail que les gens consacrent à leurs voix numériques.
Maintenant, pensez aux voix qu'OpenAI a présentées lors du lancement de GPT-4o. À l'heure actuelle, il y a quatre voix sur la plateforme. Nous ne pouvons pas non plus oublier la voix Gemini de Google. Bien qu'elles semblent toutes réalistes, je ne pense pas que nous ayons vu à quel point ces voix pouvaient devenir folles. Ce n'est que lorsque j'ai essayé le nouvel outil de Google que j'ai réalisé que les voix numériques avaient peut-être franchi le seuil du réalisme.
NotebookLM m'a montré que les voix numériques sont trop réalistes
Si vous n'en avez pas entendu parler, Google a lancé l'année dernière un produit appelé NotebookLM. Considérez-le comme un bloc-notes assisté par l'IA. Vous pouvez télécharger des informations telles que des sources et des documents sur un sujet donné, et suivre le contenu. Google utilisera son IA pour lire et extraire des informations à partir du contenu que vous avez téléchargé.
Grâce à cet outil, vous pouvez poser des questions sur le contenu que vous avez téléchargé. Considérez cela comme l'utilisation d'un chatbot formé uniquement sur le contenu que vous avez téléchargé. Imaginez que vous téléchargiez un manuel entier de physique et que vous puissiez poser des questions sur le contenu qu'il contient.
Bien que cette plateforme ne soit pas une nouveauté, Google a imaginé une nouvelle fonctionnalité qu'il teste actuellement. Vous pouvez demander à Google de générer une discussion de type podcast en fonction des informations que vous avez téléchargées. Lorsque je dis « de type podcast », je veux dire que cela a pour but de donner l'impression que deux personnes ont installé un microphone et enregistré un véritable podcast.
Les voix semblent d’un réalisme troublant pour plusieurs raisons. Les phrases coulent naturellement et la cadence et l’inflexion des locuteurs sont extrêmement naturelles. De plus, Google a même capturé certaines des petites choses qui différencient l’homme de la machine. J’entends des bruits de respiration, il ajoute les « euh » et les « j’aime » que l’on entend quand les gens parlent dans la vraie vie, et il y a même eu un cas où l’un des locuteurs a fait un faux départ et s’est corrigé. Google est même allé jusqu’à faire rire l’un des locuteurs.
Créer une voix qui sonne bien lorsqu'on donne une réponse directe ou lorsqu'on lit un texte est une chose. Mais concevoir une voix qui sonne comme si elle participait à une discussion humaine est une toute autre affaire. Et Google a réussi son coup.
Au cours de l'épisode du podcast, une chose m'a marqué :
Intervenant n°1 : « L’article mentionne donc deux applications en particulier : USB Audio Pro et Musicalot. Avez-vous déjà entendu parler de l’une ou l’autre de ces applications ? »
Intervenant n°2 : « USB Audio Pro. Cela me dit quelque chose. Je crois qu’un de mes amis l’utilise. »
Cela désignait littéralement une relation amicale entre l'un des locuteurs et une personne. Ces exemples sont parmi une foule d'autres.
La voix de Google a fait la chose la plus effrayante…
D'accord, c'est bien, mais il existe d'autres voix numériques de qualité. Qu'est-ce qui rend celle-ci différente ? Eh bien, le truc avec cette voix, c'est qu'elle a probablement fait la chose la plus effrayante qu'une voix d'IA puisse faire… elle m'a fait oublier.
J'ai mis en ligne un de mes articles et j'ai créé une discussion. NotebookLM a sorti un mini-épisode de podcast de 12 minutes et demie. J'ai commencé à l'écouter et le choc d'une discussion générée par l'IA s'est dissipé. Après quelques minutes, j'ai oublié que j'écoutais des voix générées par l'IA pendant un court instant. Peut-être pendant une minute, peut-être pendant 15 secondes. Mais Google maîtrise l'art de rendre les voix si réalistes et réalistes.
Comme vous pouvez l'imaginer, cela m'a fait très peur. Je savais que c'était généré par l'IA, mais c'était tellement réaliste que j'ai oublié.
Pièce finale du puzzle
Les entreprises font de leur mieux pour nous imposer leurs produits d’intelligence artificielle, et ce pour plusieurs raisons. Bien sûr, certaines entreprises essaient simplement de satisfaire les investisseurs, mais il existe aussi des entreprises malavisées qui aimeraient vous faire oublier l’utilité du contenu créé par l’homme. Nous voyons des plateformes qui génèrent littéralement des vidéos entières pour vous avec un avatar, un script et une voix générés par l’IA.
En plus de cela, nous voyons des entreprises comme Wix annoncer que les utilisateurs peuvent créer des sites Web entiers en quelques minutes grâce à l'IA. De plus, nous ne pouvons pas oublier les applications de rencontre avec l'IA. Bon sang, il existe même une application de médias sociaux où l'IA génère son propre contenu et publie elle-même. Nous vivons dans un monde où nous commençons à oublier la beauté de la création humaine, et ce qui aggrave la situation, c'est que certaines personnes approuvent ce comportement.
Maintenant que les voix de l'IA sont de plus en plus perfectionnées, cette tendance va s'aggraver. Le problème est que les gens associent les choses à la parole ; une voix chaleureuse et humaine peut faire en sorte qu'une personne se sente proche de quelque chose. Ce phénomène est encore exacerbé par les entreprises qui rendent les voix plus personnelles et adaptées à chaque individu.
Les voix réalistes sont l'une des dernières pièces du puzzle qui permettent à une personne de s'identifier pleinement à une IA. Si vous écoutez une IA avec une voix froide et saccadée, cela vous rappelle constamment qu'il s'agit d'un robot. Une fois que la voix devient réaliste, il y a plus de chances que vous la considériez comme humaine.
Alors, que pourrait-il se passer à l’avenir ?
Nous nous trouvons à un tournant dans les relations entre l'homme et l'IA. Certaines personnes s'identifient déjà à l'IA. OpenAI a même publié une déclaration exhortant les gens à ne pas tomber amoureux de ChatGPT. Vous savez ce qui cloche dans tout ça ? Tous ceux qui sont assez âgés pour s'identifier à l'IA ont grandi dans un monde plus traditionnel où les seules interactions étaient humaines.
Mais, alors que les entreprises repoussent les limites de l'intelligence artificielle humaine et nous imposent leur intelligence artificielle, qu'en sera-t-il de la prochaine génération ou de celle d'après ? Imaginez un enfant né demain qui grandit dans un monde de plus en plus dominé par l'intelligence artificielle. Comment cet enfant serait-il en 2040 lorsqu'il sera adolescent ? Combien de LLM auront eu un impact sur sa vie ? Cet enfant saura-t-il à quel point les relations générées par l'IA sont mauvaises s'il a été éduqué par un chatbot plutôt que par un professeur ?
Maintenant que les voix sont si réelles, à quoi bon enregistrer des podcasts quand on peut simplement en générer un ? Bien sûr, les gens d'aujourd'hui vont s'enthousiasmer pour un podcast généré par l'IA, mais imaginez ce que seront les choses dans quelques années, lorsque l'IA sera plus normalisée. Les auditeurs plus jeunes, qui ont grandi avec l'IA, ne s'en soucieront probablement pas. Plutôt que de féliciter un groupe de podcasteurs, les auditeurs féliciteront le modèle qui alimente les données.
Avec des voix artificielles si réalistes, l’humanité est sur le point d’oublier l’humanité elle-même. Google maîtrise l’art de la voix, et nous n’avons aucune idée des conséquences qui en découleront.