Écoutez un doubleur IA essayer de flirter avec vous

Les milliardaires vendent des actions Nvidia et achètent…

La qualité des voix générées par l’IA s’est rapidement améliorée ces dernières années, mais certains aspects de la parole humaine échappent encore à l’imitation synthétique. Bien sûr, les acteurs de l’IA peuvent fournir des voix off d’entreprise fluides pour les présentations et les publicités, mais des performances plus complexes une interprétation convaincante de Hamletpar exemple restent hors de portée.

Sonantic, une start-up vocale basée sur l’intelligence artificielle, affirme avoir fait une percée mineure dans son développement de deepfakes audio, créant une voix synthétique capable d’exprimer des subtilités telles que les taquineries et le flirt. La société affirme que la clé de son avance est l’incorporation de non-sons de la parole dans son audio ; former ses modèles d’IA pour recréer ces petites bouffées d’air, de minuscules moqueries et des rires à moitié cachés qui donnent à la parole réelle son cachet d’authenticité biologique.

Nous avons choisi l’amour comme thème général, raconte John Flynn, co-fondateur et CTO de Sonantic Le bord. Mais notre objectif de recherche était de voir si nous pouvions modéliser des émotions subtiles. Les plus grandes émotions sont un peu plus faciles à capturer.

Dans la vidéo ci-dessous, vous pouvez entendre la tentative de l’entreprise d’une IA coquette, bien que vous pensiez ou non qu’elle capture les nuances du discours humain est une question subjective. Lors d’une première écoute, j’ai pensé que la voix était presque impossible à distinguer de celle d’une personne réelle, mais des collègues de Le bord disent qu’ils l’ont instantanément chronométré comme un robot, pointant vers les espaces étranges laissés entre certains mots et un léger pli synthétique dans la prononciation.

Le PDG de Sonantic, Zeena Qureshi, décrit le logiciel de l’entreprise comme Photoshop pour la voix. Son interface permet aux utilisateurs de taper le discours qu’ils souhaitent synthétiser, de spécifier l’ambiance de la livraison, puis de sélectionner parmi une distribution de voix d’IA, dont la plupart sont copiées d’acteurs humains réels. Ce n’est en aucun cas une offre unique (des rivaux comme Descript vendent des packages similaires) mais Sonantic affirme que son niveau de personnalisation est plus approfondi que celui de ses rivaux.

Les choix émotionnels pour l’accouchement incluent la colère, la peur, la tristesse, le bonheur et la joie, et, avec la mise à jour de cette semaine, le flirt, la timidité, les taquineries et la vantardise. Un mode directeur permet encore plus de réglages : la hauteur d’une voix peut être ajustée, l’intensité de la livraison composée vers le haut ou vers le bas, et ces petites vocalisations non vocales comme les rires et les respirations insérées.

*Le logiciel Sonantics vous permet d’ajuster la diffusion de la parole générée par l’IA.*

Je pense que c’est la principale différence dans notre capacité à diriger, contrôler, éditer et sculpter une performance, dit Flynn. Nos clients sont principalement des studios de jeux triple A, des studios de divertissement et se sont diversifiés dans d’autres industries. Nous avons récemment conclu un partenariat avec Mercedes [to customize its in-car digital assistant] plus tôt cette année.

Comme c’est souvent le cas avec une telle technologie, cependant, la véritable référence pour la réussite de Sonantics est l’audio qui vient tout juste de ses modèles d’apprentissage automatique, plutôt que ce qui est utilisé dans des démos raffinées et prêtes pour les relations publiques. Flynn dit que le discours synthétisé pour sa vidéo séduisante nécessitait très peu d’ajustements manuels, mais la société a parcouru quelques rendus différents pour trouver la meilleure sortie.

Pour essayer d’obtenir un échantillon brut et représentatif de la technologie Sonantics, je leur ai demandé de rendre la même ligne (à vous, cher Bord lecteur) en utilisant une poignée d’humeurs différentes. Vous pouvez les écouter vous-même pour comparer.

Tout d’abord, voici le dragueur :

Puis taquinant :

Heureux:

Joyeux:

Et enfin, décontracté :

À mes oreilles, du moins, ces clips sont un parcelle plus rugueux que la démo. Cela suggère quelques choses. Tout d’abord, ce polissage manuel est nécessaire pour tirer le meilleur parti des voix de l’IA. C’est le cas de nombreux projets d’intelligence artificielle, comme les voitures autonomes, qui ont réussi à automatiser la conduite très basique, mais qui luttent toujours avec ce dernier et très important 5 % qui définit la compétence humaine. Cela signifie que la synthèse vocale IA entièrement automatisée et totalement convaincante est encore loin.

Deuxièmement, je pense que cela montre que le concept psychologique d’amorçage peut faire beaucoup pour tromper vos sens. La démo vidéo avec ses images d’un véritable acteur humain étant intimement troublant envers la caméra peut inciter votre cerveau à entendre la voix qui l’accompagne comme réelle. Le meilleur média synthétique pourrait donc être celui qui combine des sorties réelles et fausses.

Outre la question de savoir si la technologie est convaincante, la démo de Sonantics soulève d’autres questions telles que, quelle est l’éthique du déploiement d’une IA coquette ? Est-il juste de manipuler les auditeurs de cette manière ? Et pourquoi Sonantic a-t-il choisi de rendre sa silhouette flirteuse féminine ? (C’est un choix qui perpétue sans doute une forme subtile de sexisme dans l’industrie technologique dominée par les hommes, où les entreprises ont tendance à coder les assistants IA comme des secrétaires dociles, voire dragueurs.)

À la première question, la société a déclaré que son choix d’une voix féminine était simplement inspiré du film de Spike Jonzes de 2013. Son, où le protagoniste tombe amoureux d’une assistante IA nommée Samantha. Sur le second, Sonantic a déclaré qu’il reconnaissait les dilemmes éthiques qui accompagnent le développement de nouvelles technologies et qu’il était prudent quant à la manière et à l’endroit où il utilise ses voix d’IA.

C’est l’une des principales raisons pour lesquelles nous sommes restés fidèles au divertissement, déclare le PDG Qureshi. CGI n’est pas utilisé pour n’importe quoi, il est utilisé pour les meilleurs produits de divertissement et simulations. On voit ça [technology] de la même façon. Elle ajoute que toutes les démos de l’entreprise incluent une divulgation selon laquelle la voix est, en effet, synthétique (bien que cela ne signifie pas grand-chose si les clients veulent utiliser le logiciel de l’entreprise pour générer des voix à des fins plus trompeuses).

Comparer la synthèse vocale AI à d’autres produits de divertissement est logique. Après tout, être manipulé par le cinéma et la télévision est sans doute la raison pour laquelle nous fabriquons ces choses en premier lieu. Mais il y a aussi quelque chose à dire sur le fait que l’IA permettra de déployer une telle manipulation à grande échelle, avec moins d’attention à son impact dans des cas individuels. Partout dans le monde, par exemple, les gens nouent déjà des relations et tombent même amoureux des chatbots IA. L’ajout de voix générées par l’IA à ces bots les rendra sûrement plus puissants, soulevant des questions sur la façon dont ces systèmes et d’autres devraient être conçus. Si les voix de l’IA peuvent flirter de manière convaincante, que pourraient-elles vous persuader de faire ?

www.actusduweb.com

Suivez Actusduweb sur Google News

Similaire