Le nouveau VALL-E AI de Microsoft peut cloner votre voix à partir d’un clip audio de trois secondes
La dernière incursion de Microsoft dans le monde de l’intelligence artificielle se présente sous la forme de VALL-E, un modèle de synthèse vocale basé sur un transformateur qui peut recréer n’importe quelle voix à partir d’un extrait de trois secondes. Les experts en cybersécurité affirment que sans protections appropriées, il pourrait être utilisé pour des attaques de phishing plus réalistes et pour diffuser des informations erronées.

En plus de réduire le temps de formation pour générer une nouvelle voix, VALL-E crée une voix synthétique beaucoup plus naturelle que les autres modèles en préservant l’intonation, le charisme et le style de l’échantillon original. Ceux-ci peuvent ensuite être dirigés selon les besoins lors de l’écriture du script de synthèse vocale.
Avoir ces fonctionnalités signifie qu’avec seulement trois secondes de voix de quelqu’un, enregistrées à partir d’un appel téléphonique, en personne ou même à partir d’un podcast, le modèle peut synthétiser cette voix pour dire n’importe quelle phrase. Il pourrait potentiellement voir des mots placés dans la bouche d’un politicien, d’un acteur ou même d’un membre de la famille demandant de l’argent.
Les performances se sont améliorées par rapport aux modèles de voix synthétiques précédents à un point tel qu’il serait difficile de dire si vous entendiez une vraie ou une fausse voix, explique Microsoft.
Tout comme les grands modèles d’IA génératifs utilisés pour former DALL-E 2 et GPT-3, les développeurs ont introduit une quantité importante de matériel dans le système pour créer l’outil. Ils ont utilisé 60 000 heures de parole lors de la formation du modèle, dont une grande partie provenait d’enregistrements réalisés à l’aide de l’application Teams.
VALL-E pourrait être utilisé dans les jeux et la fintech
Le code de VALL-E n’est actuellement pas accessible au public et seuls des exemples de fichiers audio ont été publiés à l’aide de l’outil. Il n’est pas non plus clair quand ou si Microsoft prévoit de rendre VALL-E disponible en tant qu’outil d’accès public ou commercial.
Joshua Kaiser, PDG de la société d’intelligence artificielle Tovie.ai, a déclaré Moniteur technique que le modèle a été conçu de telle manière qu’il permet aux utilisateurs de faire beaucoup plus avec beaucoup moins de données, ce qui est crucial pour les organisations qui essaient de créer une synthèse vocale qui n’ont pas assez de données pour de meilleures performances. Nous pensons que cela profitera à de nombreuses industries, de la vente au détail à la fintech en passant par les jeux, qui adoptent déjà les interfaces vocales, en rendant l’ensemble du processus plus accessible, dit-il.
Le plus grand avantage de VALL-E est son échelle potentielle, déclare Arun Chandrasekaran, analyste VP distingué chez Gartner. Il peut être efficace dans des scénarios de tir nul ou de quelques tirs où peu de données de formation spécifiques à un domaine sont disponibles. De plus, si ces modèles peuvent être fournis en tant que service cloud, ils peuvent réduire le temps et les efforts nécessaires pour que les modèles soient opérationnels contrairement aux approches classiques, explique Chandrasekaran.
Contenu de nos partenaires



Il existe plusieurs cas d’utilisation réels de la technologie, explique Chandrasekaran, notamment l’édition de la parole (où un certain mot ou une phrase peut être corrigé), la contextualisation de la voix pour différents scénarios, l’apprentissage virtuel interactif et l’automatisation du service client.
Cela comporte des risques, notamment l’usurpation d’identité vocale ou l’usurpation de l’identité d’orateurs et de célébrités spécifiques, ce qui pourrait entraîner une propagation plus rapide de la désinformation. Cet aspect pourrait être la raison pour laquelle Microsoft a mis du temps à publier le code derrière la technologie ou à publier une API, comme OpenAI et d’autres l’ont fait avec des outils de génération de texte et d’image comme GPT-3 et DALL-E 2. Cela faciliterait le transport. dénoncez les attaques de phishing en utilisant une vraie voix ou diffusez de fausses nouvelles en ligne, par exemple via une vidéo YouTube ou un podcast.
Risque d’usurpation de VALL-E
L’usurpation d’identité peut consister à permettre à un cybercriminel d’accéder à des banques ou à des systèmes sécurisés qui utilisent une empreinte vocale comme mot de passe, bien que nombre de ces systèmes disposent de mécanismes pour détecter s’il s’agit d’une voix en direct ou enregistrée. Il pourrait également être utilisé dans une escroquerie par hameçonnage pour prélever un court échantillon d’une voix à partir d’un appel téléphonique, puis utiliser cet échantillon pour créer un nouveau modèle vocal qui pourrait aider à convaincre quelqu’un de se séparer d’un mot de passe, peut-être en usurpant un responsable financier dans une entreprise.
Muhammad Yahya Patel, ingénieur en sécurité chez Check Point Software, a déclaré que l’avancement de nouvelles technologies comme VALL-E ne devrait pas être craint, mais nous devons toujours aborder des systèmes comme celui-ci avec une certaine prudence. Bien qu’il ait ses mérites, le nouveau modèle de synthèse vocale VALL-E de Microsoft pourrait avoir des implications inquiétantes pour la cybersécurité à mesure qu’il devient plus mature et intégré dans notre vie quotidienne.
Si nous avons appris quelque chose de l’année dernière, c’est que les cybercriminels exploiteront n’importe quel moyen pour inciter les victimes sans méfiance à leur remettre leurs mots de passe ou leurs coordonnées bancaires, par exemple. Vishing [a scam phone call] est une méthode populaire utilisée par les acteurs de la menace, et pour cause compte tenu des taux de réussite de ces campagnes.
Il a déclaré que la nouvelle technologie pourrait donner aux cybercriminels l’occasion d’améliorer leur jeu et d’introduire un élément personnel, notamment en leur permettant de se faire passer pour la voix d’un être cher. Cela rendrait beaucoup plus difficile pour quiconque de faire la différence entre la demande d’une personne de confiance et celle d’un cybercriminel malveillant.
De même, alors que nous nous dirigeons vers une époque où de nombreuses banques utilisent désormais l’authentification vocale pour autoriser les transactions, il est facile de voir comment un acteur malveillant pourrait cibler un individu et accéder à un compte avec un effort très minimal. Il est essentiel que ces opportunités pour les pirates informatiques d’exploiter les nouvelles technologies soient comprises et, à ce titre, que les précautions nécessaires soient prises avant qu’il ne soit trop tard.
Moniteur technique a approché Microsoft pour un commentaire sur la façon dont il prévoit d’atténuer l’utilisation abusive potentielle de VALL-E.