Utilisation de l’IA pour traduire la parole dans une langue principalement orale | Méta
La traduction vocale basée sur l’IA s’est principalement concentrée sur les langues écrites, mais près de 3 500 langues vivantes sont principalement parlées et ne disposent pas d’un système d’écriture largement utilisé. Cela rend impossible la création d’outils de traduction automatique à l’aide de techniques standard, qui nécessitent de grandes quantités de texte écrit pour former un modèle d’IA.
Pour relever ce défi, nous avons construit le premier système de traduction parole-parole alimenté par l’IA pour le hokkien, une langue principalement orale largement parlée au sein de la diaspora chinoise mais dépourvue d’une forme écrite standard. Nous avons ouvert nos modèles de traduction Hokkien, nos ensembles de données d’évaluation et nos documents de recherche afin que d’autres puissent reproduire et s’appuyer sur notre travail.
Le système de traduction fait partie de notre Traducteur vocal universel projet, qui développe de nouvelles méthodes d’IA qui, nous l’espérons, permettront à terme une traduction parole-parole en temps réel dans de nombreuses langues. Nous croyons que la communication parlée peut rassembler les gens où qu’ils se trouvent, même dans le métaverse.
Une nouvelle approche de modélisation
De nombreux systèmes de traduction de la parole reposent sur des transcriptions. Cependant, étant donné que les langues principalement orales n’ont pas de formes écrites standard, la production de texte transcrit en tant que sortie de traduction ne fonctionne pas. Nous nous sommes donc concentrés sur la traduction de parole en parole.
Pour ce faire, nous avons développé une variété de méthodes, telles que l’utilisation de la traduction de la parole à l’unité pour traduire la parole d’entrée en une séquence de sons acoustiques, et généré des formes d’onde à partir de celles-ci ou nous nous sommes appuyés sur du texte d’une langue apparentée, dans ce cas Mandarin.
Regard sur l’avenir de la traduction
Alors que le modèle de traduction Hokkien est encore un travail en cours et ne peut traduire qu’une seule phrase complète à la fois, c’est un pas vers un avenir où la traduction simultanée entre les langues est possible. Les techniques que nous avons mises au point peuvent être étendues à de nombreuses autres langues écrites et non écrites.
Nous publions également SpeechMatrix, qui est une vaste collection de traductions de parole en parole développées grâce à notre boîte à outils innovante de traitement du langage naturel appelé LASER. Ces outils permettront à d’autres chercheurs de créer leurs propres systèmes de traduction parole-parole et de s’appuyer sur nos travaux. Et nos progrès dans ce que les chercheurs appellent l’apprentissage non supervisé démontrent la faisabilité de construire des modèles de traduction de parole en parole de haute qualité sans aucune annotation humaine. Cela aidera à étendre ces modèles pour qu’ils fonctionnent pour les langues où il n’y a pas de données de formation étiquetées disponibles pour former le système.
Nos recherches sur l’IA aident à briser les barrières linguistiques à la fois dans le monde physique et dans le métaverse pour encourager la connexion et la compréhension mutuelle. Nous sommes impatients d’étendre nos recherches et de proposer cette technologie à davantage de personnes à l’avenir.
En savoir plus sur notre Traduction vocale basée sur l’IA.