Meta fait progresser le traitement du langage naturel sans texte pour générer un discours d’IA plus expressif
L’équipe de recherche sur l’intelligence artificielle de Meta Platforms Inc. a déclaré aujourd’hui qu’elle avait fait de grands progrès en s’efforçant de créer des systèmes vocaux générés par l’IA plus réalistes.
Ses dernières avancées dans ce qu’il appelle le traitement du langage naturel sans texte signifient qu’il est désormais capable de modéliser des vocalisations expressives, telles que des rires, des bâillements et des cris, en plus du bavardage spontané en temps réel.
Le travail de Metas porte sur les soi-disant modèles génératifs de langage parlé, qui sont un modèle révolutionnaire de traitement du langage naturel qui permet de construire des systèmes de reconnaissance vocale sans utiliser de données audio transcrites pour les former.
Dans un article de blog, l’équipe Meta AIs a expliqué que les systèmes d’IA traditionnels restent assez limités dans leur capacité à capturer des signaux non verbaux riches et expressifs dans la parole, tels que les intonations, les expressions émotionnelles, les pauses, les accents et les rythmes, qui peuvent tous jouer un rôle. rôle clé dans les interactions humaines. C’est parce que ces systèmes ne peuvent apprendre que du texte écrit, qui capture ce que les gens disent mais pas comment ils le disent.
Les métas GSLM sont différents, car ils permettent aux modèles de traitement du langage naturel de capturer toute la nature expressive du langage oral. C’est une capacité puissante, et Meta a déclaré avoir formé ses GSLM à utiliser ces données, soit pour créer des applications en aval, soit comme outil génératif pour créer un langage à partir d’une invite audio.
Le résultat est que Meta dit qu’il peut désormais modéliser les vocalisations expressives qui sont essentielles pour comprendre le contexte d’une interaction de la même manière qu’une personne le ferait. De telles vocalisations permettent aux systèmes d’IA de transmettre des nuances sur leur intention de communication, a expliqué Meta, ou sur le sentiment qu’ils souhaitent transmettre, comme l’ennui, l’ironie et l’irritation.
De plus, Meta a déclaré qu’il était désormais capable de modéliser une conversation spontanée en temps réel entre deux agents d’IA de manière très réaliste. Les agents peuvent prendre en compte des comportements tels que des chevauchements ou des pauses occasionnels, des « euh » et des « ah », etc. Meta a déclaré qu’il s’agissait d’un développement important car il permettra aux agents virtuels, par exemple, de reconnaître des indices et des signaux sociaux plus nuancés. Les systèmes d’IA seront également capables d’interpréter si les expressions non vocales suggèrent une rétroaction positive ou négative, a déclaré Meta.
Meta a expliqué que son intention est de créer des systèmes vocaux d’IA plus naturels et engageants. Par exemple, il prévoit d’appliquer des techniques de formation de modèles sans texte pour créer des applications en aval plus utiles qui ne reposent pas sur des étiquettes de texte gourmandes en ressources ou sur des systèmes de reconnaissance automatique de la parole, telles que des applications capables de répondre à des questions sur la météo, etc.
Nous pensons que la prosodie dans la parole peut aider à mieux analyser une phrase, ce qui facilite la compréhension de l’intention et améliore les performances de la réponse aux questions, a déclaré Meta.
Un autre cas d’utilisation potentiel est la traduction parole-parole, qui pourrait être utile pour le doublage de films. La plupart des systèmes de doublage IA fonctionnent en traduisant le texte d’un scénario de film de manière détournée. Tout d’abord, l’audio est transcrit en texte, puis traduit, puis finalement reconverti en audio. Il est extrêmement compliqué et supprime complètement l’expressivité du langage oral car il passe à côté des expressions idiomatiques propres au langage oral. Meta a déclaré que ses GSLM suppriment le besoin de doublage basé sur du texte, ce qui signifie qu’il peut potentiellement proposer des traductions audio beaucoup plus réalistes.
Comme les approches de représentation de la parole auto-supervisées sont capables d’apprendre des unités discrètes à partir de l’audio brut, il est désormais possible de supprimer le besoin de texte et de le remplacer par le pseudo-texte extrait de chacune des langues cible et source, a expliqué l’équipe Metas AI.
Comme dernier avantage, Meta a déclaré que l’avancement du traitement du langage naturel sans texte contribuerait à rendre l’IA plus inclusive. Les applications NLP traditionnelles doivent être formées avec d’énormes ressources textuelles, ce qui signifie qu’elles ne sont disponibles que dans une poignée de langues. En formant de tels systèmes à partir de la seule parole orale, la PNL sans texte apportera les avantages de la parole de l’IA à des centaines de langues dépourvues d’un système d’écriture standardisé, notamment le suisse allemand, l’arabe dialectal et bien d’autres.