Amazon dévoile son objectif à long terme dans le traitement du langage naturel

L’objectif : un modèle d’apprentissage automatique unique capable d’analyser et de comprendre les entrées dans de nombreuses langues. Le cas d’utilisation : les personnes qui interagissent avec Alexa dans leur langue maternelle (entre autres applications commerciales).

Le 20 avril 2022, Amazon a annoncé trois développements pour atteindre cet objectif, qu’il a appelé MMNLU-22, les initiales signifiant compréhension massivement multilingue du langage naturel ou Massively Multilingual NLU.

Les trois développements sont la publication d’un ensemble de données avec un million d’énoncés étiquetés dans 51 langues et un code open source ; un concours utilisant cet ensemble de données (date limite : 1er juin 2099) ; et un atelier à la plus grande conférence mondiale sur la traduction automatique (EMNLP 2022 à Abu Dhabi, 711 décembre 2022).

Amazon a appelé l’ensemble de données MASSIVE ; c’est-à-dire Amazon SLURP multilingue pour le remplissage des emplacements, la classification des intentions et l’évaluation de l’assistant virtuel. L’ensemble de données est fourni avec des exemples sur la façon d’effectuer la modélisation MMNLU afin que d’autres puissent recréer les résultats de base pour la classification des intentions de deux tâches NLU critiques et le remplissage des emplacements, comme décrit dans le document SLURP (ou ensemble de ressources SLU) lié ci-dessus.

NLU est une sous-discipline du traitement du langage naturel (NLP) et Amazon a déclaré qu’il se concentrait sur NLU en tant que composant de la compréhension de la langue parlée (SLU), où l’audio est converti en texte avant que NLU ne soit exécuté. Alexa est un exemple d’assistant virtuel basé sur SLU.

Couverture du rapport sur le marché de l'industrie de la langue 2022

Rapport sur le marché de l’industrie de la langue Slator 2022

Rapport phare de 100 pages sur la taille du marché, les segments d’acheteurs, le paysage concurrentiel, les informations sur les ventes et le marketing, la technologie linguistique et plus encore.

L’ensemble de données MASSIVE comprend un million d’énoncés de texte d’assistant virtuel réalistes, parallèles et étiquetés couvrant 51 langues, 18 domaines, 60 intentions et 55 emplacements.

Amazon a créé l’ensemble de données en chargeant des traducteurs professionnels de localiser ou de traduire l’ensemble de données SLURP uniquement en anglais dans 50 langues typologiquement diverses de 29 genres, y compris des langues à faibles ressources.

Amazon essaie essentiellement de surmonter un obstacle majeur des assistants virtuels basés sur SLU comme Alexa ; la R&D académique et industrielle NLU étant encore limitée à quelques langues.

Une difficulté dans la création de modèles NLU massivement multilingues est le manque de données étiquetées pour la formation et l’évaluation, en particulier des données réalistes pour une tâche donnée et naturelles pour une langue donnée. Un caractère naturel élevé nécessite généralement un contrôle humain, qui est souvent coûteux.

Par conséquent, la R&D est limitée à un petit sous-ensemble des plus de 7 000 langues du monde, a souligné Amazon. En apprenant une représentation de données partagée qui couvre plusieurs langues, le modèle peut transférer les connaissances des langues avec des données de formation abondantes vers celles dans lesquelles les données de formation sont rares.

Bon départ, portée plus large de la R&D nécessaire

Felix Laumann, PDG de la plate-forme SaaS NeuralSpace, a déclaré à Slator qu’ils avaient étudié en profondeur les données d’Amazon et les proposaient déjà à leurs utilisateurs via une simple fonction d’importation.

Il a souligné qu’un modèle unique capable de comprendre les commandes vocales dans n’importe quelle langue est très bénéfique lorsque les utilisateurs passent d’une langue à l’autre tout en parlant. Par exemple, en Inde, où un hybride hindi-anglais (anglais) est commun. Ou dans d’autres endroits tels que MENA, où il y a un mélange d’un dialecte arabe avec des mots anglais entre les deux dans l’alphabet anglais / latin et non l’alphabet arabe lorsqu’il est écrit (Arabizi). Nous voyons des mélanges similaires de langues à travers l’Afrique, en particulier au Nigeria.

En général, a expliqué Laumann, il faut plus de données pour chaque langue pour former des modèles multilingues que la quantité de données nécessaires pour former un seul modèle monolingue. C’est un problème pour beaucoup de nos clients et probablement pour la plupart des entreprises qui ne sont pas aussi grandes qu’Amazon. Leur alternative consiste à inclure un modèle d’identification de langue simple avant de laisser les données conversationnelles (c’est-à-dire une courte commande vocale, une question, un commentaire écrit ou un message) être traitées par le modèle NLU.

Les entreprises peuvent ensuite former un modèle dans chaque langue dans laquelle elles s’attendent à ce que leurs utilisateurs parlent ou écrivent et laisser le modèle d’identification de la langue allouer l’entrée au modèle spécifique qui comprend cette langue. Lorsque les utilisateurs ciblés sont connus pour communiquer dans des langues mixtes (par exemple, le hinglish, l’arabizi), le modèle d’identification de langue peut allouer l’entrée à un tel modèle multilingue plus étroit.

Produit du rapport sur les fusions et acquisitions et le financement 2021

Rapport Slator 2021 sur les fusions et acquisitions et le financement de l’industrie de la langue

46 pages sur les fusions et acquisitions de l’industrie de la langue et le financement par capital-risque. Comprend les investissements financiers, les fusions, les acquisitions et les introductions en bourse.

Le PDG a conclu : Chez NeuralSpace, nous voyons plus d’utilisation pour ces modèles multilingues plus étroits que pour un modèle multilingue unique. L’impact sur le NLP dans les langages à faibles ressources est notable, mais ne changera pas les problèmes de nombreuses entreprises, à mon avis.

Le problème de taille d’ensemble de données décrit ci-dessus prévaut dans la plupart des entreprises, selon Laumann, et les ensembles de données d’Amazon sont fortement basés sur des cas d’utilisation d’assistants personnels.

En effet, Amazon a laissé entendre où il espère appliquer commercialement ces derniers développements en notant que, sur plus de 100 millions de haut-parleurs intelligents vendus dans le monde (par exemple, Echo), la plupart utilisent exclusivement une interface vocale et s’appuient sur NLU pour fonctionner. La société a estimé que le nombre d’assistants virtuels atteindra huit milliards d’ici 2023, et la plupart seront sur les smartphones.

Note de l’éditeur : cet article a été mis à jour pour inclure des citations de Felix Laumann, PDG de NeuralSpace.

www.actusduweb.com
Suivez Actusduweb sur Google News


Ce site utilise des cookies pour améliorer votre expérience. Nous supposerons que cela vous convient, mais vous pouvez vous désinscrire si vous le souhaitez. J'accepte Lire la suite