Amazon lance la compréhension du langage naturel en ouvrant un ensemble de données vocales « MASSIVE »

Les milliardaires vendent des actions Nvidia et achètent…

This Article Is Based On The Amazon article 'Amazon releases 51-language dataset for language understanding'. All Credit For This Research Goes To The Amazon Researchers. 

Please Don't Forget To Join Our ML Subreddit

Pour adapter la compréhension du langage naturel à toutes les langues parlées sur Terre, Amazon.Inc a annoncé la sortie de son ensemble de données vocales open source « MASSIVE ». L’objectif principal de la conservation d’un tel ensemble de données était d’aider les chercheurs à développer des assistants virtuels qui pourraient facilement être généralisés à certaines des langues les plus cachées au monde. En plus de la base de données, Amazon a également publié un code de modélisation open source pour aider les développeurs à créer des assistants virtuels plus performants.

Plusieurs nouvelles percées technologiques dans la reconnaissance vocale et la compréhension du langage naturel (NLU) ont ouvert la voie aux assistants numériques activés par la voix tels que Siri, Bixby et Google Assistant. Le principal défaut de ces assistants personnels à commande vocale est qu’ils ne sont disponibles que dans quelques langues familières. L’ensemble de données MASSIVE est un pas en avant dans la création d’un ensemble de données qui couvre plusieurs langues obscures pour construire des modèles multilingues de compréhension du langage naturel qui peuvent s’adapter en douceur aux langues dont les données de formation sont rares, dans le but de permettre aux gens du monde entier de profiter la disponibilité de systèmes d’IA conversationnels comme Alexa dans leur langue maternelle.

Le SLURP multilingue d’Amazon pour le remplissage des emplacements, la classification des intentions et l’évaluation de l’assistant virtuel, ou MASSIVE en abrégé, est un « ensemble de données parallèles » qui comprend un million d’énoncés étiquetés dans 51 langues, y compris ceux qui manquent de données correctement étiquetées, ainsi que des -code source qui montre comment exécuter une modélisation NLU massivement multilingue. Alexa étant actuellement disponible en 7 langues, la société vise à l’étendre à plus de 7000 langues parlées dans les coins masqués du monde.

Cette startup basee en Californie developpe une plateforme basee sur

Des traducteurs professionnels ont méticuleusement organisé l’ensemble de données en traduisant l’ensemble de données SLURP disponible uniquement en anglais dans 50 langues variées qui manquaient de données étiquetées. La base de données MASSIVE, selon Amazon, sera particulièrement efficace pour améliorer la compréhension de la langue parlée, dans laquelle l’audio est transformé en texte avant que NLU ne soit terminé. La compréhension du langage naturel (NLU) est une branche du traitement du langage naturel (NLP) qui traite de la conversion du langage humain en un format lisible par machine.

Amazon met également en place un nouveau concours appelé Massively Multilingual NLU 2022 (MMNLU-22) qui utilisera l’ensemble de données MASSIVE pour encourager les universitaires à concevoir des modèles qui peuvent facilement s’adapter à de nouvelles langues et créer davantage d’applications tierces pour Alexa. Le concours sera hébergé sur une plateforme appelée eval.ai et comprendra deux tâches. En décembre, les résultats du concours seront présentés lors d’un atelier EMNLP 2022 à Abu Dhabi et d’une session en ligne intitulée Massively Multilingual NLU 2022. Il comprendra également des présentations par des conférenciers invités et des sessions orales et d’affiches avec des articles sur le traitement multilingue du langage naturel qui ont été soumis.

Amazon a une vision pour ses produits comme Alexa et Echo pour atteindre et être disponible pour tous les clients et appareils. Avec ces trois annonces importantes, il aspire à devenir un acteur clé dans la communauté mondiale des systèmes de traduction NLU.

Source : https://www.amazon.science/blog/amazon-releases-51-language-dataset-for-language-understanding

Références:

https://siliconangle.com/2022/04/20/amazon-releases-massive-database-designed-scale-natural-language-understanding/
https://www.theregister.com/2022/04/20/amazon_ai_speech/
https://www.amazon.science/blog/amazon-releases-51-language-dataset-for-language-understanding

www.actusduweb.com

Suivez Actusduweb sur Google News

Similaire