Une nouvelle vision de l’intelligence artificielle pour le public
Mais peu de gens maîtrisaient suffisamment la langue pour transcrire manuellement l’audio. Inspiré par des assistants vocaux comme Siri, Mahelona a commencé à se pencher sur le traitement du langage naturel. Apprendre à l’ordinateur à parler Mori est devenu absolument nécessaire, dit Jones.
Mais Te Hiku était confronté à un problème de poule et d’œuf. Pour construire un te reo modèle de reconnaissance vocale, il avait besoin d’une abondance d’audio transcrit. Pour transcrire l’audio, il avait besoin des haut-parleurs avancés dont il essayait de compenser le petit nombre en premier lieu. Il y avait cependant beaucoup d’orateurs débutants et intermédiaires qui pouvaient lire te reo mots à haute voix mieux qu’ils ne pourraient les reconnaître dans un enregistrement.
Alors Jones et Mahelona, ainsi que Suzanne Duncan, COO de Te Hiku, ont imaginé une solution astucieuse : plutôt que de transcrire l’audio existant, ils demanderaient aux gens de s’enregistrer en train de lire une série de phrases conçues pour capturer toute la gamme des sons de la langue. Pour un algorithme, l’ensemble de données résultant remplirait la même fonction. A partir de ces milliers de paires de phrases parlées et écrites, il apprendrait à reconnaître te reo syllabes en audio.
L’équipe a annoncé un concours. Jones, Mahelona et Duncan ont contacté tous les groupes communautaires Mori qu’ils ont pu trouver, y compris les groupes traditionnels kapa haka troupes de danse et waka ama équipes de courses de canoë et a révélé que celui qui soumettrait le plus d’enregistrements gagnerait un grand prix de 5 000 $.
Toute la communauté s’est mobilisée. La concurrence s’est échauffée. Un membre de la communauté Mori, Te Mihinga Komene, éducateur et défenseur de l’utilisation des technologies numériques pour revitaliser te reoa enregistré 4 000 phrases à lui seul.
L’argent n’était pas le seul facteur de motivation. Les gens ont adhéré à la vision de Te Hikus et lui ont fait confiance pour protéger leurs données. Te Hiku Media a dit, Ce que vous nous donnez, étaient ici comme kaitiaki [guardians]. Nous nous en occupons, mais vous êtes toujours propriétaire de votre audio, dit Te Mihinga. C’est important. Ces valeurs définissent qui nous sommes en tant que Mori.
En 10 jours, Te Hiku a amassé 310 heures de paires parole-texte à partir de quelque 200 000 enregistrements réalisés par environ 2 500 personnes, un niveau d’engagement sans précédent parmi les chercheurs de la communauté de l’IA. Personne n’aurait pu le faire à l’exception d’une organisation Mori, déclare Caleb Moses, un scientifique des données Mori qui a rejoint le projet après en avoir entendu parler sur les réseaux sociaux.
La quantité de données était encore faible par rapport aux milliers d’heures généralement utilisées pour former des modèles de langue anglaise, mais c’était suffisant pour commencer. En utilisant les données pour amorcer un modèle open source existant de la fondation Mozilla, Te Hiku a créé son tout premier te reo modèle de reconnaissance vocale avec une précision de 86 %.