L’avenir d’Internet sera-t-il la voix ? Proposer un World Wide Voice Web
Le World Wide Web (WWW) et le navigateur WWW ont imprégné nos vies et ont révolutionné la façon dont nous obtenons des informations et des divertissements, dont nous socialisons et dont nous menons nos affaires.
En utilisant de nouveaux outils qui rendent facile et peu coûteux le développement d’agents vocaux, les chercheurs de Stanford proposent maintenant la création du World Wide Voice Web (WWvW), une nouvelle version du World Wide Web que les gens pourront naviguer entièrement en utilisant la voix.
Environ 90 millions d’Américains utilisent déjà des haut-parleurs intelligents pour diffuser de la musique et des actualités, ainsi que pour effectuer des tâches telles que faire l’épicerie, planifier des rendez-vous et contrôler leurs lumières. Mais deux sociétés contrôlent essentiellement ces passerelles vocales vers le Web vocal, du moins aux États-Unis, Amazon, qui a été le pionnier d’Alexa ; et Google, qui a développé Google Assistant. En effet, les deux services sont des jardins clos. Ces oligopoles créent d’importants déséquilibres qui permettent aux propriétaires de technologies de favoriser leurs propres produits par rapport à ceux d’entreprises concurrentes. Ils contrôlent le contenu à mettre à disposition et les frais à facturer pour agir en tant qu’intermédiaires entre les entreprises et leurs clients. En plus de tout cela, leurs haut-parleurs intelligents propriétaires mettent en péril la confidentialité car ils écoutent les conversations tant qu’ils sont branchés.
L’équipe de Stanford, dirigée par le professeur d’informatique Monica Lam au Stanford Open Virtual Assistant Laboratory (OVAL), a développé un assistant virtuel open source préservant la confidentialité appelé Genie et des outils de développement d’agents vocaux rentables qui peuvent offrir une alternative au plates-formes propriétaires. Les chercheurs ont également organisé un atelier le 10 novembre qui a discuté de leur travail et proposé la conception du World Wide Voice Web (regardez l’événement complet).
Qu’est-ce que le WWvW ?
Tout comme le World Wide Web, le nouveau WWvW est décentralisé. Les organisations publient des informations sur leurs agents vocaux sur leurs sites Web, qui sont accessibles par n’importe quel assistant virtuel. Dans WWvW, dit Lam, les agents vocaux sont comme des pages Web, fournissant des informations sur leurs services et applications, et l’assistant virtuel est le navigateur. Ces agents vocaux peuvent également être mis à disposition en tant que chatbots ou agents de centre d’appels, les rendant ainsi accessibles sur ordinateur ou par téléphone.
Le WWvW a le potentiel d’atteindre encore plus de personnes que le WWW, y compris ceux qui ne sont pas avertis techniquement, ceux qui ne lisent pas et n’écrivent pas bien, ou qui ne parlent même pas une langue écrite, dit Lam. Par exemple, le professeur assistant en informatique de Stanford Chris Piech, avec les étudiants diplômés Moussa Doumbouya et Lisa Einstein, travaillent au développement d’une technologie vocale pour trois langues africaines qui pourrait aider à combler le fossé entre l’analphabétisme et l’accès à des ressources précieuses, notamment des informations agricoles et des soins médicaux. Contrairement au Web vocal commercial dirigé par Amazon et Google, qui n’est disponible que sur certains marchés et langues, le WWvW décentralisé permet à la société de fournir des informations et des services vocaux dans toutes les langues et pour tous les usages, y compris l’éducation et d’autres causes humanitaires qui n’ont pas gros retours monétaires, dit Lam.
Pourquoi ces outils n’ont-ils pas été créés auparavant ? L’équipe de Stanford déclare : Il est tout simplement très difficile de créer une technologie vocale. Amazon et Google ont investi d’énormes sommes d’argent et de ressources pour fournir les technologies de traitement automatique du langage naturel à leurs assistants respectifs et emploient des milliers de personnes pour annoter les données de formation. Le processus de développement technologique a été coûteux et extrêmement laborieux, créant une énorme barrière à l’entrée pour quiconque essaie d’offrir des assistants vocaux intelligents de qualité commerciale, dit Lam.
Libérer le génie
Au cours des six dernières années, Lam a travaillé avec le doctorant de Stanford Giovanni Campagna, le professeur d’informatique James Landay et Christopher Manning, professeur d’informatique et de linguistique, à OVAL pour développer une nouvelle méthodologie de développement d’agents vocaux de deux ordres de grandeur. plus efficace en termes d’échantillonnage que les solutions actuelles. Le générateur d’agents pré-formés Genie open source qu’ils ont créé offre des réductions spectaculaires des coûts et des ressources dans le développement d’agents vocaux dans différentes langues.
L’interopérabilité est un élément clé pour garantir que les appareils peuvent interagir les uns avec les autres de manière transparente, note Lam. Au cœur de la technologie Genie se trouve un langage de programmation distribué qu’ils ont créé pour les assistants virtuels appelé ThingTalk. Il permet l’interopérabilité de plusieurs assistants virtuels, services Web et appareils IoT. Stanford propose actuellement le premier cours sur ThingTalk, Assistants virtuels conversationnels utilisant le Deep Learning, cet automne.
À ce jour, Genie dispose d’agents pré-formés pour les compétences vocales les plus populaires telles que la lecture de musique, de podcasts, d’actualités, de recommandations de restaurants, de rappels et de minuteries, ainsi que la prise en charge de plus de 700 appareils IoT. Ces agents sont librement disponibles et peuvent être appliqués à d’autres services similaires.
World Wide Voice Web Conférence
L’équipe OVAL a présenté ces concepts lors d’un atelier axé sur le World Wide Voice Web le 10 novembre.
La conférence comprenait des conférenciers du monde universitaire et de l’industrie ayant une expertise en apprentissage automatique, traitement du langage naturel, interaction ordinateur-humain et appareils IoT, et les panélistes ont discuté de la création d’un écosystème vocal, d’agents préformés et de la valeur sociale d’un Web vocal. L’équipe de Stanford a également effectué une démonstration en direct de Genie.
Nous voulons que d’autres personnes se joignent à nous pour construire le World Wide Voice Web, déclare Lam, qui est également membre du corps professoral du Stanford Institute for Human-Centered Artificial Intelligence. Le World Wide Web original s’est développé lentement au début, mais une fois qu’il s’est propagé, il n’a pas été possible de l’arrêter. Nous espérons voir la même chose avec le World Wide Voice Web.
Genie est un projet de recherche en cours financé par la National Science Foundation, la Alfred P. Sloan Foundation, la Verdant Foundation et Stanford HAI.