Une IA peut décoder la parole à partir de l’activité cérébrale avec une précision surprenante

Une intelligence artificielle peut décoder des mots et des phrases à partir de l’activité cérébrale avec une précision surprenante mais encore limitée. En utilisant seulement quelques secondes de données d’activité cérébrale, l’IA devine ce qu’une personne a entendu. Il répertorie la bonne réponse dans ses 10 meilleures possibilités jusqu’à 73% du temps, ont découvert les chercheurs dans une étude préliminaire.

Les performances de l’IA étaient supérieures à ce que beaucoup de gens pensaient être possibles à ce stade, explique Giovanni Di Liberto, informaticien au Trinity College de Dublin qui n’a pas participé à la recherche.

Développée au sein de la société mère de Facebook, Meta, l’IA pourrait éventuellement être utilisée pour aider des milliers de personnes dans le monde incapables de communiquer par la parole, la frappe ou les gestes, rapportent des chercheurs le 25 août sur arXiv.org. Cela inclut de nombreux patients dans des états de conscience minimale, enfermés ou végétatifs, ce qui est maintenant généralement connu sous le nom de syndrome d’éveil insensible (SN : 08/02/19).

La plupart des technologies existantes pour aider ces patients à communiquer nécessitent des chirurgies cérébrales risquées pour implanter des électrodes. Cette nouvelle approche « pourrait fournir une voie viable pour aider les patients présentant des déficits de communication sans recourir à des méthodes invasives », déclare le neuroscientifique Jean-Rmi King, chercheur en Meta AI actuellement à l’école Normale Supérieure à Paris.

King et ses collègues ont formé un outil informatique pour détecter des mots et des phrases sur 56 000 heures d’enregistrements vocaux dans 53 langues. L’outil, également connu sous le nom de modèle de langage, a appris à reconnaître des caractéristiques spécifiques du langage à la fois à un niveau plus fin, pensez aux lettres ou aux syllabes, et à un niveau plus large, comme un mot ou une phrase.

L’équipe a appliqué une IA avec ce modèle de langage aux bases de données de quatre institutions qui comprenaient l’activité cérébrale de 169 volontaires. Dans ces bases de données, les participants ont écouté diverses histoires et phrases tirées, par exemple, de l’œuvre d’Ernest Hemingway Le vieil homme et la mer et Lewis Carroll Alices Aventures au pays des merveilles tandis que les cerveaux des gens ont été scannés à l’aide de la magnétoencéphalographie ou de l’électroencéphalographie. Ces techniques mesurent la composante magnétique ou électrique des signaux cérébraux.

Ensuite, à l’aide d’une méthode de calcul qui aide à tenir compte des différences physiques entre les cerveaux réels, l’équipe a tenté de décoder ce que les participants avaient entendu en utilisant seulement trois secondes de données d’activité cérébrale de chaque personne. L’équipe a demandé à l’IA d’aligner les sons de la parole des enregistrements d’histoires sur les modèles d’activité cérébrale que l’IA a calculés comme correspondant à ce que les gens entendaient. Il a ensuite fait des prédictions sur ce que la personne aurait pu entendre pendant ce court laps de temps, compte tenu de plus de 1 000 possibilités.

En utilisant la magnétoencéphalographie, ou MEG, la bonne réponse se trouvait dans les 10 meilleures hypothèses de l’IA jusqu’à 73% du temps, ont découvert les chercheurs. Avec l’électroencéphalographie, cette valeur est tombée à pas plus de 30 %. [That MEG] les performances sont très bonnes, dit Di Liberto, mais il est moins optimiste quant à son utilisation pratique. Que pouvons-nous en faire ? Rien. Absolument rien.

La raison, dit-il, est que MEG nécessite une machine volumineuse et coûteuse. L’introduction de cette technologie dans les cliniques nécessitera des innovations scientifiques qui rendront les machines moins chères et plus faciles à utiliser.

Il est également important de comprendre ce que signifie réellement le décodage dans cette étude, explique Jonathan Brennan, linguiste à l’Université du Michigan à Ann Arbor. Le mot est souvent utilisé pour décrire le processus de déchiffrement des informations directement à partir d’une source dans ce cas, la parole à partir de l’activité cérébrale. Mais l’IA ne pouvait le faire que parce qu’elle disposait d’une liste finie de réponses correctes possibles pour faire ses suppositions.

Avec le langage, cela ne suffira pas si nous voulons passer à une utilisation pratique, car le langage est infini, dit Brennan.

De plus, dit Di Liberto, l’IA a décodé les informations des participants écoutant passivement de l’audio, ce qui n’est pas directement pertinent pour les patients non verbaux. Pour qu’il devienne un outil de communication significatif, les scientifiques devront apprendre à décrypter de l’activité cérébrale ce que ces patients ont l’intention de dire, y compris les expressions de faim, d’inconfort ou un simple oui ou non.

La nouvelle étude est « le décodage de la perception de la parole, pas de la production, accepte King. Bien que la production de la parole soit le but ultime, pour l’instant, nous étions assez loin.

www.actusduweb.com
Suivez Actusduweb sur Google News


Ce site utilise des cookies pour améliorer votre expérience. Nous supposerons que cela vous convient, mais vous pouvez vous désinscrire si vous le souhaitez. J'accepte Lire la suite