Y a-t-il eu un deuxième Big Bang de l’IA ?
Aleksa Gordic, chercheuse en intelligence artificielle chez DeepMind
Le premier Big Bang en 2012
Le Big Bang de l’intelligence artificielle (IA) fait référence à la percée de 2012, lorsqu’une équipe de chercheurs dirigée par Geoff Hinton a réussi à entraîner un réseau de neurones artificiels (connu sous le nom de système d’apprentissage en profondeur) pour remporter un concours de classification d’images avec une marge surprenante. . Avant cela, l’IA avait accompli des exploits remarquables, mais elle n’avait jamais fait beaucoup d’argent. Depuis 2012, l’IA aide les grandes entreprises technologiques à générer d’énormes richesses, notamment grâce à la publicité.
Un deuxième Big Bang en 2017 ?
Y a-t-il eu un nouveau Big Bang dans l’IA, depuis l’arrivée de Transformers en 2017 ? Dans les épisodes 5 et 6 du podcast London Futurist, Aleksa Gordic a exploré cette question et expliqué comment fonctionnent les systèmes d’IA de pointe d’aujourd’hui. Aleksa est chercheuse en intelligence artificielle chez DeepMind et a précédemment travaillé dans l’équipe Microsofts Hololens. Remarquablement, son expertise en IA est autodidacte, il y a donc encore de l’espoir pour nous tous !
Transformateurs
Les transformateurs sont des modèles d’apprentissage en profondeur qui traitent les entrées exprimées en langage naturel et produisent des sorties telles que des traductions ou des résumés de textes. Leur arrivée a été annoncée en 2017 avec la publication par les chercheurs de Google d’un article intitulé Attention is All You Need. Ce titre faisait référence au fait que les transformateurs peuvent prêter attention simultanément à un grand corpus de texte, alors que leurs prédécesseurs, les réseaux de neurones récurrents, ne pouvaient prêter attention qu’aux symboles de part et d’autre du segment de texte en cours de traitement.
Les transformateurs fonctionnent en divisant le texte en petites unités, appelées jetons, et en les mappant sur des réseaux de grande dimension – souvent des milliers de dimensions. Nous, les humains, ne pouvons pas envisager cela. L’espace que nous habitons est défini par trois nombres ou quatre, si vous incluez le temps, et nous ne pouvons tout simplement pas imaginer un espace avec des milliers de dimensions. Les chercheurs suggèrent que nous ne devrions même pas essayer.
Dimensions et vecteurs
Pour les modèles Transformer, les mots et les jetons ont des dimensions. Nous pourrions les considérer comme des propriétés ou des relations. Par exemple, l’homme est au roi ce que la femme est à la reine. Ces concepts peuvent être exprimés sous forme de vecteurs, comme des flèches dans un espace tridimensionnel. Le modèle attribuera une probabilité à un jeton particulier d’être associé à un vecteur particulier. Par exemple, une princesse est plus susceptible d’être associée au vecteur qui désigne le port d’une pantoufle qu’au vecteur qui désigne le port d’un chien.
Les machines peuvent découvrir les relations, ou les vecteurs, entre les jetons de différentes manières. Dans l’apprentissage supervisé, on leur donne suffisamment de données étiquetées pour indiquer tous les vecteurs pertinents. Dans l’apprentissage auto-supervisé, ils ne reçoivent pas de données étiquetées et ils doivent trouver les relations par eux-mêmes. Cela signifie que les relations qu’ils découvrent ne sont pas nécessairement découvertes par les humains. Ce sont des boîtes noires. Les chercheurs étudient comment les machines gèrent ces dimensions, mais il n’est pas certain que les systèmes les plus puissants soient jamais vraiment transparents.
Paramètres et synapses
La taille d’un modèle Transformer est normalement mesurée par le nombre de paramètres dont il dispose. Un paramètre est analogue à une synapse dans un cerveau humain, qui est le point de rencontre des vrilles (axones et dendrites) de nos neurones. Les premiers modèles Transformer avaient environ une centaine de millions de paramètres, et maintenant les plus grands en ont des billions. C’est encore plus petit que le nombre de synapses dans le cerveau humain, et les neurones humains sont des créatures beaucoup plus complexes et puissantes que les neurones artificiels.
Pas uniquement par SMS
Une découverte surprenante faite quelques années après l’arrivée de Transformers est qu’ils sont capables de symboliser non seulement du texte, mais aussi des images. Google a publié la première vision Transformer fin 2020, et depuis lors, les gens du monde entier se sont émerveillés de la sortie de Dall-E, MidJourney et d’autres.
Le premier de ces modèles de génération d’images était les réseaux antagonistes génératifs, ou GAN. Il s’agissait de paires de modèles, l’un (le générateur) créant des images conçues pour tromper l’autre en l’acceptant comme original, et le second système (le discriminateur) rejetant les tentatives qui n’étaient pas assez bonnes. Les GAN ont maintenant été dépassés par les modèles de diffusion, dont l’approche consiste à éliminer le bruit du signal souhaité. Le premier modèle de diffusion a en fait été décrit il y a déjà 2015, mais le document a été presque complètement ignoré. Ils ont été redécouverts en 2020.
Gloutons énergétiques
Les transformateurs sont des gourmands en puissance de calcul et en énergie, ce qui a fait craindre qu’ils ne représentent une impasse pour la recherche sur l’IA. Il est déjà difficile pour les institutions universitaires de financer la recherche sur les derniers modèles, et on craignait que même les géants de la technologie ne les trouvent bientôt inabordables. Le cerveau humain indique une voie à suivre. Il n’est pas seulement plus grand que les derniers modèles Transformer (à environ 80 milliards de neurones, chacun avec environ 10 000 synapses, il est 1 000 fois plus grand). C’est aussi un consommateur d’énergie beaucoup plus efficace – principalement parce que nous n’avons besoin d’activer qu’une petite partie de nos synapses pour effectuer un calcul donné, alors que les systèmes d’IA activent tous leurs neurones artificiels en permanence. Les puces neuromorphiques, qui imitent le cerveau plus étroitement que les puces classiques, peuvent aider.
Des surprises sans surprise
Aleksa est souvent surprise par ce que les derniers modèles sont capables de faire, mais ce n’est pas surprenant en soi. Si je n’étais pas surpris, cela signifierait que je pourrais prédire l’avenir, ce que je ne peux pas. Il tire plaisir du fait que la communauté de la recherche est comme un esprit de ruche : on ne sait jamais d’où viendra la prochaine idée. La prochaine grande chose pourrait venir de quelques étudiants d’une université, et un chercheur appelé Ian Goodfellow a créé le premier GAN en jouant à la maison après une séance de remue-méninges autour de quelques bières.