Les fausses données sont-elles la vraie affaire lors de la formation d’algorithmes ?
Ouinous sommes au volant de ta voiture mais tu es épuisé. Vos épaules commencent à s’affaisser, votre cou commence à s’affaisser, vos paupières glissent vers le bas. Alors que votre tête penche vers l’avant, vous quittez la route et accélérez à travers un champ, vous écrasant contre un arbre.
Mais que se passerait-il si le système de surveillance de votre voiture reconnaissait les signes révélateurs de somnolence et vous invitait à quitter la route et à vous garer à la place ? La Commission européenne a légiféré qu’à partir de cette année, les nouveaux véhicules soient équipés de systèmes pour détecter les conducteurs distraits et somnolents afin d’éviter les accidents. Aujourd’hui, un certain nombre de startups forment des systèmes d’intelligence artificielle pour reconnaître les cadeaux dans nos expressions faciales et notre langage corporel.
Ces entreprises adoptent une approche novatrice dans le domaine de l’IA. Au lieu de filmer des milliers de conducteurs réels en train de s’endormir et d’introduire ces informations dans un modèle d’apprentissage en profondeur pour apprendre les signes de somnolence, ils créent des millions de faux avatars humains pour reproduire les signaux de somnolence.
Les mégadonnées définissent le domaine de l’IA pour une raison. Pour entraîner avec précision les algorithmes d’apprentissage en profondeur, les modèles doivent disposer d’une multitude de points de données. Cela crée des problèmes pour une tâche telle que reconnaître une personne qui s’endort au volant, ce qui serait difficile et long à filmer dans des milliers de voitures. Au lieu de cela, les entreprises ont commencé à créer des ensembles de données virtuels.
Synthesis AI et Datagen sont deux sociétés qui utilisent des scans 3D du corps entier, y compris des scans détaillés du visage, et des données de mouvement capturées par des capteurs placés sur tout le corps, pour recueillir des données brutes de personnes réelles. Ces données sont alimentées par des algorithmes qui modifient plusieurs fois différentes dimensions pour créer des millions de représentations 3D d’humains, ressemblant à des personnages dans un jeu vidéo, adoptant différents comportements à travers une variété de simulations.
Dans le cas d’une personne qui s’endort au volant, elle peut filmer un acteur humain en train de s’endormir et le combiner avec la capture de mouvement, des animations 3D et d’autres techniques utilisées pour créer des jeux vidéo et des films d’animation, pour construire la simulation souhaitée. Vous pouvez cartographier [the target behaviour] à travers des milliers de types de corps différents, différents angles, différents éclairages et ajoute également de la variabilité au mouvement, déclare Yashar Behzadi, PDG de Synthesis AI.
L’utilisation de données synthétiques élimine une grande partie du désordre de la manière plus traditionnelle de former des algorithmes d’apprentissage en profondeur. En règle générale, les entreprises devaient amasser une vaste collection de séquences réelles et les travailleurs peu rémunérés étiquetaient minutieusement chacun des clips. Celles-ci seraient introduites dans le modèle, qui apprendrait à reconnaître les comportements.
La grande vente pour l’approche des données synthétiques est qu’elle est plus rapide et moins chère par une large marge. Mais ces entreprises affirment également que cela peut aider à lutter contre le biais qui crée un énorme casse-tête pour les développeurs d’IA. Il est bien documenté que certains logiciels de reconnaissance faciale IA ne parviennent pas à reconnaître et à identifier correctement des groupes démographiques particuliers. Cela a tendance à être dû au fait que ces groupes sont sous-représentés dans les données de formation, ce qui signifie que le logiciel est plus susceptible de mal identifier ces personnes.
Niharika Jain, ingénieure en logiciel et experte en préjugés sexistes et raciaux dans l’apprentissage automatique génératif, met en lumière l’exemple notoire de la fonction de détection des clignements de Nikon Coolpixs, qui, parce que les données de formation incluaient une majorité de visages blancs, jugeait de manière disproportionnée les visages asiatiques comme clignotants. Un bon système de surveillance des conducteurs doit éviter d’identifier à tort les membres d’un certain groupe démographique comme endormis plus souvent que d’autres, dit-elle.
La réponse typique à ce problème consiste à recueillir davantage de données auprès des groupes sous-représentés dans des contextes réels. Mais des entreprises comme Datagen disent que ce n’est plus nécessaire. L’entreprise peut simplement créer plus de visages à partir des groupes sous-représentés, ce qui signifie qu’ils constitueront une plus grande proportion de l’ensemble de données final. De véritables données de numérisation de visage en 3D provenant de milliers de personnes sont transformées en millions de composites IA. Il n’y a aucun biais dans les données ; vous avez un contrôle total sur l’âge, le sexe et l’origine ethnique des personnes que vous générez, déclare Gil Elbaz, co-fondateur de Datagen. Les visages effrayants qui émergent ne ressemblent pas à de vraies personnes, mais la société affirme qu’ils sont suffisamment similaires pour apprendre aux systèmes d’IA comment répondre à de vraies personnes dans des scénarios similaires.
Il y a cependant un débat sur la question de savoir si les données synthétiques peuvent réellement éliminer les biais. Bernease Herman, scientifique des données à l’Institut eScience de l’Université de Washington, affirme que bien que les données synthétiques puissent améliorer la robustesse des modèles de reconnaissance faciale sur les groupes sous-représentés, elle ne pense pas que les données synthétiques puissent à elles seules combler l’écart entre les performances de ces groupes et les autres. Bien que les entreprises publient parfois des articles universitaires présentant le fonctionnement de leurs algorithmes, les algorithmes eux-mêmes sont propriétaires, de sorte que les chercheurs ne peuvent pas les évaluer de manière indépendante.
Dans des domaines tels que la réalité virtuelle, ainsi que la robotique, où la cartographie 3D est importante, les sociétés de données synthétiques affirment qu’il pourrait en fait être préférable de former l’IA sur des simulations, d’autant plus que la modélisation 3D, les effets visuels et les technologies de jeu s’améliorent. Ce n’est qu’une question de temps jusqu’à ce que vous puissiez créer ces mondes virtuels et entraîner complètement vos systèmes dans une simulation, explique Behzadi.
Ce type de pensée gagne du terrain dans l’industrie des véhicules autonomes, où les données synthétiques deviennent essentielles pour enseigner aux véhicules autonomes comment naviguer sur la route. L’approche traditionnelle consistant à filmer des heures de conduite et à les intégrer à un modèle d’apprentissage en profondeur était suffisante pour que les voitures soient relativement bonnes pour naviguer sur les routes. Mais le problème qui préoccupe l’industrie est de savoir comment faire en sorte que les voitures gèrent de manière fiable ce que l’on appelle des événements de cas extrêmes qui sont suffisamment rares pour qu’ils n’apparaissent pas beaucoup dans des millions d’heures de données d’entraînement. Par exemple, un enfant ou un chien courant sur la route, des travaux routiers compliqués ou même des cônes de signalisation placés dans une position inattendue, ce qui a suffi à bloquer un véhicule Waymo sans conducteur en Arizona en 2021.

Avec des données synthétiques, les entreprises peuvent créer des variations infinies de scénarios dans des mondes virtuels qui se produisent rarement dans le monde réel. Au lieu d’attendre des millions de kilomètres supplémentaires pour accumuler plus d’exemples, ils peuvent générer artificiellement autant d’exemples qu’ils en ont besoin du cas limite pour la formation et les tests, explique Phil Koopman, professeur agrégé en génie électrique et informatique à l’Université Carnegie Mellon.
Les sociétés audiovisuelles telles que Waymo, Cruise et Wayve s’appuient de plus en plus sur des données réelles combinées à une conduite simulée dans des mondes virtuels. Waymo a créé un monde simulé en utilisant l’IA et les données de capteurs collectées à partir de ses véhicules autonomes, avec des gouttes de pluie artificielles et des reflets solaires. Il l’utilise pour entraîner les véhicules dans des situations de conduite normales, ainsi que dans les cas les plus délicats. En 2021, Waymo a déclaré au Verge qu’il avait simulé 15 milliards de kilomètres de conduite, contre seulement 20 millions de kilomètres de conduite réelle.
Un avantage supplémentaire à tester d’abord des véhicules autonomes dans des mondes virtuels est de minimiser les risques d’accidents très réels. La tolérance aux pannes est l’une des principales raisons pour lesquelles la conduite autonome est au premier plan de la plupart des données synthétiques, explique Herman. Une voiture autonome faisant une erreur 1 % du temps, voire 0,01 % du temps, c’est probablement trop.
En 2017, la technologie de conduite autonome de Volvo, qui avait appris à réagir aux grands animaux nord-américains tels que les cerfs, a été déconcertée lors de la première rencontre avec des kangourous en Australie. Si un simulateur ne connaît pas les kangourous, aucune simulation n’en créera un jusqu’à ce qu’il soit vu dans les tests et que les concepteurs trouvent comment l’ajouter, dit Koopman. Pour Aaron Roth, professeur d’informatique et de sciences cognitives à l’Université de Pennsylvanie, le défi sera de créer des données synthétiques indiscernables des données réelles. Il pense qu’il est plausible qu’il y ait eu à ce stade des données sur les visages, car les ordinateurs peuvent désormais générer des images photoréalistes de visages. Mais pour beaucoup d’autres choses, qui peuvent inclure ou non les kangourous, je ne pense pas qu’il y en ait encore.