Qu’est-ce que l’apprentissage automatique supervisé ?
Vous n’avez pas pu assister à Transform 2022 ? Découvrez dès maintenant toutes les sessions du sommet dans notre bibliothèque à la demande ! Regardez ici.
Le processus de formation aux algorithmes d’intelligence artificielle (IA) est conçu pour être largement automatisé de manière innée. Il existe souvent des milliers, des millions ou même des milliards de points de données et les algorithmes doivent tous les traiter pour rechercher des modèles. Dans certains cas, cependant, les scientifiques de l’IA constatent que les algorithmes peuvent être rendus plus précis et efficaces si les humains sont consultés, au moins occasionnellement, pendant la formation.
Le résultat crée une intelligence hybride qui associe la puissance implacable et infatigable de l’apprentissage automatique (ML) aux capacités perspicaces et contextuelles de l’intelligence humaine. L’algorithme informatique peut parcourir des fichiers interminables de données d’entraînement, et les humains corrigent le parcours ou guident le traitement.
La supervision ML peut avoir lieu à différents moments :
- Avant de: Dans un sens, l’humain aide à créer l’ensemble de données d’entraînement, parfois en ajoutant des suggestions supplémentaires à l’intégration du problème et parfois en signalant les cas inhabituels.
- Durant: L’algorithme peut faire une pause, soit régulièrement, soit uniquement en cas d’anomalies, et demander si certains cas sont correctement compris et appris par l’algorithme.
- Après: L’humain peut guider la façon dont le modèle est appliqué aux tâches après coup. Parfois, il existe plusieurs versions du modèle et l’humain peut choisir quel modèle se comportera le mieux.
Dans une large mesure, le ML supervisé est destiné aux domaines où l’apprentissage automatique automatisé ne fonctionne pas assez bien. Les scientifiques ajoutent de la supervision pour amener la performance à un niveau acceptable.
C’est également une partie essentielle de la résolution de problèmes où il n’y a pas de données de formation facilement disponibles contenant tous les détails qui doivent être appris. De nombreux problèmes de ML supervisés commencent par rassembler une équipe de personnes qui étiquetteront ou noteront les éléments de données avec la réponse souhaitée. Par exemple, certains scientifiques ont construit une collection d’images de visages humains et ont ensuite demandé à d’autres humains de classer chaque visage avec un mot comme heureux ou triste. Ces étiquettes de formation ont permis à un algorithme ML de commencer à comprendre les émotions véhiculées par les expressions faciales humaines.
Quelle est la différence entre le ML supervisé et non supervisé ?
Dans la plupart des cas, les mêmes algorithmes d’apprentissage automatique peuvent fonctionner avec des ensembles de données supervisés et non supervisés. La principale différence est que les algorithmes d’apprentissage non supervisé commencent par des données brutes, tandis que les algorithmes d’apprentissage supervisé ont des colonnes ou des champs supplémentaires créés par des humains. Celles-ci sont souvent appelées étiquettes bien qu’elles puissent également avoir des valeurs numériques. Les mêmes algorithmes sont utilisés dans les deux cas.
La supervision est souvent utilisée pour ajouter des champs qui ne sont pas apparents dans l’ensemble de données. Par exemple, certaines expériences demandent aux humains de regarder des images de paysage et de classer si une scène est urbaine, suburbaine ou rurale. L’algorithme ML est ensuite utilisé pour essayer de faire correspondre la classification des humains.
Dans certains cas, la supervision est ajoutée pendant ou après le début de l’algorithme ML. Ces commentaires peuvent provenir d’utilisateurs finaux ou de scientifiques.
A lire aussi : Comment construire une feuille de route pour la science des données et l’apprentissage automatique en 2022
Comment se déroule le ML supervisé ?
Les opinions et les connaissances humaines peuvent être intégrées dans l’ensemble de données avant, pendant ou après le début des algorithmes. Cela peut également être fait pour tous les éléments de données ou seulement un sous-ensemble. Dans certains cas, la supervision peut provenir d’une grande équipe d’humains et dans d’autres, il peut s’agir uniquement d’experts en la matière.
Un processus courant consiste à embaucher un grand nombre d’humains pour étiqueter un grand ensemble de données. L’organisation de ce groupe représente souvent plus de travail que l’exécution des algorithmes. Certaines entreprises se spécialisent dans le processus et entretiennent des réseaux de pigistes ou d’employés capables de coder des ensembles de données. De nombreux grands modèles de classification et de reconnaissance d’images reposent sur ces étiquettes.
Certaines entreprises ont trouvé des mécanismes indirects pour capturer les étiquettes. Certains sites Web, par exemple, veulent savoir si leurs utilisateurs sont des humains ou des robots automatisés. Une façon de tester cela est de mettre en place une collection d’images et de demander à l’utilisateur de rechercher des éléments particuliers, comme un piéton ou un panneau d’arrêt. Les algorithmes peuvent montrer la même image à plusieurs utilisateurs et rechercher ensuite la cohérence. Lorsqu’un utilisateur est d’accord avec des utilisateurs précédents, cet utilisateur est présumé être un être humain. Les mêmes données sont ensuite enregistrées et utilisées pour former des algorithmes ML à la recherche de piétons ou de panneaux d’arrêt, une tâche courante pour les véhicules autonomes.
Certains algorithmes utilisent des experts en la matière et leur demandent d’examiner les données aberrantes. Au lieu de classer toutes les images, il travaille avec les valeurs les plus extrêmes et en extrapole les règles. Cela peut être plus rapide, mais peut être moins précis. Il est plus populaire lorsque le temps des experts humains est coûteux.
Types de BC supervisé
Le monde du ML supervisé se décompose en plusieurs approches. Beaucoup ont beaucoup en commun avec le ML non supervisé car ils utilisent les mêmes algorithmes. Certaines distinctions, cependant, se concentrent sur la manière dont l’intelligence humaine est intégrée à l’ensemble de données et absorbée par les algorithmes.
Les différents types d’algorithmes les plus couramment cités sont :
- Classification: Ces algorithmes prennent un ensemble de données et attribuent chaque élément à un ensemble fixe de classes. Par exemple, Microsoft a formé un modèle de vision artificielle pour examiner une photographie et faire une supposition éclairée sur les émotions des visages. L’algorithme choisit l’un des nombreux termes, comme heureux ou triste. Souvent, des modèles comme celui-ci commencent par un ensemble de classifications générées par l’homme pour les données d’entraînement. Une équipe examinera les photos et attribuera une étiquette comme heureux ou triste à chaque visage. L’algorithme ML sera ensuite formé pour approximer ces réponses.
- Analyse de régression: L’algorithme adapte une ligne ou une autre fonction mathématique à l’ensemble de données afin que des prédictions numériques puissent être faites. Les entrées de la fonction peuvent être un mélange de données brutes et d’étiquettes ou d’estimations humaines. Par exemple, l’algorithme de classification des visages de Microsoft peut également générer une estimation de l’âge numérique de l’humain. Les données de formation peuvent s’appuyer sur les dates de naissance réelles au lieu d’une estimation humaine.
- Soutenez la machine de vecteur : Il s’agit d’un algorithme de classification qui utilise un peu de régression pour trouver les meilleures lignes ou plans pour séparer deux classes ou plus. L’algorithme s’appuie sur les étiquettes pour séparer les différentes classes, puis il applique un calcul de régression pour tracer la ligne ou le plan.
- Analyse de sous-ensemble : Certains ensembles de données sont trop volumineux pour être étiquetés par des humains. Une solution consiste à choisir un sous-ensemble aléatoire ou structuré et à rechercher l’apport humain uniquement sur ces valeurs.
A lire aussi : 3 gros problèmes avec les ensembles de données dans l’IA et l’apprentissage automatique
Comment les grandes entreprises gèrent-elles le ML supervisé ?
Toutes les grandes entreprises proposent des algorithmes ML de base qui peuvent fonctionner avec des données étiquetées ou non étiquetées. Ils commencent aussi à proposer des outils particuliers qui simplifient voire automatisent la supervision.
Amazons SageMaker offre un environnement de développement intégré complet (IDE) pour travailler avec leurs algorithmes ML. Certains voudront peut-être expérimenter des modèles prédéfinis et les ajuster en fonction des performances. AWS propose également le Mechanical Turk qui est intégré à l’environnement, afin que les humains puissent examiner les données et ajouter des annotations qui guideront le ML. Les humains sont payés à la tâche à un prix que vous fixez, et cela affecte le nombre de personnes qui s’inscrivent pour travailler. Cela peut être un moyen rentable de créer de bonnes annotations pour un ensemble de données d’entraînement.
Watson Studio d’IBM est conçu pour le ML non supervisé et supervisé. Leur Cloud Pak for Data peut aider à organiser et à étiqueter des ensembles de données provenant d’une grande variété d’entrepôts de données, de lacs et d’autres sources. Il peut aider les équipes à créer des intégrations structurées guidées par les ressources humaines, puis à intégrer ces valeurs dans la collection d’algorithmes ML pris en charge par le Studio.
La collection d’outils d’IA de Google comprend VertexAI, qui est un produit plus général, et certains systèmes automatisés adaptés à des types particuliers d’ensembles de données comme AutoML Video et AutoML Tabular. L’étiquetage pré-analytique des données est facile à faire avec les différents outils de collecte de données. Une fois le modèle créé, Google propose également un outil appelé Vertex AI Model Monitoring qui surveille les performances du modèle dans le temps et génère des alertes automatisées si le modèle semble dériver.
Microsoft dispose d’une vaste collection d’outils d’intelligence artificielle, notamment Azure Machine Learning Studio, une interface utilisateur basée sur un navigateur qui organise la collecte et l’analyse des données. Les données peuvent être complétées par des étiquettes et d’autres classifications à l’aide de divers outils Azure pour organiser les lacs de données et les entrepôts. Le studio propose une interface glisser-déposer pour choisir les bons algorithmes en expérimentant la classification et l’analyse des données.
L’infrastructure de données d’Oracle est construite autour de grandes bases de données qui servent de base à l’entreposage de données. Les bases de données sont également bien intégrées aux algorithmes ML pour optimiser la création et le test de modèles avec ces ensembles de données. Oracle propose également un certain nombre de versions ciblées de ses produits conçues pour des secteurs particuliers, tels que la vente au détail ou les services financiers. Leurs outils de gestion des données peuvent organiser la création d’étiquettes pour chaque point de données, puis appliquer les bons algorithmes pour le ML supervisé ou semi-supervisé.
Comment les startups développent-elles du ML supervisé ?
Les startups s’attaquent à un large éventail de problèmes qui sont importants pour créer des modèles bien formés. Certains travaillent sur le problème plus général de travailler avec des ensembles de données génériques, tandis que d’autres veulent se concentrer sur des niches ou des industries particulières.
CrowdFlower, lancé sous le nom de Dolores Labs, vend à la fois des modèles pré-formés avec des données pré-étiquetées et organise également des équipes pour ajouter des étiquettes aux données afin d’aider à superviser le ML. Leurs outils d’annotation de données peuvent aider les équipes internes ou être partagés avec un grand nombre de travailleurs temporaires que CrowdFlower embauche régulièrement. Ils exécutent également des programmes pour évaluer le succès des modèles avant, pendant et après le déploiement.
Swivl a créé une interface d’étiquetage de données de base afin que les équipes puissent rapidement commencer à guider la science des données et les algorithmes ML. L’entreprise s’est concentrée sur cette interaction pour la rendre aussi simple et efficace que possible.
Les routines d’IA et de traitement des données dans le cloud DataRobots sont conçues pour permettre aux équipes de créer plus facilement des pipelines qui collectent et évaluent les données avec des routines low-code et no-code pour le traitement. Ils appellent certains de leurs outils l’intelligence augmentée car ils peuvent s’appuyer à la fois sur des algorithmes ML et sur le codage humain à la fois pour la formation et le déploiement. Ils disent qu’ils veulent aller au-delà de la simple prise de décisions plus intelligentes ou plus rapides, pour prendre la bonne décision.
Zest AI se concentre sur le processus d’approbation de crédit, afin que les établissements de crédit puissent accélérer et simplifier leur flux de travail pour l’octroi de prêts. Leurs outils aident les banques à créer leurs propres modèles personnalisés qui fusionnent leur expérience humaine avec la capacité de recueillir des informations sur le risque de crédit. Ils déploient également des outils de débiaisation qui peuvent réduire ou éliminer certaines conséquences involontaires de la construction du modèle.
Luminance aide les équipes juridiques dans des tâches telles que la découverte et la rédaction de contrats. Ses outils ML créent des modèles personnalisés en observant le travail des avocats et en apprenant de leurs décisions. Cette supervision informelle aide les modèles à s’adapter plus rapidement, afin que l’équipe puisse prendre de meilleures décisions.
Y a-t-il quelque chose que le ML supervisé ne peut pas faire ?
À bien des égards, le ML supervisé produit la meilleure combinaison d’intelligence humaine et d’intelligence artificielle lorsqu’il crée un modèle qui apprend comment un humain pourrait catégoriser ou analyser des données.
Les humains, cependant, ne sont pas toujours précis et souvent ils ne comprennent pas assez bien les données pour travailler avec précision. Ils peuvent s’ennuyer après avoir travaillé avec de nombreux éléments de données. Dans de nombreux cas, ils font des erreurs ou classent les données de manière incohérente parce qu’ils ne connaissent pas eux-mêmes la réponse.
En effet, dans les cas où le problème n’est pas bien compris par les humains, l’utilisation d’algorithmes supervisés peut intégrer trop d’informations provenant de l’humain incohérent et incertain. Si l’opinion humaine est trop privilégiée, l’algorithme peut être induit en erreur.
Un problème courant avec les algorithmes supervisés est la taille même des ensembles de données. Une grande partie du ML dépend de grandes collections de données qui sont collectées automatiquement. Payer pour que des humains classent ou étiquettent chaque élément de données est souvent beaucoup trop cher. Certains scientifiques choisissent des sous-ensembles aléatoires ou structurés de données et recherchent des opinions humaines uniquement sur eux. Cela peut fonctionner dans certains cas, mais uniquement lorsque le signal est suffisamment fort. L’algorithme ne peut pas compter sur la capacité des algorithmes ML à trouver des nuances et des distinctions dans de très grands ensembles de données.
Lire ensuite :Favoriser des expériences client plus intelligentes grâce à l’IA et à l’apprentissage automatique