MLOps comme clé pour libérer le potentiel de l’IA
Au cours de la dernière décennie, l’intelligence artificielle est devenue une force de plus en plus présente dans notre vie quotidienne.
Des applications grand public telles que les recommandations sur Netflix et Spotify, à devenir un incontournable sur le lieu de travail avec la détection des fraudes basée sur l’IA, l’automatisation des processus et la cybersécurité. L’avenir proche indique que l’IA se répandra davantage dans tous les aspects de nos vies. Son adoption et son intégration continues avec de nouvelles applications telles que la conduite autonome, les soins de santé et autres incitent IDC à prévoir que le marché mondial de l’IA atteindra 550 milliards de dollars d’ici 2024.
Cette croissance rapide, alimentée par les développements de l’apprentissage en profondeur, de la vision par ordinateur et du traitement du langage naturel, progresse continuellement grâce à une combinaison de groupes de recherche universitaires et Big Tech tels que Google, Facebook, AWS, OpenAI, entre autres. Grâce à l’ère de l’open-source, bon nombre de ces avancées sont disponibles pour un usage public.
Bien que prometteurs, ces développements en IA ne sont pas sans limites.
L’écart de déploiement
Alors que ces projets open source collaboratifs sont au cœur de la révolution de l’IA, la mise en production de l’IA est un pipeline complexe en plusieurs étapes, chacune avec ses propres défis. Depuis la collecte et la préparation des données, l’expérimentation et la recherche, la formation et l’évaluation jusqu’au déploiement et au suivi, chaque phase nécessite des ressources et une expertise importantes.
Comme indiqué dans une enquête récente : de nombreuses entreprises n’ont pas compris comment atteindre leurs objectifs ML/AI, combler le fossé entre la création de modèles ML et les déploiements pratiques reste une tâche difficile. Il existe une différence fondamentale entre la création d’un modèle dans un bloc-notes et le déploiement d’un modèle ML dans un système de production qui génère de la valeur commerciale.
En tant que tel, environ 90 % des modèles ML ne parviennent pas à la production.
Entrez MLOps
Comme DevOps a considérablement rationalisé la production de développement de logiciels, une nouvelle catégorie d’applications pour améliorer l’efficacité de l’apprentissage automatique a vu le jourMLOps – qui, par définition, est l’ensemble des pratiques à l’intersection de l’apprentissage automatique, du DevOps et de l’ingénierie des données. MLOps permet aux entreprises d’innover et de mettre leurs produits sur le marché plus rapidement avec une plus grande efficacité. Bien que la définition précise de ce qui est inclus dans MLOps (par rapport à la pile de données traditionnelle ou DevOps) puisse être sujette à interprétation, le paysage actuel englobe des centaines de startups uniques et de projets open source de premier plan cherchant à relever ces défis.
Paysage MLOps – Crédit : Greenfield Partners
Le paysage israélien des MLOps
Comme pour presque toutes les facettes du progrès technologique, il existe une multitude de startups israéliennes innovantes axées sur les MLOps qui animent la région, dont beaucoup ont levé des centaines de millions de dollars au total dans les différents segments de l’espace :
Préparation des données – Nous avons tous entendu l’adage data is the new oil, qui est très précis dans le contexte de l’IA. Des données de haute qualité servent de carburant aux modèles d’IA ; sans cela, nous recevons un cas de déchets entrants sortants. Des entreprises telles que Monte Carlo et Databand assurent la fiabilité des pipelines de données, garantissant que des données de qualité sont constamment fournies aux modèles, tandis que des projets open source tels que Treeverses LakeFS permettent aux organisations de versionner leurs ensembles de données qui sont partageables et reproductibles entre les équipes de développement. Pour augmenter la précision du modèle, Explorium, Datagen et Datomize complètent les données existantes d’une organisation avec des données externes et synthétiques.
Développement de modèles et formation Alors que la plupart des modèles ML sont basés sur des projets open source, les entreprises doivent les ajuster à leurs besoins spécifiques et à leurs environnements de production pour obtenir des résultats optimaux. Les plates-formes d’expérimentation telles que Comet fournissent aux scientifiques des données des solutions pour documenter, collaborer et analyser les sorties de modèles, tandis que des organisations telles que Deci optimisent les modèles pour qu’ils s’exécutent avec une plus grande précision et moins de temps d’exécution par rapport au matériel spécifique des développeurs.
Plateformes de déploiement Commun aux segmentations technologiques similaires, MLOps partage une approche best-of-suite vs best-of-breed. Les projets menés par les principaux fournisseurs de cloud tels que Googles KubeFlow, Databricks MLFlow et AWS Sagemaker sont les principales solutions à guichet unique, mais ne proposent pas des ensembles de fonctionnalités complets. Innovant dans cet espace, des startups comme Iguazio et Qwak proposent des plates-formes holistiques qui permettent aux entreprises de créer, déployer et surveiller leurs modèles ML.
Surveillance Une segmentation avec une attention particulière par les startups israéliennes, les modèles de production en direct nécessitent une surveillance et des tests continus pour identifier les dérives de précision et de sortie. Plusieurs sociétés telles qu’Aporia, Deepchecks et Superwise garantissent l’intégrité et l’efficacité des modèles en direct, en surveillant en permanence les modifications des données sous-jacentes ou les temps d’arrêt de l’infrastructure.
AutoML Semblable à l’élucidation de l’analyse et de la visualisation des données fournies par Tableau et PowerBI, AutoML cherche à étendre les capacités de l’apprentissage automatique au-delà de celles des data scientists en exercice. Alors que les grandes plates-formes AutoML d’entreprise telles que Datarobot et Dataiqu se sont développées ces dernières années, des entreprises comme Pecan, BeyondMinds, Noogata et d’autres développent des intégrations AutoML dans les flux de travail analytiques existants des entreprises, fournissant de puissants pouvoirs prédictifs spécifiques aux cas d’utilisation et au secteur.
Infrastructure La complexité et l’échelle des modèles augmentent rapidement, nécessitant une infrastructure plus rapide, moins chère et plus efficace. De nombreux frameworks à ce jour sont construits sur des combinaisons de GPU et de stockages traditionnels, des supports mal équipés pour la tâche. L’écosystème MLOps israélien a fait des progrès significatifs dans ce domaine, avec des startups telles que Habana et Hailo créant de nouvelles puces dédiées à l’IA pour les centres de données, tandis que des organisations comme Run: AI virtualisent les clusters de GPU existants. VAST Data, une société de portefeuille de Greenfield Partners, et Weka augmentent considérablement les vitesses de stockage, optimisant les centres de données pour gérer les exigences élevées des applications d’IA modernes.
Alors que la promesse de l’IA a fait son chemin dans nos vies, ses barrières abruptes et ses exigences croissantes ont permis aux organisations les plus avancées sur le plan technologique d’exploiter son véritable potentiel. L’entrée des MLOps, cependant, résout ces complexités, offrant une accessibilité à des cohortes toujours plus nombreuses cherchant à tirer parti de l’IA avec moins de complexité et l’expertise requise.
L’article a été rédigé par Shay Grinfeld, associé directeur, et Itay Inbar, associé principal, chez Greenfield Partners.