Pourquoi l’IA et l’apprentissage automatique s’éloignent du cloud

Les milliardaires vendent des actions Nvidia et achètent…

Une chaîne de restauration rapide exécute ses modèles d’IA sur des machines à l’intérieur de ses magasins pour localiser la logistique de livraison. Dans le même temps, une société pharmaceutique mondiale forme ses modèles d’apprentissage automatique sur site, à l’aide de serveurs qu’elle gère elle-même.

Le cloud computing ne va nulle part, mais certaines entreprises qui utilisent des modèles d’apprentissage automatique et les fournisseurs de technologie fournissant les plates-formes pour les gérer disent que l’apprentissage automatique a un moment sur site. Pendant de nombreuses années, les fournisseurs de cloud ont fait valoir que les exigences informatiques pour l’apprentissage automatique seraient beaucoup trop coûteuses et fastidieuses pour démarrer par eux-mêmes, mais le domaine mûrit.

Nous avons encore une tonne de clients qui souhaitent effectuer une migration vers le cloud, mais nous voyons certainement maintenant au moins l’année dernière environ beaucoup plus de clients qui souhaitent rapatrier les charges de travail sur site en raison du coût, a déclaré Thomas Robinson, vice-président des partenariats stratégiques et du développement de l’entreprise chez la société de plateforme MLOps Domino Data Lab. Le coût est en fait un facteur important, a déclaré Robinson, notant le prix élevé de l’exécution de modèles d’apprentissage en profondeur à forte intensité de calcul tels que GPT-3 ou d’autres modèles de transformateurs de grande langue, que les entreprises utilisent aujourd’hui dans leurs outils d’IA et chatbots de conversation, sur des serveurs cloud. .

Il s’agit plutôt d’un équilibre où ils investissent à nouveau dans leur infrastructure hybride.

La tendance sur site se développe chez les grandes surfaces et les épiceries qui doivent alimenter des données spécifiques aux produits, à la distribution et aux magasins dans de grands modèles d’apprentissage automatique pour les prévisions d’inventaire, a déclaré Vijay Raghavendra, directeur de la technologie chez SymphonyAI, qui travaille avec la chaîne d’épiceries Albertsons. . Raghavendra a quitté Walmart en 2020 après sept ans au sein de l’entreprise à des postes d’ingénierie senior et de technologie marchande.

C’est arrivé après mon passage chez Walmart. Ils sont passés de tout sur site à tout dans le cloud quand j’étais là-bas. Et maintenant, je pense qu’il y a plus d’équilibre où ils investissent à nouveau dans leur infrastructure hybride sur site combinée au cloud, a déclaré Raghavendra à Protocol. Si vous en avez la capacité, il peut être judicieux de créer votre propre [co-location data center] et exécutez ces charges de travail dans votre propre colo, car les coûts de son exécution dans le cloud deviennent assez élevés à une certaine échelle.

Certaines entreprises envisagent des configurations sur site dans la phase de création de modèles, lorsque les modèles de ML et d’apprentissage en profondeur sont formés avant qu’ils ne soient publiés pour fonctionner dans la nature. Ce processus nécessite un réglage intensif et des tests d’un grand nombre de paramètres ou de combinaisons de différents types de modèles et d’entrées à l’aide de téraoctets ou de pétaoctets de données.

Le coût élevé de la formation pose des défis aux gens, a déclaré Danny Lange, vice-président de l’IA et de l’apprentissage automatique chez Unity Technologies, société de jeux et d’IA automobile. Le coût de la formation peut atteindre des millions de dollars, a déclaré Lange.

C’est un coût que beaucoup d’entreprises envisagent maintenant de dire, puis-je apporter ma formation en interne afin d’avoir plus de contrôle sur le coût de la formation, car si vous laissez les ingénieurs se former sur une banque de GPU dans un service de cloud public , cela peut devenir très cher, très rapidement.

Les entreprises qui transfèrent le calcul et les données vers leurs propres serveurs physiques situés dans des centres de données colocalisés détenus ou loués ont tendance à être à la pointe de l’utilisation de l’IA ou de l’apprentissage en profondeur, a déclaré Robinson. [They] disent maintenant, peut-être que j’ai besoin d’avoir une stratégie où je peux éclater vers le cloud pour des trucs appropriés. Je peux faire, peut-être, quelques recherches initiales, mais je peux aussi joindre une charge de travail sur site.

Si vous laissez les ingénieurs s’entraîner sur une banque de GPU dans un service de cloud public, cela peut devenir très coûteux, très rapidement.

Même si le client a rendu publique sa stratégie centrée sur le cloud, un client pharmaceutique avec lequel Domino Data Lab travaille a acheté deux clusters de serveurs Nvidia pour gérer sur site des modèles de reconnaissance d’images à forte charge de calcul, a déclaré Robinson.

Coût élevé? Qu’en est-il du mauvais haut débit

Pour certaines entreprises, la préférence pour l’exécution de leur propre matériel ne consiste pas seulement à former des modèles massifs d’apprentissage en profondeur. Victor Thu, président de Datatron, a déclaré que les détaillants ou les chaînes de restauration rapide dotés de modèles d’apprentissage automatique spécifiques à une zone utilisés pour localiser la logistique de livraison ou optimiser l’inventaire des magasins préféreraient exécuter des charges de travail d’inférence ML sur leurs propres serveurs à l’intérieur de leurs magasins, plutôt que de renvoyer des données et pour exécuter les modèles dans le cloud.

Certains clients n’en veulent pas du tout dans le cloud, a déclaré Thu à Protocol. Le comportement des détaillants à San Francisco peut être très différent de celui de Los Angeles et de San Diego par exemple, a-t-il déclaré, notant que Datatron a vu des clients déplacer certaines opérations de ML vers leurs propres machines, en particulier les détaillants ayant une mauvaise connectivité Internet à certains endroits.

La latence du modèle est une raison plus communément reconnue pour s’éloigner du cloud. Une fois qu’un modèle est déployé, le temps qu’il faut pour qu’il transmette les données entre les serveurs cloud est un facteur courant dans la décision d’aller en interne. Certaines entreprises évitent également le cloud pour s’assurer que les modèles répondent rapidement aux nouvelles données lorsqu’ils fonctionnent dans un appareil mobile ou à l’intérieur d’un véhicule semi-autonome.

Souvent, la décision d’opérationnaliser un modèle sur site ou dans le cloud a été en grande partie une question de latence et de sécurité dictée par l’endroit où les données sont générées ou l’endroit où les résultats du modèle sont consommés, a déclaré Robinson.

Au fil des ans, les fournisseurs de cloud ont surmonté les premières perceptions selon lesquelles leurs services n’étaient pas suffisamment sécurisés pour certains clients, en particulier ceux des secteurs hautement réglementés. Alors que de grandes entreprises telles que Capital One ont adopté le cloud, les problèmes de sécurité des données sont de moins en moins d’actualité.

Pourtant, la confidentialité et la sécurité des données obligent certaines entreprises à utiliser des systèmes sur site. AiCure utilise une approche hybride dans la gestion des données et des modèles d’apprentissage automatique pour son application utilisée par les patients dans les essais cliniques, a déclaré le PDG de la société, Ed Ikeguchi. AiCure garde les processus impliquant des informations sensibles et personnellement identifiables (PII) sous son propre contrôle.

Nous effectuons une grande partie de notre travail de type PII localement, a déclaré Ikeguchi. Cependant, a-t-il déclaré, lorsque l’entreprise peut utiliser des données agrégées et anonymisées, toutes les données abstraites fonctionneront avec le cloud.

Ikeguchi a ajouté : Certains de ces fournisseurs de cloud disposent d’une excellente infrastructure pour prendre en charge les données privées. Cela dit, nous prenons également beaucoup de précautions de notre côté, en ce qui concerne ce qui se retrouve dans le cloud.

Nous avons des clients très soucieux de la sécurité, a déclaré Biren Fondekar, vice-président de l’expérience client et de la stratégie numérique chez NetApp, dont les clients des secteurs des services financiers et de la santé hautement réglementés utilisent le logiciel NetApps AI dans leurs propres centres de données privés.

Le gros nuage répond

Même les géants du cloud réagissent à la tendance en poussant subtilement leurs produits sur site pour l’apprentissage automatique. AWS a fait la promotion de son infrastructure Outposts pour l’apprentissage automatique l’année dernière dans un article de blog, citant une latence réduite et un volume de données élevé comme deux principales raisons pour lesquelles les clients souhaitent exécuter ML en dehors du cloud.

L’un des défis auxquels les clients sont confrontés lorsqu’ils effectuent des inférences dans le cloud est le manque d’inférence en temps réel et/ou d’exigences de sécurité empêchant l’envoi ou le stockage des données utilisateur dans le cloud, ont écrit Josh Coen, architecte de solutions senior AWS, et Mani Khanuja. , spécialiste de l’intelligence artificielle et du machine learning chez AWS.

En octobre, Google Cloud a annoncé Google Distributed Cloud Edge pour répondre aux préoccupations des clients concernant la conformité spécifique à la région, la souveraineté des données, la faible latence et le traitement local des données.

Microsoft Azure a introduit des produits pour aider les clients à adopter une approche hybride de la gestion de l’apprentissage automatique en validant et en déboguant des modèles sur des machines locales, puis en les déployant dans le cloud.

Snowflake, qui est intégré à la plate-forme Domino Data Labs MLOps, réfléchit à davantage d’outils sur site pour les clients, a déclaré Harsha Kapre, chef de produit senior chez Snowflake. Je sais que nous y réfléchissons activement, a-t-il déclaré à Protocol. Snowflake a déclaré en juillet qu’il proposerait son architecture de lac de données de table externe qui peut être utilisée pour la préparation des données d’apprentissage automatique à l’usage des clients sur leur propre matériel.

Je pense qu’au début, vos données devaient être dans Snowflake. Maintenant, si vous commencez à l’examiner, vos données n’ont pas besoin d’être techniquement [in Snowflake], a déclaré Kapré. Je pense qu’il est probablement un peu tôt pour en dire plus, a-t-il ajouté.

Coûts cachés

Alors que les entreprises intègrent l’IA dans leurs activités, de plus en plus de personnes dans une entreprise utilisent des modèles d’apprentissage automatique, ce qui peut entraîner des coûts s’ils le font dans le cloud, a déclaré Robinson. Certains de ces modèles sont désormais utilisés par des applications comptant tellement d’utilisateurs que le calcul requis monte en flèche et il devient désormais une nécessité économique de les exécuter sur site, a-t-il déclaré.

Mais certains disent que la promesse sur site a des coûts cachés.

Les fournisseurs de cloud sont vraiment très bons pour acheter du matériel et le faire fonctionner de manière économique, vous êtes donc en concurrence avec des personnes qui savent vraiment comment fonctionner efficacement. Si vous souhaitez apporter votre formation en interne, cela nécessite beaucoup de coûts et d’expertise supplémentaires, a déclaré Lange.

Bob Friday, directeur de l’IA chez Juniper Networks, société de communication et de réseau d’IA, a accepté.

Il est presque toujours moins cher de le laisser à Google, AWS ou Microsoft si vous le pouvez, a déclaré vendredi, ajoutant que si une entreprise n’a pas de cas d’utilisation périphérique nécessitant une prise de décision en une fraction de seconde dans un véhicule semi-autonome, ou la gestion d’un flux important fichiers vidéo, sur site n’a pas de sens.

Mais les économies de coûts sont là pour les entreprises ayant de grandes initiatives d’IA, a déclaré Robinson. Bien que les entreprises ayant de petites opérations d’IA ne réalisent peut-être pas d’avantages en termes de coûts en s’interne, il a déclaré qu’à grande échelle, l’infrastructure cloud, en particulier pour les GPU et autres matériels optimisés pour l’IA, est beaucoup plus chère, a-t-il déclaré, faisant allusion à Domino Data Labs pharmaceutique client qui a investi dans des clusters Nvidia parce que le coût et la disponibilité des GPU n’étaient pas acceptables sur AWS seul.

Tout le monde va dans le cloud, puis ils essaient en quelque sorte de reculer un peu. Je pense qu’il s’agit de trouver le bon équilibre.

Robinson a ajouté qu’une autre chose à prendre en considération est que le matériel accéléré par l’IA évolue très rapidement et que les fournisseurs de cloud ont mis du temps à le mettre à la disposition des utilisateurs.

En fin de compte, à l’instar de la transition vers plusieurs clouds et des stratégies de cloud hybride, la transition de l’apprentissage automatique vers l’intégration d’une infrastructure sur site pourrait être un signe de sophistication parmi les entreprises qui ont dépassé le simple fait de plonger leurs orteils dans l’IA.

Il y a toujours eu un effet de pendule, a déclaré Lange. Tout le monde va dans le cloud, puis ils essaient en quelque sorte de reculer un peu. Je pense qu’il s’agit de trouver le bon équilibre.

www.actusduweb.com

Suivez Actusduweb sur Google News

Similaire

AI automatique cloud Lapprentissage lIA ml MLOps pourquoi