Considérations pour planifier l’architecture de stockage de l’IA pour le Big Data
La création et le traitement de grandes quantités de données, associés à des innovations en expansion, telles que l’intelligence artificielle et l’apprentissage automatique, offrent aux organisations de nombreuses opportunités de mieux utiliser leurs données et de trouver des tendances pour éclairer leurs décisions commerciales. Mais l’architecture de stockage de l’IA présente également de nombreux défis, notamment la planification de grands magasins de données et de lourds besoins de calcul.
La planification du stockage pour l’IA peut être une tâche difficile. Chinmay Arankalle, ingénieur principal des données chez Energy Exemplar et co-auteur de L’atelier sur l’infrastructure d’intelligence artificielleespère que le livre apportera des éclaircissements sur la façon de mettre en œuvre l’IA et le stockage pour l’IA.
Les auteurs ont écrit que, lors de la conception d’un système d’IA, les organisations devraient tenir compte des exigences de stockage dès le départ pour s’adapter au type d’analyse qu’elles ont l’intention d’effectuer. Les systèmes de stockage IA ont généralement besoin de hautes performances, d’une grande évolutivité et d’un grand volume, ont écrit les auteurs.
La planification du stockage des données brutes est essentielle
Les utilisations des modèles d’IA incluent l’analyse des personnalités des acheteurs et des comportements des consommateurs et l’analyse des modèles de trafic. Pour former correctement les modèles d’IA, les organisations doivent stocker beaucoup de données. Les auteurs ont écrit que, pour les projets d’IA, les données brutes sont souvent mieux stockées dans leur intégralité.
« Dans les projets d’IA modernes, nous constatons qu’il est préférable de conserver les données brutes aussi longtemps que possible, car le stockage (de fichiers) est bon marché, évolutif et disponible dans le cloud », ont écrit les auteurs. « De plus, les données brutes constituent souvent la meilleure source pour la formation de modèles dans un environnement d’apprentissage automatique. Il est donc utile de donner aux scientifiques des données l’accès à de nombreux fichiers de données historiques. »
Lors du stockage d’ensembles de données volumineux, ayez un plan d’exigences de stockage qui réponde aux besoins du projet. Les auteurs ont recommandé un stockage tel qu’Amazon S3 ou Azure Data Lake Storage pour les grands magasins de données.

à propos du livre.
Soyez conscient du long terme
À mesure que la technologie évolue, les formats de données et le matériel changent. Si une organisation ne sait pas à quoi elle pourra utiliser les données à l’avenir, cela peut être difficile à gérer. Par exemple, les organisations auront du mal à choisir quelles données supprimer pour économiser de l’espace de stockage, en dehors des données qui doivent être supprimées en raison de réglementations..
À mesure que les organisations stockent davantage de données, leur architecture de stockage d’IA peut évoluer ; ils peuvent avoir besoin de répondre à des besoins de performance et d’évolutivité.
« Par exemple, si nous obtenons des données dans n’importe quel format non structuré, elles pourraient être utilisées pour la science des données, ou à des fins de reporting. Ainsi, l’objectif final n’est généralement pas fixé », a déclaré Arankalle dans un récent entretien avec TechTarget. « Alors, peut-être que maintenant, les données que nous avons stockées ont une certaine utilité, [but] après 10 ans, les données pourraient avoir une utilisation complètement différente. »
Étant donné que les organisations peuvent utiliser des données plus anciennes pour informer les nouveaux modèles d’IA, il est également important de s’assurer que les données plus anciennes restent compatibles avec les données plus récentes.
« Le défi qui nous attend est de savoir comment utiliser les anciens formats avec les plus récents », a déclaré Arankalle. « Et, puisque nous ne pouvons pas nous débarrasser soudainement des anciennes données, nous devons nous assurer qu’il y a une certaine harmonie entre les anciennes données et les nouvelles données. »
Pour assurer la cohérence des formats de données, revoyez régulièrement les exigences de formatage et de stockage tout au long du projet d’IA.
« La gestion des exigences est un processus continu dans un projet d’IA », ont écrit les auteurs. « Plutôt que de fixer toutes les exigences dans la pierre au début du projet, les architectes et les développeurs doivent être agiles, revoir et réviser les exigences après chaque itération. »
Le rôle croissant des lacs de données
Les lacs de données sont de plus en plus populaires pour stocker et gérer de grands ensembles de données. Certains outils d’informatique décisionnelle tirent parti des entrepôts de données, car ils contiennent des données provenant de plusieurs systèmes au sein d’une organisation. Cela permet aux organisations de repérer les corrélations entre différentes métriques, telles que les données CRM et l’inventaire, par exemple.
Les entrepôts de données peuvent être plus chers que les lacs de données car les entrepôts de données sont plus structurés. Cependant, les organisations génèrent rapidement des données non structurées. Les lacs de données sont plus compatibles avec les données non structurées, mais peuvent être plus difficiles à gérer car les données proviennent de plusieurs sources et dans des formats différents.
Dans le chapitre 2, « Exigences de stockage de l’intelligence artificielle », les auteurs se sont penchés sur le rôle des lacs de données et du stockage de l’IA. Le chapitre couvre également des conseils sur la façon de planifier et de gérer le stockage pour les projets d’IA, des considérations telles que la sécurité et la disponibilité, et les couches de données.