Le rôle des données haute résolution dans le développement de logiciels
Un mécanicien de Formule 1 McLaren travaillant sur les capteurs électroniques de la voiture de course MP4-26 en 2011 … [+]
Les données sont variées. Comme nous l’avons vu précédemment, il existe plusieurs types de données et la variété infinie de facteurs de forme et de formulations ne cesse de croître. Les données ne diffèrent pas seulement par leur genre et leur espèce de base (pour ainsi dire), elles diffèrent également par leur intensité, leur régularité et leur taille.
Dans un monde où davantage de données fonctionnent également dans des applications gourmandes en données, comme expliqué précédemment ici, nous devons être capables de travailler avec davantage de données à des niveaux de résolution toujours plus élevés, c’est-à-dire des flux de données qui transportent un riche ensemble d’informations couvrant des valeurs liées à images, mouvements, sons et autres éléments non structurés auxquels nous cherchons désormais à structurer.
Où sont les données haute résolution ?
L’univers des capteurs qui peuplent l’Internet des objets est désormais un lieu qui fera un usage spécifique des données à haute résolution. Le monde physique est de plus en plus rempli de capteurs, dont la plupart collectent des données à une vitesse insatiable. Dans l’industrie automobile, par exemple, les voitures sortant des chaînes de production contiennent des centaines de capteurs IoT qui produisent et collectent des données pour fournir des indicateurs numériques sur lesquels les propriétaires de voitures (ou les véhicules eux-mêmes) peuvent agir. En utilisant des capteurs pour suivre les changements au fil du temps, les fabricants de tous les secteurs se dotent d’informations pour alimenter des applications avancées d’intelligence artificielle.
Après tout, l’IA est aussi puissante que les données (haute résolution ou autres) qui l’alimentent… alors quelles implications cela a-t-il au niveau de la gestion des données et de la couche de base de données ?
Comme nous le savons maintenant, l’IA englobe diverses sous-catégories, telles que l’IA générative, l’IA causale et ce que j’en suis venu à appeler monde réel IA. Alors que l’IA générative a attiré une attention considérable pour sa capacité à générer de nouvelles données à partir d’une entrée donnée, l’IA du monde réel se concentre sur des applications pratiques adaptées à des scénarios du monde réel, a déclaré Evan Kaplan, PDG d’InfluxData, une organisation connue pour sa base de données de séries chronologiques. spécialement conçu pour gérer les métriques, les événements et les journaux en un seul endroit.
Kaplan suggère que ces applications réelles ont besoin de données pour résoudre divers problèmes, allant de l’automatisation industrielle aux thermostats intelligents. Utilisant diverses techniques d’analyse des données, les modèles fonctionnant dans cet espace peuvent piloter l’analyse prédictive, la prévision et la détection d’anomalies. Cependant, le défi réside dans les volumes substantiels de données à haute résolution – essentiellement des données riches en détails et en clarté – nécessaires pour lancer, mettre à jour et former des modèles pour les outils d’IA.
Précision à la nanoseconde
Des plateformes conçues pour gérer des données haute résolution à grande échelle ont vu le jour pour relever ce défi. Ces plates-formes peuvent gérer le volume et la vitesse des nouvelles données, parfois jusqu’à une précision de la nanoseconde, nécessaires pour alimenter les modèles d’IA. Associé aux progrès de l’IA, cela ouvre la porte à des systèmes entièrement autonomes, a déclaré Kaplan. À mesure que ces systèmes deviennent plus avancés, le besoin de comprendre et de tirer de la valeur des données en temps réel ou des séries chronologiques (des données enregistrées à intervalles constants) augmente de façon exponentielle. Chaque appareil connecté à Internet génère un flux continu de données chronologiques. L’IA utilise ces données pour analyser des modèles historiques, modéliser des comportements et faire des prédictions. Il s’agit d’un exemple d’IA du monde réel qui crée des renseignements à grande échelle via la collecte automatisée de données, permettant aux systèmes de prévoir les résultats, d’y répondre et d’y répondre efficacement.
Sur le spectre des données universelles, les données de séries chronologiques enrichiraient l’intelligence du système en offrant un contexte chronologique à travers diverses sources de données diffusées en continu. Ces données sont traitées à l’aide d’algorithmes logiciels et d’apprentissage automatique pour interpréter les signaux et contextualiser le monde réel de manière significative.
L’utilisation de données de séries chronologiques à grande échelle signifie que les technologies automatisées sont capables d’améliorer continuellement leur intelligence à mesure que les capteurs rencontrent un éventail croissant de scénarios du monde réel (en s’en tenant à la nomenclature des PDG d’InfluxData). Cependant, étant donné que les flux de données nécessaires à cela ne s’arrêtent jamais, les systèmes d’IA sous-jacents doivent être construits sur une plate-forme capable de gérer de gros volumes de données chronologiques à cardinalité élevée.
50 points de données par milliseconde
Imaginez un capteur mesurant jusqu’à 50 points de données différents chaque milliseconde. Considérons maintenant qu’un système autonome pourrait contenir des dizaines ou des centaines de capteurs. Ces capteurs génèrent des données à cardinalité élevée (la cardinalité dans les données de séries chronologiques dénote l’abondance de valeurs uniques au fil du temps), qui augmentent de façon exponentielle à chaque minute qui passe, a expliqué Kaplan. Les plateformes de données spécialisées offrent un environnement évolutif et sécurisé pour stocker, traiter et analyser les données des capteurs à grande échelle. Avec leurs taux d’ingestion élevés et leurs capacités d’interrogation en temps réel, ces plateformes excellent dans la récupération rapide et efficace de données temporelles.
Nous pouvons faire toutes ces suppositions, suggestions et définitions, mais il faut aussi noter que les dispositifs agissant sur des données du monde réel doivent comprendre leur origine, leur valeur opérationnelle, leur criticité de mission, mais aussi avoir une idée de leur destination intermédiaire et finale. De nombreuses applications d’IA du monde réel intègrent des appareils de pointe et des plateformes basées sur le cloud. Pour maximiser les avantages des données de séries chronologiques, les appareils doivent comprendre les ressources et les contraintes de leurs appareils de périphérie. En relevant ces défis, les données chronologiques et l’IA seraient capables de fournir des systèmes autonomes qui sont, en théorie, de plus en plus intelligents. Les données passeront par des modèles d’apprentissage de plus en plus sophistiqués et serviront de composant fondamental.
La prolifération des appareils et logiciels connectés génère des volumes de plus en plus importants de données très granulaires, souvent à haute résolution, créant des défis de gestion spécifiques. Cependant, la nature granulaire de cette collecte de données augmente la cardinalité (le nombre de valeurs ou le nombre de types de valeurs dans une donnée donnée), un défi que de nombreuses bases de données ont du mal à relever efficacement.
Aborder la cardinalité élevée
Considérons un capteur de voiture McLaren Formule 1 (voir l’image principale ci-dessus) capturant 50 points de données distincts chaque milliseconde. Cela peut conduire à une croissance exponentielle des données à cardinalité élevée. Les bases de données en colonnes sont de plus en plus privilégiées pour gérer ce défi. Ils facilitent les requêtes en temps quasi réel tout en économisant de l’espace disque. Bien que différente des bases de données basées sur des lignes, la technologie sous-jacente est généralement familière aux développeurs. Comprendre les caractéristiques de la charge de travail des données est essentiel pour optimiser l’efficacité du traitement.
L’importante quantité de données produites par les capteurs peut s’avérer coûteuse à conserver, ce qui incite les organisations à concevoir des stratégies de gestion des données plus anciennes. Dans un premier temps, la transformation des données est essentielle. Par exemple, étant donné que notre capteur McLaren génère 50 points de données par milliseconde, une telle granularité pourrait ne plus être nécessaire à l’avenir, car nous commençons à être en mesure de classer les informations importantes et celles qui comptent un peu (ou beaucoup) moins. Par conséquent, les organisations peuvent choisir de résumer l’analyse seconde par seconde au lieu de conserver les données à intervalles de quelques millisecondes. Cette approche permet d’atténuer les coûts de stockage en supprimant les données inutiles, a déclaré Kaplan.
Le PDG d’InfluxData a conclu son propos sur ce sujet en évoquant les techniques de compression des données pour l’efficacité du stockage. Même après la transformation, les organisations se retrouvent avec des volumes importants de données chronologiques. Il suggère que la transition vers le stockage en colonnes peut entraîner de meilleurs taux de compression, réduisant ainsi l’utilisation de l’espace disque et améliorant les performances des requêtes. L’alignement de la représentation des données sur disque avec celle en mémoire facilite le déplacement efficace des données entre le disque et la RAM, garantissant ainsi des performances de requête cohérentes et des économies de coûts.
Donner du sens à un avenir piloté par les capteurs
Avec l’évolution des données et de nouvelles entrées, les modèles d’IA nécessitent des mises à jour continues pour rester à jour et efficaces. Une adaptation continue aux scénarios émergents est essentielle et peut être facilitée par un suivi régulier. De plus, une analyse cohérente des performances est cruciale pour confirmer le bon fonctionnement, en particulier avec l’introduction de nouvelles données.
Anticiper les résultats futurs grâce à l’IA appliquée aux capteurs haute résolution pourrait annoncer une nouvelle ère dans la manière dont nous jonglons et gérons avec les données. Que vous soyez l’heureux propriétaire d’un réfrigérateur intelligent qui vous indique quand votre lait et vos œufs ont disparu ou non, les capteurs font désormais partie de nos vies. Nous sommes peut-être tous parfaitement conscients et familiers avec le monde des capteurs, mais il convient de rappeler que le smartphone moyen est livré avec environ 15 capteurs, donc les capteurs et leurs données haute résolution sont déjà dans nos poches. Cela a du sens en termes de capteur, non ?