Le potentiel inexploité du calcul HPC + graphes

Écoutez les DSI, les CTO et d’autres cadres supérieurs et dirigeants sur les stratégies de données et d’IA lors du Sommet sur l’avenir du travail du 12 janvier 2022. Apprendre encore plus


Au cours des dernières années, l’IA a franchi le seuil du battage médiatique à la réalité. Aujourd’hui, avec une croissance des données non structurées de 23 % par an dans une organisation moyenne, la combinaison de graphiques de connaissances et de calcul haute performance (HPC) permet aux organisations d’exploiter l’IA sur des ensembles de données massifs.

Divulgation complète : avant de parler de l’importance de l’informatique graphique + HPC, je dois vous dire que je suis PDG d’une société d’informatique graphique, d’IA et d’analyse, j’ai donc certainement un intérêt et une perspective ici. Mais je vais aussi vous dire que notre entreprise est l’une des nombreuses dans cet espace DGraph, MemGraph, TigerGraph, Neo4j, Amazon Neptune et Microsofts CosmosDB, par exemple, utilisent tous une forme de calcul HPC + graphique. Et il existe de nombreuses autres sociétés de graphes et options de graphes open source, notamment OrientDB, Titan, ArangoDB, Nebula Graph et JanusGraph. Il y a donc un mouvement plus important ici, et c’est celui que vous voudrez connaître.

Les graphiques de connaissances organisent des données provenant de sources apparemment disparates pour mettre en évidence les relations entre les entités. Bien que les graphiques de connaissances eux-mêmes ne soient pas nouveaux (Facebook, Amazon et Google ont investi beaucoup d’argent au fil des ans dans des graphiques de connaissances capables de comprendre les intentions et les préférences des utilisateurs), leur couplage avec le HPC donne aux organisations la possibilité de comprendre les anomalies et autres modèles de des données à des taux d’échelle et de vitesse inégalés.

Il y a deux raisons principales pour cela.

Premièrement, les graphiques peuvent être très volumineux : des tailles de données de 10 à 100 To ne sont pas rares. Les organisations d’aujourd’hui peuvent avoir des graphiques avec des milliards de nœuds et des centaines de milliards d’arêtes. De plus, les nœuds et les arêtes peuvent être associés à de nombreuses données de propriétés. À l’aide de techniques HPC, un graphe de connaissances peut être fractionné sur les machines d’un grand cluster et traité en parallèle.

La deuxième raison pour laquelle les techniques HPC sont essentielles pour le calcul à grande échelle sur des graphiques est le besoin d’analyses et d’inférences rapides dans de nombreux domaines d’application. L’un des premiers cas d’utilisation que j’ai rencontrés était celui de la Defense Advanced Research Projects Agency (DARPA), qui a d’abord utilisé des graphiques de connaissances améliorés par HPC pour la détection d’intrusions en temps réel dans leurs réseaux informatiques. Cette application impliquait la construction d’un type particulier de graphe de connaissances appelé graphe d’interaction, qui a ensuite été analysé à l’aide d’algorithmes d’apprentissage automatique pour identifier les anomalies. Étant donné que les cyberattaques peuvent passer inaperçues pendant des mois (les pirates de la récente brèche de SolarWinds se sont cachés pendant au moins neuf mois), la nécessité d’identifier immédiatement les schémas suspects est évidente.

Aujourd’hui, je vois émerger un certain nombre d’autres cas d’utilisation à croissance rapide qui sont très pertinents et convaincants pour les scientifiques des données, notamment les suivants.

Fraude aux services financiers, gestion des risques et client 360

Les paiements numériques gagnent de plus en plus de terrain, plus des trois quarts des personnes aux États-Unis utilisent une forme de paiement numérique. Cependant, le nombre d’activités frauduleuses augmente également. L’année dernière, le montant en dollars des tentatives de fraude a augmenté de 35 %. De nombreuses institutions financières s’appuient encore sur des systèmes fondés sur des règles, que les fraudeurs peuvent contourner assez facilement. Même les institutions qui s’appuient sur les techniques d’IA ne peuvent généralement analyser que les données collectées sur une courte période en raison du grand nombre de transactions qui se produisent chaque jour. Les mesures d’atténuation actuelles manquent donc d’une vue globale des données et ne parviennent pas à résoudre de manière adéquate le problème croissant de la fraude financière.

Une plate-forme de calcul de graphes hautes performances peut ingérer efficacement des données correspondant à des milliards de transactions via un cluster de machines, puis exécuter un pipeline sophistiqué d’analyses de graphes telles que des métriques de centralité et des algorithmes d’IA de graphes pour des tâches telles que le clustering et la classification de nœuds, souvent à l’aide de Graph. Réseaux de neurones (GNN) pour générer des représentations spatiales vectorielles pour les entités du graphe. Ceux-ci permettent au système d’identifier les comportements frauduleux et de prévenir plus efficacement les activités de lutte contre le blanchiment d’argent. Les calculs GNN sont très gourmands en virgule flottante et peuvent être accélérés en exploitant des accélérateurs de calculs tensoriels.

Deuxièmement, les graphiques HPC et de connaissances associés à l’IA graphique sont essentiels pour effectuer une évaluation et une surveillance des risques, ce qui est devenu plus difficile avec la taille et la complexité croissantes des marchés financiers mondiaux interconnectés. Les systèmes de gestion des risques construits sur des bases de données relationnelles traditionnelles sont insuffisamment équipés pour identifier les risques cachés dans un vaste pool de transactions, de comptes et d’utilisateurs, car ils ignorent souvent les relations entre les entités. En revanche, une solution d’IA graphique apprend des données de connectivité et non seulement identifie les risques avec plus de précision, mais explique également pourquoi ils sont considérés comme des risques. Il est essentiel que la solution tire parti du HPC pour révéler les risques en temps opportun avant qu’ils ne s’aggravent.

Enfin, une organisation de services financiers peut agréger divers points de contact client et les intégrer dans une vue consolidée à 360 degrés du parcours client. Avec des millions de transactions et d’interactions disparates par les utilisateurs finaux et dans les différentes succursales bancaires, les institutions de services financiers peuvent faire évoluer leurs stratégies d’engagement client, mieux identifier le risque de crédit, personnaliser les offres de produits et mettre en œuvre des stratégies de fidélisation.

L’industrie pharmaceutique accélère la découverte de médicaments et la médecine de précision

Entre 2009 et 2018, les sociétés biopharmaceutiques américaines ont dépensé environ 1 milliard de dollars pour mettre de nouveaux médicaments sur le marché. Une fraction importante de cet argent est gaspillée dans l’exploration de traitements potentiels en laboratoire qui, en fin de compte, ne fonctionnent pas. Par conséquent, le processus de découverte et de développement d’un médicament peut prendre 12 ans ou plus. En particulier, la pandémie de COVID-19 a mis en lumière l’importance de la découverte de médicaments rentables et rapides.

Une plate-forme de calcul graphique hautes performances peut permettre aux chercheurs en bioinformatique et en informatique de stocker, d’interroger, d’exploiter et de développer des modèles d’IA à l’aide de sources de données hétérogènes pour révéler plus rapidement des informations révolutionnaires. Des informations opportunes et exploitables peuvent non seulement économiser de l’argent et des ressources, mais aussi sauver des vies humaines.

Les défis liés à ces données et à la découverte de médicaments alimentée par l’IA se sont concentrés sur trois facteurs principaux : la difficulté d’ingérer et d’intégrer des réseaux complexes de données biologiques, la lutte pour contextualiser les relations au sein de ces données et les complications liées à l’extraction d’informations à travers le volume considérable de données dans une manière évolutive. Comme dans le secteur financier, le HPC est essentiel pour résoudre ces problèmes dans un délai raisonnable.

Les principaux cas d’utilisation faisant l’objet d’une enquête active dans toutes les grandes sociétés pharmaceutiques incluent la génération d’hypothèses médicamenteuses et la médecine de précision pour le traitement du cancer, en utilisant des sources de données hétérogènes telles que la bioinformatique et les graphiques de connaissances chimico-informatiques ainsi que l’expression génique, l’imagerie, les données cliniques des patients et les informations épidémiologiques pour former modèles d’IA graphique. Bien qu’il existe de nombreux algorithmes pour résoudre ces problèmes, une approche populaire consiste à utiliser des réseaux convolutionnels de graphes (GCN) pour intégrer les nœuds dans un espace de grande dimension, puis à utiliser la géométrie de cet espace pour résoudre des problèmes tels que la prédiction de liens et la classification de nœuds. .

Un autre aspect important est l’explicabilité des modèles d’IA de graphes. Les modèles d’IA ne peuvent pas être traités comme des boîtes noires dans l’industrie pharmaceutique, car les actions peuvent avoir des conséquences désastreuses. Les méthodes d’explicabilité de pointe telles que les méthodes GNNExplainer et Guided Gradient (GGD) sont très gourmandes en calcul et nécessitent donc des plates-formes de calcul graphique hautes performances.

La ligne de fond

Les technologies graphiques sont de plus en plus répandues et les organisations et les industries apprennent à en tirer le meilleur parti de manière efficace. Bien qu’il existe plusieurs approches pour utiliser les graphes de connaissances, les associer à un calcul haute performance transforme cet espace et fournit aux scientifiques des données les outils nécessaires pour tirer pleinement parti des données d’entreprise.

Keshav Pingali est PDG et co-fondateur de Katana Graph, une société d’intelligence graphique haute performance. Il est titulaire de la chaire d’informatique WATex Moncrief à l’Université du Texas à Austin, est membre de l’ACM, de l’IEEE et de l’AAAS, et est membre étranger de l’Academia Europeana.

Décideurs de données

Bienvenue dans la communauté VentureBeat !

DataDecisionMakers est l’endroit où les experts, y compris les techniciens travaillant sur les données, peuvent partager des idées et des innovations liées aux données.

Si vous souhaitez en savoir plus sur les idées de pointe et les informations à jour, les meilleures pratiques et l’avenir des données et de la technologie des données, rejoignez-nous à DataDecisionMakers.

Vous pourriez même envisager de publier votre propre article !

Lire la suite de DataDecisionMakers

www.actusduweb.com
Suivez Actusduweb sur Google News


Ce site utilise des cookies pour améliorer votre expérience. Nous supposerons que cela vous convient, mais vous pouvez vous désinscrire si vous le souhaitez. J'accepte Lire la suite