#image_title

La base de données vectorielle est un nouveau type de base de données pour l’ère de l’IA

Découvrez toutes les sessions à la demande du Sommet sur la sécurité intelligente ici.


Les entreprises de tous les secteurs comprennent de plus en plus que la prise de décisions basées sur les données est une nécessité pour être compétitives maintenant, dans les cinq prochaines années, dans les 20 prochaines et au-delà. La croissance des données, la croissance des données non structurées en particulier, est hors de propos, et des études de marché récentes estiment que le marché mondial de l’intelligence artificielle (IA), alimenté par les données, se développera à un taux de croissance annuel composé (TCAC) de 39,4 % pour atteindre 422,37 milliards de dollars d’ici 2028. Il n’y a pas de retour en arrière depuis l’inondation de données et l’ère de l’IA qui est sur nous.

Implicitement dans cette réalité, l’IA peut trier et traiter le flot de données de manière significative, non seulement pour les géants de la technologie comme Alphabet, Meta et Microsoft avec leurs énormes opérations de R&D et leurs outils d’IA personnalisés, mais pour l’entreprise moyenne et même les PME.

Des applications basées sur l’IA bien conçues passent au crible des ensembles de données extrêmement volumineux extrêmement rapidement pour générer de nouvelles informations et, en fin de compte, alimenter de nouvelles sources de revenus, créant ainsi une réelle valeur pour les entreprises. Mais rien de la croissance des données n’est vraiment opérationnalisé et démocratisé sans le nouveau venu : les bases de données vectorielles. Celles-ci marquent une nouvelle catégorie de gestion de bases de données et un changement de paradigme pour l’utilisation des volumes exponentiels de données non structurées inexploitées dans les magasins d’objets. Les bases de données vectorielles offrent un nouveau niveau de capacité ahurissant pour rechercher des données non structurées en particulier, mais peuvent également traiter des données semi-structurées et même structurées.

Les données non structurées telles que les images, la vidéo, l’audio et les comportements des utilisateurs ne correspondent généralement pas au modèle de base de données relationnelle ; il ne peut pas être facilement trié en relations de lignes et de colonnes. Les méthodes extrêmement chronophages et aléatoires de gestion des données non structurées se résument souvent à un marquage manuel des données (pensez aux étiquettes et aux mots-clés sur les plateformes vidéo).

Événement

Sommet sur la sécurité intelligente à la demande

Découvrez le rôle essentiel de l’IA et du ML dans la cybersécurité et les études de cas spécifiques à l’industrie. Regardez les sessions à la demande aujourd’hui.

Regardez ici

Les balises peuvent être remplies de classifications et de relations pas si évidentes. Le balisage manuel se prête à une recherche lexicale traditionnelle qui correspond exactement aux mots et aux chaînes. Mais une recherche sémantique qui comprend la signification et le contexte d’une image ou d’un autre élément de données non structuré, ainsi qu’une requête de recherche, est pratiquement impossible avec des processus manuels.

Saisissez des vecteurs d’incorporation, également appelés vecteurs d’incorporation, vecteurs de caractéristiques ou simplement incorporations. Ce sont des coordonnées de valeurs numériques représentant des objets ou des caractéristiques de données non structurées, comme un composant d’une photographie, une partie d’un profil d’achat de personnes, des images sélectionnées dans une vidéo, des données géospatiales ou tout élément qui ne rentre pas parfaitement dans une table de base de données relationnelle. Ces intégrations permettent une recherche de similarité évolutive en une fraction de seconde. Cela signifie trouver des éléments similaires en fonction des correspondances les plus proches.

Des données et des informations de qualité

Les intégrations apparaissent essentiellement comme un sous-produit informatique d’un modèle d’IA, ou plus précisément, d’un modèle d’apprentissage automatique ou profond formé sur de très grands ensembles de données d’entrée de qualité. Pour diviser un peu plus les cheveux importants, un modèle est la sortie de calcul d’un algorithme (méthode ou procédure) d’apprentissage automatique (ML) exécuté sur des données. Les algorithmes sophistiqués et largement utilisés incluent STEGO pour la vision par ordinateur, CNN pour le traitement d’image et Googles BERT pour le traitement du langage naturel. Les modèles résultants transforment chaque élément de données non structurées en une liste de valeurs à virgule flottante, notre intégration permettant la recherche.

Ainsi, un modèle de réseau de neurones bien formé produira des incorporations qui s’alignent sur un contenu spécifique et peuvent être utilisées pour effectuer une recherche de similarité sémantique. L’outil pour stocker, indexer et rechercher dans ces intégrations est une base de données vectorielle spécialement conçue pour gérer les intégrations et leur structure distincte.

Ce qui est essentiel sur le marché, c’est que les développeurs du monde entier peuvent désormais ajouter une base de données vectorielle, avec ses capacités prêtes pour la production et sa recherche ultra-rapide de données non structurées, aux applications d’IA. Ce sont des applications puissantes qui peuvent aider une entreprise à atteindre ses objectifs commerciaux.

La stratégie de base de données vectorielle commence par des cas d’utilisation qui ont du sens pour votre entreprise

Il est de plus en plus courant pour une stratégie de données complète d’une entreprise d’inclure l’IA, mais il est essentiel de déterminer quelles unités commerciales et quels cas d’utilisation en bénéficieront le plus. Les applications d’IA basées sur des bases de données vectorielles peuvent analyser de volumineuses données non structurées à des fins de marketing, de vente, de recherche et de sécurité. Les systèmes de recommandation, y compris la recommandation de contenu généré par l’utilisateur, la recherche de commerce électronique personnalisée, l’analyse de vidéos et d’images, la publicité ciblée, la cybersécurité antivirus, les chatbots avec des compétences linguistiques améliorées, la découverte de médicaments, la recherche de protéines et la détection anti-fraude bancaire sont parmi les premiers cas d’utilisation importants bien gérés par des bases de données vectorielles avec rapidité et précision.

Considérez un scénario de commerce électronique où des centaines de millions de produits différents sont disponibles. Un développeur d’applications qui crée un moteur de recommandation souhaite être en mesure de recommander de nouveaux types de produits qui plaisent aux consommateurs individuels. Les intégrations capturent les profils, les produits et les requêtes de recherche, et les recherches produiront des résultats voisins les plus proches, s’alignant souvent avec les intérêts des consommateurs d’une manière presque étrange.

Optez pour des logiciels spécialement conçus et open source

Certains technologues ont étendu les bases de données relationnelles traditionnelles pour prendre en charge les incorporations. Mais cette approche unique consistant à ajouter une table de colonnes vectorielles n’est pas optimisée pour la gestion des incorporations et, par conséquent, les traite comme des citoyens de seconde classe. Les entreprises bénéficient de bases de données vectorielles open source spécialement conçues qui ont mûri au point d’offrir une recherche plus performante sur des données vectorielles à plus grande échelle à un coût inférieur à celui d’autres options.

Ces bases de données vectorielles spécialement conçues doivent être conçues pour incorporer facilement de nouveaux index pour les scénarios d’application émergents et prendre en charge une évolutivité flexible vers plusieurs nœuds pour s’adapter à des volumes de données sans cesse croissants.

Lorsque les entreprises adoptent une stratégie open source, leurs développeurs voient tout ce qui se passe avec un outil. Il n’y a pas de lignes de code cachées. Il y a le soutien de la communauté. Milvus, un projet d’IA et de données de la Linux Foundation, par exemple, est une base de données vectorielle bien connue de choix parmi les entreprises qui est facile à essayer en raison de son développement open source dynamique. Il est plus facile de l’envisager dans un écosystème d’IA plus large et de créer des outils intégrés pour cela. Plusieurs SDK et une API rendent l’interface aussi simple que possible afin que les développeurs puissent s’intégrer rapidement et tester leurs idées qui utilisent des données non structurées.

Surmonter les défis à venir

Les grandes nouvelles technologies qui changent de paradigme apportent inévitablement quelques défis techniques et organisationnels. Les bases de données vectorielles peuvent effectuer des recherches sur des milliards d’incorporations et leur indexation est techniquement différente de celle des bases de données relationnelles. Sans surprise, le développement d’index vectoriels nécessite une expertise spécialisée. Les bases de données vectorielles sont également lourdes en termes de calcul, compte tenu de leur genèse de l’IA et de l’apprentissage automatique. Résoudre leurs défis informatiques à grande échelle est un domaine de développement continu.

Sur le plan organisationnel, aider les équipes métier et la direction à comprendre pourquoi et comment les bases de données vectorielles leur sont utiles reste un élément clé de la normalisation de leur utilisation. La recherche de vecteurs elle-même existe depuis un certain temps, mais à très petite échelle. De nombreuses entreprises ne sont pas vraiment habituées à avoir accès au type de recherche de données et à la puissance d’exploration de données qu’offrent les bases de données vectorielles modernes. Les équipes peuvent ne pas savoir par où commencer. Faire passer le message sur leur fonctionnement et pourquoi ils apportent de la valeur reste donc une priorité absolue pour leurs créateurs.

Charles Xie est PDG de Zilliz

DataDecisionMakers

Bienvenue dans la communauté VentureBeat !

DataDecisionMakers est l’endroit où les experts, y compris les techniciens travaillant sur les données, peuvent partager des informations et des innovations liées aux données.

Si vous souhaitez en savoir plus sur les idées de pointe et les informations à jour, les meilleures pratiques et l’avenir des données et de la technologie des données, rejoignez-nous sur DataDecisionMakers.

Vous pourriez même envisager de contribuer votre propre article !

En savoir plus sur DataDecisionMakers

www.actusduweb.com
Suivez Actusduweb sur Google News


Ce site utilise des cookies pour améliorer votre expérience. Nous supposerons que cela vous convient, mais vous pouvez vous désinscrire si vous le souhaitez. J'accepte Lire la suite