Analyse | La prochaine crise de la cybersécurité : une IA empoisonnée
Le danger est l’empoisonnement des données : la manipulation des informations utilisées pour entraîner les machines offre une méthode pratiquement introuvable pour contourner les défenses alimentées par l’IA. De nombreuses entreprises ne sont peut-être pas prêtes à faire face à des défis croissants. Le marché mondial de la cybersécurité de l’IA devrait déjà tripler d’ici 2028 pour atteindre 35 milliards de dollars. Les fournisseurs de sécurité et leurs clients devront peut-être mettre en place plusieurs stratégies pour tenir les menaces à distance.
La nature même de l’apprentissage automatique, un sous-ensemble de l’IA, est la cible de l’empoisonnement des données. Compte tenu des quantités de données, les ordinateurs peuvent être entraînés à catégoriser correctement les informations. Un système n’a peut-être pas vu de photo de Lassie, mais étant donné suffisamment d’exemples d’animaux différents correctement étiquetés par espèce (et même par race), il devrait être en mesure de supposer qu’il s’agit d’un chien. Avec encore plus d’échantillons, il serait capable de deviner correctement la race du célèbre canidé de la télévision : le Rough Collie. L’ordinateur ne sait pas vraiment. Il fait simplement une inférence statistiquement informée basée sur des données de formation passées.
Cette même approche est utilisée dans la cybersécurité. Pour attraper les logiciels malveillants, les entreprises alimentent leurs systèmes avec des données et laissent la machine apprendre par elle-même. Les ordinateurs armés de nombreux exemples de bons et de mauvais codes peuvent apprendre à rechercher les logiciels malveillants (ou même des extraits de logiciels) et à les attraper.
Une technique avancée appelée réseaux de neurones qui imite la structure et les processus du cerveau humain passe par des données d’entraînement et effectue des ajustements basés sur des informations connues et nouvelles. Un tel réseau n’a pas besoin d’avoir vu un morceau spécifique de code malveillant pour supposer que c’est mauvais. Il est appris par lui-même et peut prédire adéquatement le bien contre le mal.
Tout cela est très puissant mais ce n’est pas invincible.
Les systèmes d’apprentissage automatique nécessitent un grand nombre d’échantillons correctement étiquetés pour commencer à bien prédire. Même les plus grandes entreprises de cybersécurité ne sont capables de rassembler et de catégoriser qu’un nombre limité d’exemples de logiciels malveillants, elles n’ont donc d’autre choix que de compléter leurs données de formation. . Certaines données peuvent être crowd-sourced. Nous savons déjà qu’un pirate ingénieux peut tirer parti de cette observation à son avantage, a noté Giorgio Severi, étudiant au doctorat à la Northwestern University, lors d’une récente présentation au symposium Usenix sur la sécurité.
En utilisant l’analogie avec les animaux, si des hackers félinophobes voulaient faire des ravages, ils pourraient étiqueter un tas de photos de paresseux comme des chats et alimenter les images dans une base de données open source d’animaux domestiques. Étant donné que les mammifères étreignant les arbres apparaîtront beaucoup moins souvent dans un corpus d’animaux domestiques, ce petit échantillon de données empoisonnées a de bonnes chances de tromper un système en crachant des photos de paresseux lorsqu’on lui demande de montrer des chatons.
C’est la même technique pour les pirates plus malveillants. En concevant soigneusement un code malveillant, en qualifiant ces échantillons de bons, puis en les ajoutant à un plus grand lot de données, un pirate peut tromper un réseau neutre en supposant qu’un extrait de logiciel qui ressemble au mauvais exemple est, en fait, inoffensif. Attraper les échantillons mécréants est presque impossible. Il est beaucoup plus difficile pour un humain de fouiller dans le code informatique que de trier les images de paresseux de celles de chats.
Lors d’une présentation à la conférence sur la sécurité HITCon à Taipei l’année dernière, les chercheurs Cheng Shin-ming et Tseng Ming-huei ont montré que le code de porte dérobée pouvait totalement contourner les défenses en empoisonnant moins de 0,7 % des données soumises au système d’apprentissage automatique. Non seulement cela signifie que seuls quelques échantillons malveillants sont nécessaires, mais cela indique qu’un système d’apprentissage automatique peut être rendu vulnérable même s’il n’utilise qu’une petite quantité de données open source non vérifiées.
L’industrie n’est pas aveugle au problème, et cette faiblesse oblige les entreprises de cybersécurité à adopter une approche beaucoup plus large pour renforcer les défenses. Une façon d’aider à prévenir l’empoisonnement des données est que les scientifiques qui développent des modèles d’IA vérifient régulièrement que toutes les étiquettes de leurs données de formation sont exactes. OpenAI LLP, la société de recherche cofondée par Elon Musk, a déclaré que lorsque ses chercheurs ont organisé leurs ensembles de données pour un nouvel outil de génération d’images, ils passeraient régulièrement les données à travers des filtres spéciaux pour garantir l’exactitude de chaque étiquette. [That] supprime la grande majorité des images qui sont faussement étiquetées, a déclaré une porte-parole.
Pour rester en sécurité, les entreprises doivent s’assurer que leurs données sont propres, mais cela signifie former leurs systèmes avec moins d’exemples qu’avec les offres open source. Dans l’apprentissage automatique, la taille de l’échantillon est importante.
Ce jeu du chat et de la souris entre attaquants et défenseurs dure depuis des décennies, l’IA étant simplement le dernier outil déployé pour aider le bon côté à rester en tête. N’oubliez pas : l’intelligence artificielle n’est pas omnipotente. Les pirates sont toujours à la recherche de leur prochain exploit.
Plus d’opinion de Bloomberg :
Le projet OpenAI mérite plus d’examen : Parmy Olson
Les assureurs doivent se préparer au cyber-risque catastrophique : Olson et Culpan
La réprimande d’Alibaba en Chine envoie un mauvais signal : Tim Culpan
Cette colonne ne reflète pas nécessairement l’opinion du comité de rédaction ou de Bloomberg LP et de ses propriétaires.
Tim Culpan est chroniqueur technologique pour Bloomberg Opinion. Basé à Taipei, il écrit sur les entreprises et les tendances asiatiques et mondiales. Il a précédemment couvert le rythme de Bloomberg News.
D’autres histoires comme celle-ci sont disponibles sur bloomberg.com/opinion