L’apprentissage automatique en 2022 : menaces pour les données et portes dérobées ?
Les algorithmes d’apprentissage automatique sont devenus un élément essentiel de la technologie de cybersécurité, actuellement utilisés pour identifier les logiciels malveillants, réduire le nombre d’alertes présentées aux analystes de sécurité et hiérarchiser les vulnérabilités à corriger. Pourtant, de tels systèmes pourraient être subvertis par des attaquants avertis à l’avenir, avertissent les experts qui étudient la sécurité des systèmes d’apprentissage automatique (ML) et d’intelligence artificielle (IA).
Dans une étude publiée l’année dernière, les chercheurs ont découvert que les propriétés redondantes des réseaux de neurones pouvaient permettre à un attaquant de cacher des données dans un fichier de réseau de neurones commun, consommant 20 % de la taille du fichier sans affecter considérablement les performances du modèle. Dans un autre article de 2019, des chercheurs ont montré qu’un service de formation compromis pouvait créer une porte dérobée dans un réseau de neurones qui persiste réellement, même si le réseau est formé à une autre tâche.
Bien que ces deux documents de recherche spécifiques montrent des menaces potentielles, le risque le plus immédiat sont les attaques qui volent ou modifient les données, déclare Gary McGraw, co-fondateur et PDG du Berryville Institute of Machine Learning (BIML).
« Lorsque vous mettez des informations confidentielles dans une machine et que vous lui faites apprendre ces données, les gens oublient qu’il y a encore des informations confidentielles dans la machine et qu’il existe des moyens délicats de les faire sortir », dit-il. « Les données comptent tout autant que le reste de la technologie, probablement plus. »
Alors que les algorithmes ML sont devenus une fonctionnalité populaire pour les nouvelles technologies, en particulier dans l’industrie de la cybersécurité où « l’intelligence artificielle » et « l’apprentissage automatique » sont devenus des incontournables du marketing, les développeurs se sont concentrés sur la création de nouvelles utilisations de la technologie, sans un effort spécifique pour faire leur des implémentations résistantes aux attaques, selon McGraw et d’autres experts.
ML accusatoire
En 2020, Microsoft, MITRE et d’autres grandes entreprises technologiques ont publié un catalogue d’attaques potentielles appelé Adversarial ML Threat Matrix, qui a récemment été rebaptisé Adversarial Threat Landscape for Artificial Intelligence Systems (ATLAS). En outre, l’année dernière, il a averti que les entreprises devaient évaluer les systèmes qui s’appuient sur l’IA ou la technologie ML pour les risques potentiels. Certains des risques, tels que le masquage de données dans des fichiers ML, sont peu différents des risques quotidiens, recréant essentiellement une forme spécialisée de stéganographie. Pourtant, des risques plus spécifiques au ML, tels que la possibilité de créer des modèles qu’un attaquant peut déclencher pour agir d’une manière spécifique, pourraient avoir un succès significatif à moins que les entreprises ne testent la résilience de leurs systèmes.
Cela s’explique en partie par le fait que les défenseurs se concentrent sur les attaques immédiates, et non sur les attaques sophistiquées lointaines et difficiles à mettre en œuvre, explique Joshua Saxe, scientifique en chef de la société de sécurité logicielle Sophos.
« En toute honnêteté, de toutes les choses dont nous devons nous inquiéter dans la communauté de la sécurité informatique, il n’est pas clair que des attaques contre les modèles ML … se produiront dans un avenir proche », dit-il. « C’est bien que nous parlions de ces attaques, mais ce sont essentiellement des gens qui proposent des façons dont ils pensent que les attaquants agiront à l’avenir. »
Cependant, à mesure que de plus en plus de professionnels de la sécurité s’appuient sur les systèmes ML pour faire leur travail, la connaissance du paysage des menaces deviendra plus importante. Les attaques contradictoires créées par les chercheurs comprennent l’évitement des détecteurs de trafic de commande et de contrôle de logiciels malveillants, des algorithmes de génération de domaine de botnet (DGA) et des fichiers binaires de logiciels malveillants. Les attaques réelles incluent la subversion du chatbot de Microsoft, Tay, et les tentatives d’empoisonner le service antivirus collectif VirusTotal avec des données pour échapper à la détection par le service.
Données à risque
Le plus grand risque est posé aux données, dit McGraw du BIML, un argument qu’il a avancé dans une colonne Dark Reading plus tôt ce mois-ci. Les données sensibles peuvent souvent être récupérées à partir d’un système ML, et le système résultant fonctionne souvent de manière non sécurisée, dit-il.
« Il y a une exposition des données pendant les opérations, en général, lorsque les requêtes adressées au système d’apprentissage automatique sont exposées et que les résultats renvoyés sont souvent exposés », dit-il. « Les deux mettent en évidence un aspect vraiment important de l’apprentissage automatique qui n’est pas souligné : les données sont vraiment importantes. »
Les menaces ML diffèrent des attaquants utilisant des techniques AI/ML pour créer de meilleures attaques, explique Saxe de Sophos. Les systèmes d’IA, tels que le réseau neuronal de génération de texte GPT-3, peuvent être utilisés pour générer du texte pour le phishing qui semble avoir été envoyé par un humain. Les algorithmes de génération de visage basés sur l’IA peuvent créer des images de profil de personnes synthétiques, mais d’apparence réelle. Ce sont les types d’attaques pour lesquelles les attaquants abuseront initialement des algorithmes ML et AI, dit-il.
« La génération de médias synthétiques sera le premier endroit où les attaquants utiliseront réellement l’IA dans les prochaines années », déclare Saxe. « Il sera vraiment facile d’utiliser cette technologie. »
Alors que les chercheurs montrent la possibilité de nombreux types d’attaques ML, la plupart sont encore à des années parce que les attaquants ont encore des outils beaucoup plus simples dans leur boîte à outils qui réussissent toujours, dit-il.
« Les défenseurs devront rendre la vie beaucoup plus difficile aux attaquants, avant que les attaquants ne commencent à recourir à ces types d’attaques de James Bond », a déclaré Saxe. « Nous ne vivons tout simplement pas dans ce monde aujourd’hui. Les attaquants peuvent faire des choses beaucoup plus faciles tout en réussissant. »
Le seul domaine où les attaques ML deviendront critiques pour arrêter : la robotique et les voitures autonomes, qui non seulement reposent sur les algorithmes pour fonctionner, mais convertissent les décisions de l’IA en actions physiques, dit Saxe. La subversion de ces algorithmes devient un problème beaucoup plus important.
« C’est un jeu différent dans ce monde », dit-il