L’avenir de l’apprentissage automatique dans la cybersécurité
Par le Dr May Wang, directeur technique de la sécurité IoT chez Palo Alto Networks et co-fondateur, directeur technique (CTO) et membre du conseil d’administration de Zingbox
L’apprentissage automatique (ML) est un terme couramment utilisé dans presque tous les secteurs de l’informatique aujourd’hui. Et tandis que le ML a souvent été utilisé pour donner un sens au Big Data (pour améliorer les performances et les processus de l’entreprise et aider à faire des prédictions), il s’est également avéré inestimable dans d’autres applications, y compris la cybersécurité. Cet article partagera les raisons pour lesquelles le ML a pris une telle importance dans la cybersécurité, partagera certains des défis de cette application particulière de la technologie et décrira l’avenir que l’apprentissage automatique permet.
Pourquoi l’apprentissage automatique est devenu vital pour la cybersécurité
Le besoin d’apprentissage automatique est lié à la complexité. De nombreuses organisations possèdent aujourd’hui un nombre croissant d’appareils Internet des objets (IoT) qui ne sont pas tous connus ou gérés par l’informatique. Toutes les données et applications ne s’exécutent pas sur site, car l’hybride et le multicloud sont la nouvelle norme. Les utilisateurs ne sont plus principalement au bureau, car le travail à distance est largement accepté.
Il n’y a pas si longtemps, il était courant pour les entreprises de s’appuyer sur la détection des logiciels malveillants basée sur les signatures, les règles de pare-feu statiques pour le trafic réseau et les listes de contrôle d’accès (ACL) pour définir les politiques de sécurité. Dans un monde avec plus d’appareils, dans plus d’endroits que jamais, les anciennes méthodes de détection des risques de sécurité potentiels ne parviennent pas à suivre l’échelle, la portée et la complexité.
L’apprentissage automatique consiste à former des modèles pour apprendre automatiquement à partir de grandes quantités de données, et à partir de l’apprentissage, un système peut ensuite identifier les tendances, repérer les anomalies, faire des recommandations et finalement exécuter des actions. Afin de relever tous les nouveaux défis de sécurité auxquels les organisations sont confrontées, il existe un besoin évident d’apprentissage automatique. Seul l’apprentissage automatique peut répondre au nombre croissant de défis en matière de cybersécurité : faire évoluer les solutions de sécurité, détecter les attaques inconnues et détecter les attaques avancées, y compris les logiciels malveillants polymorphes. Les logiciels malveillants avancés peuvent changer de forme pour échapper à la détection, et l’utilisation d’une approche traditionnelle basée sur les signatures rend très difficile la détection de telles attaques avancées. Le ML s’avère être la meilleure solution pour le combattre.
Ce qui rend l’apprentissage automatique différent dans la cybersécurité
L’apprentissage automatique est bien compris et largement déployé dans de nombreux domaines. Parmi les plus populaires figurent le traitement d’image pour la reconnaissance et le traitement du langage naturel (TAL) pour aider à comprendre ce qu’un humain ou un morceau de texte dit.
La cybersécurité est différente des autres cas d’utilisation de l’apprentissage automatique à certains égards.
Tirer parti de l’apprentissage automatique dans la cybersécurité comporte ses propres défis et exigences. Nous discuterons de trois défis uniques pour l’application du ML à la cybersécurité et de trois défis courants mais plus graves en matière de cybersécurité.
Trois défis uniques pour appliquer le ML à la cybersécurité
Défi 1 : Les exigences de précision beaucoup plus élevées. Par exemple, si vous ne faites que du traitement d’image et que le système confond un chien avec un chat, cela peut être ennuyeux mais n’a probablement pas d’impact sur la vie ou la mort. Si un système d’apprentissage automatique confond un paquet de données frauduleux avec un paquet légitime qui conduit à une attaque contre un hôpital et ses appareils, l’impact de la mauvaise catégorisation peut être grave.
Chaque jour, les entreprises voient de gros volumes de paquets de données traverser les pare-feux. Même si seulement 0,1 % des données sont mal catégorisées par l’apprentissage automatique, nous pouvons bloquer à tort d’énormes quantités de trafic normal qui auraient de graves répercussions sur l’entreprise. Il est compréhensible qu’au début de l’apprentissage automatique, certaines organisations craignaient que les modèles ne soient pas aussi précis que les chercheurs en sécurité humaine. Cela prend du temps, et il faut également d’énormes quantités de données pour former un modèle d’apprentissage automatique afin d’atteindre le même niveau de précision qu’un humain vraiment qualifié. Les humains, cependant, n’évoluent pas et sont parmi les ressources informatiques les plus rares aujourd’hui. Nous comptons sur ML pour faire évoluer efficacement les solutions de cybersécurité. En outre, ML peut nous aider à détecter des attaques inconnues difficiles à détecter pour les humains, car ML peut créer des comportements de base et détecter toute anomalie qui s’en écarte.
Défi 2 : L’accès à de grandes quantités de données d’entraînement, en particulier des données étiquetées. L’apprentissage automatique nécessite une grande quantité de données pour rendre les modèles et les prédictions plus précis. Obtenir des échantillons de logiciels malveillants est beaucoup plus difficile que d’acquérir des données dans le traitement d’images et le NLP. Il n’y a pas assez de données sur les attaques et de nombreuses données sur les risques de sécurité sont sensibles et non disponibles pour des raisons de confidentialité.
Défi 3 : La vérité de terrain. Contrairement aux images, la réalité de terrain en matière de cybersécurité n’est peut-être pas toujours disponible ou fixe. Le paysage de la cybersécurité est dynamique et change constamment. Aucune base de données de logiciels malveillants ne peut prétendre couvrir tous les logiciels malveillants du monde, et davantage de logiciels malveillants sont générés à tout moment. Quelle est la vérité fondamentale à laquelle nous devons nous comparer pour décider de notre exactitude ?
Trois défis ML rendus plus sévères dans la cybersécurité
Il existe d’autres défis communs au ML dans tous les secteurs, mais plus graves pour le ML dans la cybersécurité.
Défi 1 : Explicabilité des modèles d’apprentissage automatique. Avoir une compréhension complète des résultats de l’apprentissage automatique est essentiel pour notre capacité à prendre les mesures appropriées.
Défi 2 : Pénurie de talents. Nous devons combiner la connaissance du domaine avec l’expertise en ML pour que le ML soit efficace dans n’importe quel domaine. Soit le ML, soit la sécurité seule manque de talent ; il est encore plus difficile de trouver des experts qui connaissent à la fois le ML et la sécurité. C’est là que nous avons constaté qu’il était essentiel de s’assurer que les scientifiques des données ML travaillent avec les chercheurs en sécurité, même s’ils ne parlent pas le même langage, utilisent des méthodologies différentes et ont des façons de penser et des approches différentes. Il est très important pour eux d’apprendre à travailler les uns avec les autres. La collaboration entre ces deux groupes est la clé d’une application réussie du ML à la cybersécurité.
Défi 3 : sécurité du ML. En raison du rôle critique que joue la cybersécurité dans chaque entreprise, il est plus important de s’assurer que le ML que nous utilisons dans la cybersécurité est sécurisé par lui-même. Il y a eu des recherches dans ce domaine dans les universités, et nous sommes heureux de voir et de contribuer au mouvement de l’industrie dans la sécurisation des modèles et des données de ML. Palo Alto Networks est à la pointe de l’innovation et fait tout pour s’assurer que notre ML est sécurisé.
L’objectif de l’apprentissage automatique est de rendre la sécurité plus efficace et évolutive dans le but d’économiser du travail et de prévenir les attaques inconnues. Il est difficile d’utiliser le travail manuel pour passer à des milliards d’appareils, mais l’apprentissage automatique peut facilement le faire. Et c’est le type d’échelle dont les organisations ont vraiment besoin pour se protéger dans le paysage des menaces croissantes. Le ML est également essentiel pour détecter les attaques inconnues dans de nombreuses infrastructures critiques. Nous ne pouvons pas nous permettre une seule attaque, ce qui peut signifier la vie ou la mort.
Comment l’apprentissage automatique permet l’avenir de la cybersécurité
L’apprentissage automatique prend en charge les solutions de cybersécurité modernes de différentes manières. Individuellement, chacun est précieux et, ensemble, ils changent la donne pour maintenir une posture de sécurité solide dans un paysage de menaces dynamique.
Identification et profilage : Avec de nouveaux appareils connectés aux réseaux d’entreprise en permanence, il n’est pas facile pour une organisation informatique de les connaître tous. L’apprentissage automatique peut être utilisé pour identifier et profiler les appareils sur un réseau. Ce profil peut déterminer les différentes fonctionnalités et comportements d’un appareil donné.
Détection automatisée des anomalies : L’utilisation de l’apprentissage automatique pour identifier rapidement les mauvais comportements connus est un excellent cas d’utilisation pour la sécurité. Après avoir d’abord dressé le profil des appareils et compris les activités régulières, l’apprentissage automatique sait ce qui est normal et ce qui ne l’est pas.
Détection zero-day : Avec la sécurité traditionnelle, une mauvaise action doit être vue au moins une fois pour être identifiée comme une mauvaise action. C’est ainsi que fonctionne la détection de logiciels malveillants basée sur les signatures héritées. L’apprentissage automatique peut identifier intelligemment des formes de logiciels malveillants et d’attaques jusque-là inconnues pour aider à protéger les organisations contre les attaques potentielles du jour zéro.
Informations à grande échelle : Avec des données et des applications dans de nombreux endroits différents, être en mesure d’identifier les tendances sur de grands volumes d’appareils n’est tout simplement pas humainement possible. L’apprentissage automatique peut faire ce que les humains ne peuvent pas, permettant l’automatisation pour des informations à grande échelle.
Recommandations politiques : Le processus d’élaboration des politiques de sécurité est souvent un effort très manuel qui ne manque pas de défis. En comprenant quels appareils sont présents et quel est leur comportement normal, l’apprentissage automatique peut aider à fournir des recommandations de stratégie pour les appareils de sécurité, y compris les pare-feu. Au lieu de devoir parcourir manuellement différentes listes de contrôle d’accès conflictuelles pour différents appareils et segments de réseau, l’apprentissage automatique peut faire des recommandations spécifiques qui fonctionnent dans une approche automatisée.
Avec de plus en plus d’appareils et de menaces mis en ligne chaque jour et des ressources de sécurité humaine rares, seul l’apprentissage automatique peut trier des situations et des scénarios complexes à grande échelle pour permettre aux organisations de relever le défi de la cybersécurité aujourd’hui et dans les années à venir.
En savoir plus sur l’apprentissage automatique dans la cybersécurité ici.
À propos du Dr May Wang :
Le Dr May Wang est le CTO de la sécurité IoT chez Palo Alto Networks et le co-fondateur, le directeur de la technologie (CTO) et membre du conseil d’administration de Zingbox, qui a été acquis par Palo Alto Networks en 2019 pour ses solutions de sécurité pour l’Internet des objets. (IdO).