Les ingénieurs et OpenAI recommandent des moyens d’évaluer de grands modèles de langage pour les applications de cybersécurité

Perspectives de la cybersécurité 2024 : mesures de…

Crédit : Pixabay/CC0 Domaine public

L’Institut de génie logiciel (SEI) de l’Université Carnegie Mellon et OpenAI ont publié un livre blanc selon lequel les grands modèles de langage (LLM) pourraient être un atout pour les professionnels de la cybersécurité, mais devraient être évalués à l’aide de scénarios réels et complexes pour mieux comprendre les capacités et les risques de la technologie. Les LLM sont à la base des plateformes d’intelligence artificielle (IA) générative actuelles, telles que Gemini de Google, Bing AI de Microsoft et ChatGPT, publiées en novembre 2022 par OpenAI.

Ces plates-formes acceptent les invites des utilisateurs humains, utilisent l’apprentissage en profondeur sur de grands ensembles de données et produisent du texte, des images ou du code plausibles. Les candidatures aux LLM ont explosé au cours de la dernière année dans des secteurs tels que les arts créatifs, la médecine, le droit, le génie logiciel et l’acquisition.

Bien qu’elle n’en soit qu’à ses débuts, la perspective d’utiliser les LLM pour la cybersécurité est de plus en plus tentante. La technologie en plein essor semble être un multiplicateur de force approprié pour le domaine de la cybersécurité, riche en données, profondément technique et souvent laborieux. Ajoutez à cela la pression nécessaire pour garder une longueur d’avance sur les cyberattaquants utilisant le LLM, y compris les acteurs affiliés à l’État, et l’attrait devient encore plus brillant.

Cependant, il est difficile de savoir dans quelle mesure les LLM pourraient être capables de mener des cyberopérations ou quel serait le risque s’ils étaient utilisés par les défenseurs. La conversation autour de l’évaluation des capacités des LLM dans n’importe quel domaine professionnel semble se concentrer sur leurs connaissances théoriques, telles que les réponses aux questions d’examen standard. Une étude préliminaire a révélé que GPT-3.5 Turbo avait réussi un examen de test d’intrusion commun.

Les LLM sont peut-être excellents en matière de rappel factuel, mais ce n’est pas suffisant, selon l’article SEI et OpenAI « Considérations pour l’évaluation de grands modèles linguistiques pour les tâches de cybersécurité ».

« Un LLM en sait peut-être beaucoup », a déclaré Sam Perl, analyste principal en cybersécurité à la division CERT du SEI et co-auteur de l’article, « mais sait-il comment le déployer correctement dans le bon ordre et comment faire des compromis ? «

Se concentrer sur les connaissances théoriques ignore la complexité et les nuances des tâches réelles de cybersécurité. En conséquence, les professionnels de la cybersécurité ne savent pas comment ni quand intégrer les LLM dans leurs opérations.

La solution, selon l’article, consiste à évaluer les LLM sur les mêmes branches de connaissances sur lesquelles un opérateur humain de cybersécurité serait testé : connaissances théoriques, ou informations fondamentales tirées des manuels ; des connaissances pratiques, telles que la résolution de problèmes de cybersécurité autonomes ; et connaissances appliquées, ou réalisation d’objectifs de niveau supérieur dans des situations ouvertes.

Tester un humain de cette façon est déjà assez difficile. Tester un réseau neuronal artificiel présente un ensemble unique d’obstacles. Même définir les tâches est difficile dans un domaine aussi diversifié que la cybersécurité. « Attaquer quelque chose est très différent de faire des analyses médico-légales ou d’évaluer un fichier journal », a déclaré Jeff Gennari, chef d’équipe et ingénieur principal de la division SEI CERT et co-auteur de l’article. « Chaque tâche doit être réfléchie avec soin et une évaluation appropriée doit être conçue. »

Une fois les tâches définies, une évaluation doit poser des milliers, voire des millions de questions. Les LLM en ont besoin pour imiter le don de l’esprit humain pour l’exactitude sémantique. L’automatisation sera nécessaire pour générer le volume de questions requis. C’est déjà faisable pour les connaissances théoriques.

Mais les outils nécessaires pour générer suffisamment de scénarios pratiques ou appliqués et pour permettre à un LLM d’interagir avec un système exécutable n’existent pas. Enfin, le calcul des métriques sur toutes ces réponses aux tests pratiques et appliqués nécessitera de nouvelles rubriques d’exactitude.

Alors que la technologie rattrape son retard, le livre blanc fournit un cadre pour concevoir des évaluations réalistes de cybersécurité des LLM qui commence par quatre recommandations globales :

Définissez la tâche du monde réel que l’évaluation doit capturer.
Représenter les tâches de manière appropriée.
Rendre l’évaluation robuste.
Cadrez les résultats de manière appropriée.

Shing-hon Lau, chercheur principal en sécurité de l’IA au sein de la division CERT du SEI et l’un des co-auteurs de l’article, note que ces orientations encouragent à ne plus se concentrer exclusivement sur les LLM, pour la cybersécurité ou dans tout autre domaine. « Nous devons cesser de penser à l’évaluation du modèle lui-même et nous concentrer sur l’évaluation du système plus vaste qui contient le modèle ou sur la manière dont l’utilisation d’un modèle améliore les capacités humaines. »

Les auteurs du SEI estiment que les LLM finiront par renforcer les opérateurs de cybersécurité humaine dans un rôle de soutien, plutôt que de travailler de manière autonome. Même ainsi, les LLM devront encore être évalués, a déclaré Gennari. « Les cyberprofessionnels devront déterminer comment utiliser au mieux un LLM pour soutenir une tâche, puis évaluer le risque de cette utilisation. À l’heure actuelle, il est difficile de répondre à l’une ou l’autre de ces questions si votre preuve est la capacité d’un LLM à répondre à des questions fondées sur des faits. « .

Le SEI applique depuis longtemps une rigueur technique à la cybersécurité et à l’IA. La combinaison des deux disciplines dans l’étude des évaluations LLM est l’une des façons dont le SEI dirige la recherche sur la cybersécurité de l’IA. L’année dernière, le SEI a également lancé l’AI Security Incident Response Team (AISIRT) pour fournir aux États-Unis la capacité de faire face aux risques liés à la croissance rapide et à l’utilisation généralisée de l’IA.

OpenAI a contacté le SEI l’année dernière au sujet des évaluations de cybersécurité LLM, cherchant à mieux comprendre la sécurité des modèles qui sous-tendent ses plates-formes d’IA générative. Les co-auteurs d’OpenAI de l’article, Joel Parish et Girish Sastry, ont apporté leur connaissance directe de la cybersécurité LLM et des politiques pertinentes. En fin de compte, tous les auteurs espèrent que l’article amorcera un mouvement vers des pratiques qui pourront éclairer ceux qui décident quand intégrer les LLM dans les cyber-opérations.

« Les décideurs politiques doivent comprendre comment utiliser au mieux cette technologie en mission », a déclaré Gennari. « S’ils disposent d’évaluations précises des capacités et des risques, ils seront alors mieux placés pour les utiliser efficacement. »

Plus d’information:
Considérations pour l’évaluation de grands modèles de langage pour les tâches de cybersécurité. insights.sei.cmu.edu/library/c cybersecurity-tasks/

www.actusduweb.com

Suivez Actusduweb sur Google News