DarkBERT : Améliorer les efforts de cybersécurité sur le Dark Web
DarkBERT a été alimenté avec environ 6,1 millions de pages trouvées sur le dark web dans le cadre de sa préformation à grande échelle sur les textes en anglais.
L’émergence des grands modèles de langage (LLM) a révolutionné le domaine de l’intelligence artificielle (IA) et ouvert de nouvelles voies pour le développement d’applications. Avec la sortie de modèles comme ChatGPT, le potentiel de l’IA pour les utilisations positives et négatives est devenu évident.
S’appuyant sur cette tendance, une équipe de chercheurs du Korea Advanced Institute of Science and Technology (KAIST) et de la société d’intelligence de données S2W a développé DarkBERT, un modèle de langage d’IA spécifiquement formé sur les données du Dark Web insaisissable et souvent néfaste. Ce développement révolutionnaire vise à renforcer les efforts de cybersécurité et à lutter contre la cybercriminalité dans les recoins cachés d’Internet.
Le Dark Web, une section clandestine d’Internet, a acquis une notoriété pour héberger des sites Web et des marchés anonymes qui facilitent des activités illicites telles que le commerce de drogues, d’armes et de données volées. Il est inaccessible via les navigateurs Web conventionnels et nécessite un logiciel spécialisé comme Tor (The Onion Router) pour y accéder. Tor anonymise les adresses IP des utilisateurs, ce qui rend difficile le suivi de leurs activités en ligne.
DarkBERT, basé sur l’architecture RoBERTa, exploite la puissance de l’IA pour naviguer sur le Dark Web. Pour former DarkBERT, les chercheurs ont méticuleusement parcouru le Dark Web à l’aide du réseau Tor et ont organisé une base de données de contenu du Dark Web.
Cette base de données a servi de données de formation pour affiner la capacité du modèle DarkBERT à comprendre et à extraire des informations significatives du contenu codé de manière complexe et riche en dialectes trouvé sur le Dark Web. DarkBERT a été alimenté avec environ 6,1 millions de pages trouvées sur le dark web dans le cadre de sa préformation à grande échelle sur les textes en anglais.
L’objectif des chercheurs avec DarkBERT était de surpasser les capacités des modèles de langage existants et de créer un outil d’IA qui pourrait aider les professionnels de la cybersécurité, les forces de l’ordre et les chercheurs en menaces à lutter contre la cybercriminalité sur le Dark Web.
DarkBERT se distingue des autres modèles de langage par sa capacité inégalée à comprendre les dialectes uniques et les messages fortement codés répandus sur le Dark Web. Dans divers cas d’utilisation liés à la cybersécurité, DarkBERT a constamment surpassé les modèles de langage établis tels que BERT et RoBERTa.
L’étendue complète des utilisations du DarkBERT reste à documenter, mais les chercheurs l’ont testé dans trois cas d’utilisation clés liés à la cybersécurité :
Détection de site de fuite de ransomware :
- DarkBERT fait ses preuves dans l’identification et la classification des sites de fuite de ransomwares sur le Dark Web. Les gangs de rançongiciels utilisent souvent le Dark Web pour publier des données confidentielles volées à des organisations qui refusent de payer la rançon. En surpassant les performances des autres modèles de langage, DarkBERT améliore le processus de détection et de classification, permettant aux professionnels de la cybersécurité d’atténuer efficacement les risques associés à de telles fuites.

Détection de fil remarquable :
- La surveillance des forums du dark web à la recherche de fils de discussion dignes d’intérêt est une tâche essentielle pour les chercheurs en sécurité. La capacité de DarkBERT à comprendre le langage spécialisé utilisé dans ces forums permet la découverte et l’évaluation automatisées des fils de discussion remarquables. Bien que d’autres améliorations soient nécessaires, la supériorité de DarkBERT sur les autres modèles de langage dans ce domaine est prometteuse pour réduire la charge de travail des chercheurs.
Inférence de mot-clé de menace :
- DarkBERT utilise la fonction de masque de remplissage, une fonctionnalité des modèles de langage de la famille BERT, pour identifier les mots clés liés aux menaces et aux activités illicites telles que la vente de drogue sur le Dark Web. En capturant avec précision des mots-clés indiquant des menaces potentielles, DarkBERT aide à suivre et à traiter les cybermenaces émergentes.
Le développement d’outils d’IA pour le Dark Web soulève d’importantes considérations éthiques. Bien que DarkBERT renforce les efforts de cybersécurité, une utilisation responsable et un strict respect de la confidentialité et des cadres juridiques sont impératifs. La collaboration entre les chercheurs, les forces de l’ordre et les pirates éthiques sera cruciale pour garantir que le déploiement de DarkBERT s’aligne sur les intérêts de la société et protège la vie privée des individus.
Pour conclure, DarkBERT représente une percée significative dans l’exploitation des modèles de langage d’IA pour relever les défis posés par le Dark Web. Ses performances supérieures et sa formation spécialisée sur les données du Dark Web offrent un grand potentiel pour améliorer les efforts de cybersécurité, permettre une détection efficace des menaces et soutenir les enquêtes dans le domaine du Dark Web.
Alors que les chercheurs continuent d’affiner DarkBERT et d’explorer des architectures plus avancées, les possibilités de son application dans l’industrie des cybermenaces se développent encore.
ARTICLES LIÉS
- ARMO intègre ChatGPT pour sécuriser Kubernetes
- Modèle basé sur l’IA pour prédire le danger extrême d’incendie de forêt
- Google propose une surveillance du Dark Web pour les utilisateurs américains de Gmail
- Cette IA peut générer des NFT Bored Ape uniques et gratuits
- Les services d’urgence utilisent l’IA pour détecter les signes de crise cardiaque