Un moteur de recherche pourrait aider les chercheurs à parcourir Internet à la recherche de documents confidentiels | Université d’État de Pennsylvanie

UNIVERSITY PARK, Pa. Un moteur de recherche qui utilise l’intelligence artificielle (IA) pour lire des millions de documents en ligne pourrait aider les chercheurs en matière de confidentialité à trouver ceux qui sont liés à la confidentialité en ligne. Les chercheurs qui ont conçu le moteur de recherche suggèrent qu’il pourrait s’agir d’un outil important pour les chercheurs qui tentent de trouver des moyens de concevoir un Internet plus sûr.

Dans une étude, les chercheurs ont déclaré que le moteur de recherche, qu’ils ont surnommé PrivaSeer, utilise un type d’IA appelé traitement du langage naturel NLP pour identifier les documents de confidentialité en ligne, tels que les politiques de confidentialité, les conditions d’utilisation, les politiques de cookies, les projets de loi et les lois sur la confidentialité. , directives réglementaires et autres textes connexes sur le Web.

Plutôt que d’essayer de rechercher eux-mêmes des documents de confidentialité, les chercheurs pourraient saisir leurs requêtes dans le moteur de recherche pour identifier et collecter efficacement la documentation correcte.

En fin de compte, cependant, le moteur de recherche pourrait aider les chercheurs à mieux comprendre la confidentialité en ligne en général et à examiner les tendances en matière de confidentialité en ligne au fil du temps, ce qui pourrait un jour conduire à un Internet sur lequel les utilisateurs pourraient naviguer de manière plus sûre et sécurisée, selon Shomir Wilson, professeur adjoint d’information. sciences et technologie à Penn State et à une filiale de l’Institute for Computational and Data Sciences.

Cela peut être une ressource pour les chercheurs à la fois en traitement du langage naturel et en confidentialité, qui s’intéressent à ce domaine du texte, a déclaré Wilson. Compte tenu de gros volumes de texte comme celui-ci, nous pouvons trouver des moyens d’identifier et d’étiqueter automatiquement certaines pratiques de données qui pourraient intéresser les gens, ce qui permet ensuite de créer des outils pour aider les utilisateurs à comprendre la confidentialité en ligne.

La PNL combine la linguistique, l’informatique et l’IA pour programmer des ordinateurs afin de traiter et d’analyser de grandes quantités de texte. Dans ce cas, les chercheurs ont utilisé la PNL pour collecter des documents de politique de confidentialité sur le Web, selon Mukund Srinath, doctorant en sciences et technologies de l’information et premier auteur de l’étude.

L’approche NLP peut faire la différence entre les documents de politique de confidentialité et les documents de politique de confidentialité en fonction de certains mots qui apparaissent dans le texte, a déclaré Srinath. Intuitivement, vous pouvez penser que les politiques de confidentialité peuvent contenir certains mots que les politiques de non-confidentialité n’ont pas, tels que la protection des données et la confidentialité, qui ne sont que quelques-uns des mots courants. Avec l’approche NLP, on pourrait dire que l’algorithme apprend à reconnaître la différence entre ces deux types de documents différents.

Il a ajouté que la recherche et la classification de la documentation sur la confidentialité sans apprentissage automatique prendraient du temps et seraient difficiles, voire impossibles.

Une connaissance plus approfondie des informations de confidentialité est nécessaire car ce type de documentation est largement ignoré par les utilisateurs réguliers, selon Wilson.

La plupart des sites Web vous présentent des informations sur leurs pratiques en matière de données, puis vous êtes censé donner votre consentement en parcourant et en lisant toutes ces informations, a déclaré Wilson. Mais personne ne le fait vraiment parce que ce n’est pas pratique et que cela ne correspond pas à la façon dont les gens utilisent Internet. Les gens n’ont généralement pas les connaissances juridiques.

Les politiques de confidentialité ont été collectées par le moteur de recherche PrivaSeer lors de deux explorations distinctes du Web. Une exploration du Web fait référence à la navigation systématique sur Internet à grande échelle, telle qu’elle est effectuée par un logiciel. Le premier crawl a eu lieu en juillet 2019. Le deuxième crawl a eu lieu en février 2020.

La base de données PrivaSeer se compose désormais d’environ 1,4 million de politiques de confidentialité de sites Web en anglais.

Une chose qui se distingue de notre base de données est que nous avons le plus grand instantané en matière de confidentialité en ligne, a déclaré Wilson.

Soundarya Nurani Sundareswara, ancienne étudiante diplômée en sciences et technologies de l’information, actuellement ingénieur logiciel chez Apple, et C. Lee Giles, professeur David Reese au College of Information Sciences and Technology, tous deux de Penn State, ont travaillé avec Wilson et Srinath sur le projet.

L’équipe a publié ses conclusions lors de la Conférence internationale sur l’ingénierie Web.

www.actusduweb.com
Suivez Actusduweb sur Google News


Ce site utilise des cookies pour améliorer votre expérience. Nous supposerons que cela vous convient, mais vous pouvez vous désinscrire si vous le souhaitez. J'accepte Lire la suite