#image_title

Internet est-il vraiment éternel ? La pourriture des liens est un problème qui nécessite des changements d’infrastructure et une collaboration humaine pour être résolu, selon un expert

Une capture d'écran d'une page 404 Page non trouvée.
Une nouvelle étude du Pew Research Center fournit des données sur la question de la « pourriture des liens » sur le Web.

Cela nous est tous arrivé à un moment donné, alors que vous naviguiez sur le Web, vous cliquez sur un lien brisé et recevez un message indiquant que la page Web que vous recherchez n’existe pas.

C’est aussi courant que frustrant, et il semble que le problème va s’aggraver à mesure qu’Internet continue de se développer et que les anciennes pages Web sont migrées ou abandonnées.

Il y a même un nom pour le problème. C’est ce qu’on appelle la pourriture des liens, un terme qui remonte aux années 90, lorsque Internet a pris de l’importance.

Plus tôt ce mois-ci, le Pew Research Center a publié un rapport approfondi sur la question, révélant qu’un tiers des pages Web qui existaient en 2013 ne sont plus accessibles.

Portrait de Joseph Reagle.
Joseph Reagle, professeur agrégé d’études en communication à Northeastern, a travaillé comme analyste politique au World Web Consortium dans les années 90. Photo de Matthew Modoono/Université Northeastern

Voici quelques autres informations découvertes par Pew :

  • 23 % des pages Web d’actualités contiennent au moins un lien brisé, tout comme 21 % des pages Web des sites gouvernementaux.
  • 54 % des pages Wikipédia contiennent au moins un lien dans leur section Références qui pointe vers une page qui n’existe plus.
  • Près d’un tweet sur cinq n’est plus visible publiquement sur le site quelques mois seulement après sa publication.

Joseph Reagle, professeur agrégé d’études en communication à la Northeastern University, affirme que le problème commence par l’infrastructure des technologies URL, qui signifient Uniform Resource Locator.

Les URL servent de points d’adresse pour les pages Web sur Internet, similaires aux adresses de lieux physiques comme votre domicile ou votre travail. Les URL sont excellentes car elles permettent aux utilisateurs de trouver facilement des sites Web, mais le problème est qu’elles peuvent être facilement cassées, dit-il.

Dans les années 90, Reagle a travaillé avec Tim Berners-Lee, largement reconnu pour l’invention du World Wide Web, au World Wide Web Consortium en tant qu’analyste politique. Les problèmes liés aux URL ont été longuement évoqués.

Nous savions par exemple que les URL ne sont pas très bien gérées. Si vous êtes une organisation ou une entreprise et que vous décidez de vous réorganiser ou de changer de plateforme, toutes les URL se cassent généralement.

Au début du Web, les technologues de l’Internet ont examiné l’idée d’utiliser des alternatives au système d’URL. Une proposition consistait plutôt à utiliser des technologies basées sur l’URN, qui signifient un nom de ressource uniforme, qui fonctionneraient de manière similaire au système ISBN utilisé pour cataloguer les livres, explique Reagle.

Mais le problème est qu’une organisation plus grande serait chargée de la gérer. Le système ISBN est géré par l’agence internationale ISBN, une entité désignée par l’Organisation internationale de normalisation.

Vous êtes donc confronté à deux problèmes, dit Reagle. Soit vous laissez tout le monde créer ses URL et gérer ses ressources, et ils ont tendance à être très mauvais au fil du temps, soit vous créez des référentiels centralisés avec des identités permanentes, mais leur configuration est coûteuse et difficile à maintenir.

Le système d’URL est ainsi devenu le principal moyen par lequel les gens interagissent avec le Web, note-t-il, et les problèmes liés à la pourriture des liens demeurent.

Les gens soulèvent la question de temps en temps. Cela attire un peu d’attention, puis le monde évolue, dit Reagle. Il y a eu des tentatives de solutions, mais les problèmes persistent.

Les organisations d’archivistes sont sorties de toutes pièces pour aider à résoudre ces problèmes. Quelques projets notables incluent Wayback Machine, archive.today et perma.cc, qui permettent aux utilisateurs d’accéder aux anciennes versions de pages Web qui ne sont plus actives et d’archiver eux-mêmes de nouvelles pages Web.

Mais ces services existent en grande partie de manière précaire et dans l’ombre, note Reagle, en grande partie par de petits groupes de personnes profondément intéressées par la préservation en ligne.

Ces efforts nécessitent également que les utilisateurs individuels contribuent à la création de leurs bases de données, ce qui peut être considéré comme une tâche importante et ne suffit pas à archiver de manière adéquate de larges pans du Web.

Ils sont tous un peu différents et ne sont pas tous parfaits, dit-il. Perma.cc et d’autres programmes similaires exigent que les gens soient proactifs, par exemple : Hé, faites une copie de cette page. et tout le monde ne fera pas ça. De grandes quantités d’Internet ne se trouvent pas sur Perma.cc.

Ces problèmes vont au-delà des défis d’infrastructure et de collaboration humaine. Il existe également des problèmes liés aux droits d’auteur et aux protections juridiques dont bénéficient les individus lorsqu’ils s’efforcent de préserver le Web, ajoute Reagle.

C’est là que le gouvernement fédéral pourrait contribuer à jouer un rôle.

je pourrais imaginer [Congress] en adoptant une loi qui, par exemple, accordait des dispositions de sphère de sécurité aux personnes archivant du contenu à des fins d’éducation ou de recherche, dit-il.

Technologie scientifique

Histoires récentes

Actualités, découvertes et analyses du monde entier

www.actusduweb.com
Suivez Actusduweb sur Google News


Ce site utilise des cookies pour améliorer votre expérience. Nous supposerons que cela vous convient, mais vous pouvez vous désinscrire si vous le souhaitez. J'accepte Lire la suite