Les enjeux de l’archivage d’internet – Marketplace
Internet est l’endroit où une grande partie de ce qui se passe dans notre monde est archivée. Mais où Internet est-il archivé ?
Il existe des projets dans le monde entier, comme Internet Archive, pour tenter de préserver certains contenus en ligne.
Meghan McCarty Carino de Marketplace s’est entretenue avec Kayla Harris, professeure et directrice de la Marian Library de l’Université de Dayton, pour savoir si le travail d’archivage actuel est suffisant.
Ce qui suit est une transcription éditée de leur conversation.
Kayla Harris : Je dirais non, car c’est un mélange de défis techniques pour archiver cette quantité massive, mais aussi, je pense, il s’agit du côté humain des choses et d’amener les gens à se soucier de la raison pour laquelle nous voudrions préserver ces choses en premier lieu . Et je pense qu’il y a cette idée fausse très répandue selon laquelle, eh bien, si c’est sur Internet, c’est là pour toujours. Et donc il n’y a pas de compréhension que non, ce n’est pas nécessairement là pour toujours et quelqu’un ou quelque chose doit le sauver si vous voulez qu’il soit là pour toujours.
Meghan McCarty Carino : Pouvez-vous penser à des exemples flagrants de quelque chose qui n’est pas là pour toujours sur Internet et que vous souhaiteriez voir encore là ?
Harris : Je pense que c’est en partie dû au fait que, même si parfois un site Web existe toujours, les sites Web ont souvent un contenu dynamique. Ainsi, même si le site Web lui-même est peut-être toujours là, comme par exemple un site Web d’actualités qui change constamment avec les derniers titres, même si le site lui-même est peut-être toujours là, peut-être que le genre d’actualité flash-in-the-pan n’est pas . Et, vous savez, surtout pendant COVID par exemple, beaucoup d’institutions, beaucoup d’organisations, vous savez, mettaient des choses sur leur site Web, comme « maintenant fermé », « nous sommes fermés indéfiniment ». Et puis, quand les choses s’ouvriraient, ils mettraient cela à jour, d’accord, parce que vous voulez que les gens aient sur votre site Web les informations les plus à jour. Mais si la page n’a pas été archivée, alors qu’elle disait autre chose, alors elle est partie. Et cette partie est un peu plus difficile, je pense, à comprendre pour les gens. Les pages Web et les sites Web sont si dynamiques que le tout est peut-être toujours là, mais pas les éléments individuels.
McCarty Carino : J’y ai beaucoup réfléchi en fait. Quand je pense à une sorte de, vous savez, de documenter historiquement la pandémie et de regarder, vous savez, les documentaires de Ken Burns, où il y a tellement de matériel écrit sur ces différents passages de l’histoire, et une grande partie de notre documentation sur la pandémie n’est que du matériel numérique qui pourrait pas toujours là.
Harris : Oui, je veux dire, les archivistes, les professionnels du patrimoine culturel, en particulier pendant la pandémie, beaucoup d’entre eux faisaient des comparaisons avec la pandémie de 1918 et les types de documents et de documents et même les récits personnels que nous avions alors. Mais comment ces choses sont-elles communiquées aujourd’hui ? Et s’il est en ligne, nous devons le sauvegarder activement, sinon il ne sera pas là pour que les gens du futur puissent se comparer à la pandémie de 2020.
McCarty Carino : Quels sont certains des obstacles techniques que vous avez mentionnés à l’archivage du contenu Internet ?
Harris : Une sorte de simple est que les sites Web sont censés être dynamiques. Contrairement à l’archivage ou à la collecte d’autres éléments matériels du patrimoine culturel, qu’il s’agisse de livres, d’artefacts, etc., ils sont stables, ils ont une sorte de « fixité » avec eux. Les sites Web changent constamment. Cela peut être le contenu de la page d’accueil, le style de conception que vous connaissez, les premiers sites Web que nous utilisons, des gifs HTML flashy et ce genre de choses. Et puis nous mettons à jour et maintenant nous rendons nos sites Web plus accessibles et adaptatifs. Mais aussi des choses comme l’URL. Une partie du genre de difficulté est qu’il n’y a pas vraiment de consensus clair sur ce qui constitue un site Web. Est-ce son contenu ? Ou est-ce l’URL, le domaine dans lequel il vit ? Et sur la Wayback Machine d’Internet Archive, que les gens peuvent utiliser pour naviguer et voir ces itérations précédentes de sites Web qui sont capturées, c’est par domaine. Donc, parfois, ceux-ci changent. Donc quelque chose comme, vous savez, CNN.com a peut-être toujours été CNN. Mais s’il y avait une autre URL qui appartenait à quelqu’un d’autre, alors ce contenu sera là, et il est plus difficile de retracer cet historique.
McCarty Carino : Je peux aussi voir une sorte de défi de, vous savez, à qui appartient ce domaine ? Parce que l’une des choses qui font d’Internet ce qu’il est, c’est juste une sorte de réseau ouvert dont personne n’est responsable. Alors qui est chargé de l’archiver ?
Harris : Exactement. Et c’est, je pense, là encore que le côté humain entre en jeu, et malheureusement, ou peut-être heureusement, le côté humain présente également des préjugés. Donc, tout comme dans une archive physique, il y a un archiviste ou plusieurs archivistes qui sélectionnent les matériaux qu’ils croient être historiquement précieux, qu’ils préservent d’une manière ou d’une autre du patrimoine culturel. Et donc il y aura un parti pris inhérent à cela, parce que ce que je pense être important pour les générations futures peut ne pas être exactement la même chose que quelqu’un d’autre pense être important. Il n’y a pas vraiment la possibilité de tout archiver, donc ce qui est archivé est souvent sélectif. Et cela pourrait être sélectionné par une personne, par des groupes d’individus. Mais il va y avoir des préjugés introduits sur le patrimoine culturel qui vaut la peine d’être sauvegardé sur Internet.
McCarty Carino : Quels types de préoccupations éthiques tout cela soulève-t-il ?
Harris : Je pense qu’en raison de la façon dont nous considérons le Web comme une chose dynamique et changeante, tous ceux qui créent du contenu Web, qu’il s’agisse d’un site Web ou de médias sociaux, par exemple, ne s’attendent pas à ce qu’il soit permanent. Et donc, vous savez, cela se retrouve dans des situations éthiquement risquées lorsque l’on pense à des choses que les gens ont l’intention de publier en ligne comme une sorte d’éphémère, puis par quelqu’un qui choisit de l’archiver sans autorisation, c’est une toute autre chose, vous savez, trouver le créateur demandant la permission, etc. Est-il vraiment juste que cette personne enregistre le contenu de quelqu’un d’autre ou que cette organisation enregistre le contenu d’une autre communauté ? Je pense que cela ressort de certains mouvements de protestation. Parfois, les archivistes et autres inclus, se laissent emporter par cette idée de « Eh bien, nous devons documenter, nous devons préserver. Mais pour des choses comme des manifestations ou des rassemblements, les personnes qui sont là physiquement en personne ne comptent pas nécessairement sur le fait que leur photo sera prise et mise en ligne, puis archivée pour toujours.
McCarty Carino : Quel type de contenu craignez-vous le plus de perdre pour toujours ?
Harris : Il existe actuellement un collectif qui s’appelle Saving Ukrainian Cultural Heritage Online, ou SUCHO. Et quand on pense à la destruction du patrimoine culturel, c’est parfois facile à comprendre comme, eh bien, si quelqu’un bombarde un autre pays et qu’il détruit ces sites du patrimoine mondial, c’est tangible et facile à voir. Mais que se passe-t-il également lorsque les sites Web sont mis hors ligne et les éléments en ligne qui constituent leur patrimoine culturel ? Le journalisme local en est un autre qui me tient à coeur. Et il y a eu une étude réalisée par le Tow Center for Digital Journalism de l’Université de Columbia il y a quelques années, et ils l’ont appelée « The Dire State of News Archiving in the Digital Age », parce qu’ils ont parlé à ces petits organes de presse de ce qu’ils avaient en place pour l’archivage de leur contenu. Et la plupart d’entre eux, a) ne savaient pas ce que cela signifiait, ou b) pensaient que s’ils avaient un document Google et qu’ils le sauvegardaient quelque part, c’était de l’archivage. Et donc, je pense que cela suscite beaucoup d’inquiétudes. Les nouvelles locales sont vraiment importantes à comprendre dans une communauté. Et encore une fois, cela revient à la question humaine : les gens doivent vouloir se soucier de préserver ce contenu.
McCarty Carino : Alors, que perdons-nous si nous perdons ce type de contenu ?
Harris : Je pense, vous savez, à notre héritage culturel, à notre humanité. Je suis sûr que tout le monde a écrit un article sur les réseaux sociaux ou un tweet ou quelque chose du genre « Ouais, cela n’a pas besoin de vivre à perpétuité pour documenter ce que c’était que de vivre à cette époque. » Mais il y a beaucoup d’autres choses sur Internet qui valent la peine d’être sauvegardées. Il y a une citation de quelqu’un, une universitaire, Megan Sapnar Ankerson. Et elle a dit: « Il est beaucoup plus facile de trouver un exemple de film de 1924 qu’un site Web de 1994. » Et donc ce média physique, vous savez, les arts, les sciences humaines, tout est capturé dans ce physique, dans les livres et les films, dans les pièces de théâtre, les opéras et ce genre de choses. Ce patrimoine culturel qui se passe en ligne maintenant, si nous ne le sauvegardons pas, vers quoi les générations futures vont-elles se tourner ?
En parlant de perte de contenu, Google a récemment annoncé des mises à jour de sa politique sur les comptes inactifs.
Fondamentalement, si un compte est inactif depuis deux ans ou plus, il est possible qu’il soit entièrement supprimé.
Cela a inquiété les gens que la même chose arriverait aux comptes inactifs sur YouTube, qui appartient à Google, ce qui signifie que les vidéos vieilles de plus de dix ans, dont certaines définissaient le contenu des débuts de YouTube, seraient également supprimées.
Un représentant de Google a précisé plus tard que cette politique ne s’appliquerait pas aux comptes YouTube, donc pour l’instant, il semble que ces premières vidéos définissant le genre comme « Zombie Kid Likes Turtles » ou « Keyboard Cat » ne seront pas encore perdues pour la postérité. .