Le travail en constante expansion de la préservation des backpages Internet
Dans les murs d’une belle ancienne église du quartier Richmond de San Francisco, des racks de serveurs informatiques bourdonnent et clignotent d’activité. Ils contiennent Internet. Eh bien, une très grande quantité.
Internet Archive, une organisation à but non lucratif, collecte des pages Web depuis 1996 pour sa célèbre et bien-aimée Wayback Machine. En 1997, la collection s’élevait à 2 téraoctets de données. Colossal à l’époque, vous pouviez l’installer sur une clé USB à 50 $ maintenant.
Aujourd’hui, me dit le fondateur des archives, Brewster Kahle, le projet est sur le point de dépasser les 100 pétaoctets, soit environ 50 000 fois plus qu’en 1997. Il contient plus de 700 milliards de pages Web.
Le travail ne devient pas plus facile. Les sites Web d’aujourd’hui sont très dynamiques et changent à chaque actualisation. Les jardins clos comme Facebook sont une source de grande frustration pour Kahle, qui craint qu’une grande partie de l’activité politique qui s’est déroulée sur la plate-forme ne soit perdue pour l’histoire si elle n’est pas correctement capturée. Au nom de la confidentialité et de la sécurité, Facebook (et d’autres) rendent le scraping difficile.
Les murs payants des organes de presse (tels que les FT) sont également problématiques, dit Kahle. L’archivage des actualités était autrefois pris très au sérieux, mais un changement de propriétaire ou même une simple refonte du site peut entraîner la disparition du contenu. La journaliste technologique Kara Swisher a récemment déploré que certains de ses premiers travaux au Wall Street Journal soient devenus vains, après que le journal ait refusé de lui vendre le matériel il y a plusieurs années.
Alors que nous commençons à explorer les possibilités du métaverse, le travail des archives Internet ne fera que devenir encore plus complexe. Sa mission est de fournir un accès universel à toutes les connaissances, en archivant audio, vidéo, jeux vidéo, livres, magazines et logiciels. Actuellement, il s’efforce de préserver le travail des agences de presse indépendantes en Iran et stocke les émissions d’information télévisées russes. Parfois, garder des choses en ligne peut être un acte de justice, de protestation ou de responsabilité.
Pourtant, certains se demandent si Internet Archive a le droit de fournir le matériel. Il est actuellement poursuivi par plusieurs grands éditeurs de livres pour sa plateforme de prêt OpenLibrary pour les livres électroniques, qui permet aux utilisateurs d’emprunter un nombre limité de livres électroniques jusqu’à 14 jours. Les éditeurs affirment que cela nuit aux revenus.
Kahle dit que c’est ridicule. Il aime décrire la tâche des archives comme n’étant pas différente d’une bibliothèque traditionnelle. Mais alors qu’un livre ne disparaît pas d’une étagère si l’éditeur fait faillite, le contenu numérique est plus vulnérable. Vous ne pouvez pas posséder une émission Netflix. Les articles de presse ne sont là que tant que les éditeurs le souhaitent. Même les chansons que nous payons pour télécharger sont rarement les nôtres, elles sont simplement sous licence.
Mis en place de manière à ne dépendre de personne d’autre, Internet Archive a créé sa propre infrastructure de serveur, en grande partie hébergée au sein de l’église, plutôt que d’utiliser un hôte tiers tel qu’Amazon ou Google. Tout cela coûte 25 millions de dollars par an. Une aubaine, dit Kahle, soulignant que le système de bibliothèques publiques de San Francisco coûte à lui seul 171 millions de dollars.
À moins que nous pensions que la première version de l’histoire d’aujourd’hui ne vaut pas la peine d’être préservée, les actes de disparition d’Internet devraient tous nous troubler. Considérez à quel point la couverture de la mort de la reine Elizabeth aurait été creuse si elle n’avait pas été illustrée par des documents d’archives approfondis.
Pouvons-nous dire avec certitude que le journalisme produit autour de sa mort sera aussi accessible même dans 20 ans ? Et qu’en est-il de toutes les publications sur les réseaux sociaux faites par des gens ordinaires ? On en viendra à regretter de ne pas avoir préservé avec compétence le quotidien sur internet.
Dave Lee est correspondant du FT à San Francisco