Une visite aux archives physiques de l’Internet

Airtel Zambia et ZIBC proposent aux PME des appareils…

Alors que j’étais à San Francisco pour le AI Engineer Summit plus tôt ce mois-ci, j’en ai profité pour visiter Internet Archive – les véritables archives physiques de la ville californienne de Richmond, à environ vingt minutes de route de San Francisco.

J’avais acheté un billet pour « découvrir les coulisses des archives physiques » le mercredi 11 octobre et je suis arrivé juste avant l’heure de départ de 18 heures. J’étais content de ne pas être arrivé plus tôt, car le L’emplacement des archives physiques était (sans surprise) un entrepôt dans un quartier industriel de Richmond. Il ne semblait y avoir rien d’autre à faire dans le coin.

J’avais demandé au chauffeur Uber de me déposer dans un parking avec un panneau Internet Archive. Mais en regardant autour de moi, je n’ai pas pu voir d’entrée publique vers l’entrepôt. Il y avait quelques autres nerds de l’histoire d’Internet à l’air confus, alors nous nous sommes présentés maladroitement et avons discuté pour savoir si nous étions au bon endroit. Finalement, quelques personnes au bout de la rue, à environ 200 mètres, nous ont repérés et nous ont fait signe de nous rejoindre.

Archives physiques Internet Archive, Richmond, Californie.

Il s’est avéré qu’un groupe de personnes s’était déjà installé confortablement à l’intérieur du bâtiment principal, buvant des coca-cola, des bières ou de l’eau minérale gratuits et mangeant des amuse-gueules. La foule était un mélange de personnes plus âgées (peut-être de la génération qui travaillait dans la Silicon Valley dans les années 1960 et 1970) et de jeunes geeks (je suppose que beaucoup étaient soit des bibliothécaires, soit des webheads professionnels – moi étant un exemple de ce dernier).

Lorsque la visite a commencé, environ une demi-heure plus tard, trente ou quarante personnes se sont rassemblées devant un homme enthousiaste en chemise rouge et aux cheveux gris clairsemés. Il était bien sûr le fondateur d’Internet Archive, Brewster Kahle. Au début, j’ai été surpris qu’il dirige lui-même la tournée, mais il est vite devenu clair que Kahle vit et respire la mission d’Internet Archive. Il a commencé par nous montrer les conteneurs d’expédition remplis de vieux livres et d’autres documents, tout en évoquant quelques faits (« Internet Archive est une bibliothèque à but non lucratif ; nous l’avons lancée il y a 27 ans, 1996. »).

Brewster Kahle devant des conteneurs (réels et physiques).

Plus tard au cours de la tournée, Kahle a fait une démonstration enthousiaste de la machine de numérisation de livres, a souligné des piles de boîtes offertes aux archives (remplies de livres, de vidéos, de disques, de disques, de cassettes et d’autres supports) et s’est tenu fièrement sur le côté pendant que son film Les archivistes nous ont expliqué comment ils convertissaient des vidéos personnelles vintage en fichiers numériques haute résolution. C’était un regard fascinant sur les opérations quotidiennes d’Internet Archive, dont le personnel est composé d’un certain nombre de Californiens sympathiques et probablement à l’esprit libéral, dont le fils de Brewster, Caslon.

Ce que stockent les archives Internet

Internet Archive est peut-être surtout connu pour sa Wayback Machine, qui a fait ses débuts en 2001 et archive des pages Web depuis 1996. « Nous collectons environ un milliard d’URL chaque jour, un nombre étonnamment élevé », a déclaré Kahle lors de sa tournée. . « Et la collection Wayback Machine compte désormais deux mille cinq cents milliards d’URL, ces anciennes pages Web. Et il est interrogé environ six ou sept mille fois par seconde.

Mais les archives physiques, comme leur nom informel l’indique, sont un dépôt de physique médias – livres, catalogues, vieux disques informatiques, films, disques et cassettes, et bien plus encore. Lorsqu’un nouveau média arrive, le personnel d’Internet Archive décide d’abord s’il s’agit d’une copie de quelque chose qu’il possède déjà – un processus qu’il appelle « déduplication ». S’il s’agit d’une dupe, elle est jetée ou donnée. Dans le cas contraire, il est numérisé puis l’élément physique est stocké. (En passant, Internet Archive indique qu’il ne met à disposition des copies numériques d’un livre que s’il possède la copie physique.)

Un scanner de films vintage spécialement conçu sur Internet Archive.

« Nous numérisons des livres depuis le début des années 2000 », a déclaré Kahle, « et nous avons fini par construire nos propres scanners de livres. » Il a ajouté que l’IA numérise « environ un million de livres par an » et qu’ils ont numérisé de l’ordre de 7 à 8 millions de livres au total (sur sa page À propos, l’IA dit avoir « 41 millions de livres et de textes », donc le la majorité d’entre eux doivent être des éléments de texte autres que des livres).

Quant à la musique, il s’agit d’un type de média qui a historiquement eu plusieurs formats : LP, CD, cassettes, MP3, etc. Kahle était particulièrement enthousiasmé par les disques 78 tours, qui, selon lui, existaient entre 1900 et 1950 environ. ou 3 millions d’entre eux », a-t-il déclaré, «[and] nous en avons numérisé environ 450 000. »

Des boîtes d’articles médiatiques, surmontées d’une découpe en carton de Dark Vador.

« Nous essayons de travailler sur tous les types de médias », a poursuivi Kahle. « Et ce que j’ai découvert, c’est qu’au moment où […] les choses deviennent obsolètes, ça va de plus en plus vite. […] Non seulement vous n’avez pas accès aux mêmes choses ; même si vous y avez accès, il ne vous est pas présenté de manière à ce que vous l’utilisiez réellement.

Remarque : Si vous souhaitez faire don d’éléments à Internet Archive, consultez cette page Web pour obtenir la liste des types de médias qu’elle accepte actuellement.

Comment les archives Internet continuent de fonctionner

Un membre du groupe a demandé à Kahle à quelle fréquence l’IA devait acheter de nouveaux serveurs pour stocker cet afflux constant de nouveaux médias.

« En continu », a-t-il répondu. « Nous achetons une nouvelle paire de racks, car ils sont toujours livrés par paire, tous les deux mois. [or] trois mois. […] Dans un rack, vous pouvez désormais stocker environ cinq pétaoctets.

Deux générations précédentes de machines de stockage Internet Archive ; à gauche, le StorageTek 9710 des années 1990, et à droite la PetaBox de première génération (2004).

Bien sûr, l’IA a fait l’actualité cette année en raison d’attaques juridiques de la part de l’industrie de l’édition de livres et de l’industrie de la musique (cette dernière concernant le projet de disques 78 tours). Kahle a fait plusieurs commentaires snipers sur ces contestations judiciaires au cours de la tournée, mais il était clair que cela avait eu des conséquences néfastes sur l’IA. « Cela est encore en instance devant les tribunaux », soupire-t-il, à propos du procès des éditeurs de livres, « et c’est incroyablement cher. »

Alors, comment l’IA survit-elle ? Kahle a déclaré que l’IA fonctionne principalement grâce aux dons de 110 000 personnes, pour une moyenne d’environ 5 dollars par personne, ainsi qu’à « des fondations qui nous donnent d’importantes sommes d’argent ». L’IA propose également des services d’abonnement aux bibliothèques et à d’autres organisations.

« Nous survivons également en ne dépensant pas beaucoup », a-t-il ajouté. « Je veux dire, vous remarquez que les serveurs n’ont pas de climatisation, n’est-ce pas ? S’il fait chaud, on ouvre simplement les fenêtres. Donc c’est vert. Mais c’est aussi peu coûteux.

En dehors des archives Internet physiques à Richmond, en Californie. Une soirée amusante pour un passionné d’histoire d’Internet !

Richard MacManus est rédacteur en chef chez The New Stack et écrit sur les tendances en matière de développement Web et d’applications. Auparavant, il a fondé ReadWriteWeb en 2003 et en a fait l’un des sites d’actualités technologiques les plus influents au monde. Dès le début…

Similaire

Similaire

Une visite aux archives physiques de l’Internet

Ce que stockent les archives Internet

Comment les archives Internet continuent de fonctionner

www.actusduweb.com

Suivez Actusduweb sur Google News

Similaire