Qu’est-ce qui a causé la panne d’Internet qui a fait tomber Amazon, Reddit et Gov.uk ?
Que s’est-il passé?
Pendant 45 minutes le matin au Royaume-Uni, une partie importante du Web n’a pas fonctionné. Les personnes essayant de visiter un large éventail de sites Web, du Guardian à Gov.uk en passant par Reddit, Hulu et la Maison Blanche, ont reçu une page blanche vierge et un message d’erreur leur indiquant que la connexion n’était pas disponible.
Les erreurs se sont concentrées sur de grands sites Web avec un trafic important, mais n’étaient pas universelles : les utilisateurs de certains endroits, tels que Berlin, en Allemagne, n’ont signalé aucun problème tout au long de la panne.
Pourquoi sont-ils tous déconnectés ?
La cause de la panne a été rapidement identifiée comme un problème avec le fournisseur de cloud de périphérie Fastly. En quelques minutes, l’entreprise a admis sur une page d’état qu’elle rencontrait des problèmes. À l’exception de quelques fournisseurs, dont la BBC, qui disposaient de systèmes de sauvegarde, chaque site Web concerné a dû attendre que Fastly corrige l’erreur avant de pouvoir restaurer le service.
Que fait Fastly ?
La société propose un service de réseau de diffusion de contenu, ou CDN. Lorsqu’il fonctionne, un CDN est censé améliorer la vitesse et la fiabilité d’Internet. Au lieu que les visiteurs d’un site Web doivent tous se connecter à des serveurs gérés par cette entreprise qui ne se trouvent peut-être même pas dans le même pays, ils contactent plutôt Fastly, qui gère d’énormes fermes de serveurs dans le monde entier qui hébergent des copies des sites Web de leurs clients.
Cela signifie que la page se charge plus rapidement pour l’utilisateur, car les signaux physiques n’ont pas à voyager aussi loin. Il améliore également la fiabilité du site Web, en garantissant que s’il y a un gros pic de trafic, il frappe d’abord les serveurs Fastlys, qui sont conçus pour gérer beaucoup de trafic.
Fastly est-il un bon CDN ?
En temps normal, oui. La société est l’un des quelques principaux fournisseurs de CDN : les autres incluent Cloudflare et Amazons CloudFront. Mais, pour donner une idée du respect de Fastly, le site Web de vente au détail d’Amazon passe en fait par Fastly, plutôt que par CloudFront, et ce depuis mai 2020.
Qu’est-ce qui a cassé ?
Nous ne connaissons toujours pas les détails exacts. Un porte-parole de Fastly a déclaré : Nous avons identifié une configuration de service qui a déclenché des perturbations dans nos points de présence POP, le réseau mondial de fermes de serveurs que Fastly exécute à l’échelle mondiale et avons désactivé cette configuration. Notre réseau mondial revient en ligne. Il semble probable que le problème s’avérera être une simple erreur de configuration qui a conduit à un échec en cascade, car un petit problème en déclenche un plus gros, qui en déclenche un encore plus gros, et ainsi de suite.
Serait-ce une attaque ?
Avec Fastly imputant la panne à une configuration de service et aucune autre preuve du contraire, il est très peu probable que les problèmes soient le résultat d’une attaque malveillante. L’enquête sur une erreur similaire chez Cloudflare l’année dernière devrait donner une idée du type de problèmes qui pourraient survenir : là, une seule erreur sur une liaison physique entre Newark et Chicago a provoqué l’échec de cette connexion, ce qui a conduit à une surcharge du trafic d’une connexion entre Atlanta et Washington DC. Un changement d’urgence pour tenter de faire face à cette surcharge a plutôt envoyé tout le trafic de l’ensemble du réseau vers le centre de données d’Atlanta, qui s’est lui-même échoué et a causé la panne de l’ensemble du système.
Pourquoi est-il si facile pour Internet de tomber en panne ?
Le besoin croissant de vitesse en ligne a conduit à une grave concentration de l’infrastructure Internet entre les mains de quelques entreprises. Les réseaux de diffusion de contenu, comme ceux exploités par Fastly et Cloudflare, constituent un point d’étranglement. Un autre est celui des hôtes cloud, comme AWS (anciennement Amazon Web Services), Microsoft Azure et Google Cloud Platform. Ces fournisseurs échouent rarement, car ce sont de grands services spécialisés qui consacrent d’énormes ressources à la résilience et à la fiabilité. Mais parfois, souvent par erreur humaine, ils échouent et peuvent apporter un grand nombre de sites avec eux.
Il est possible qu’un site fonctionne sur deux ou plusieurs fournisseurs, pour fournir une sauvegarde en cas de panne, mais cela est coûteux, techniquement complexe et encore peu susceptible d’éviter des pannes à court terme. Gov.uk, par exemple, a exécuté un CDN de sauvegarde sur le service Amazons CloudFront, mais a nécessité une intervention manuelle pour passer à la sauvegarde.