Les récents problèmes d’AWS illustrent la puissance et la fragilité du cloud computing

Recevez des mises à jour en temps réel directement sur votre appareil, abonnez-vous maintenant.

Au cours des deux premières semaines de ce mois, Amazon Web Services (AWS) a rencontré des problèmes qui ont provoqué deux pannes : une plus grande et plus répandue le 7 décembre et une plus petite et plus localisée le 15 décembre. Les deux ont catalysé des perturbations dans un gamme de sites Web et d’applications en ligne, notamment Google, Slack, Disney Plus, Amazon, Venmo, Tinder, iRobot, Coinbase et The Washington Post. Ces services reposent tous sur AWS pour leur fournir du cloud computing. En fait, AWS est le principal fournisseur de cloud computing parmi d’autres grands acteurs tels que Microsoft Azure, Google, IBM et Alibaba.

Pour comprendre pourquoi l’impact a été si important et quelles mesures les entreprises peuvent prendre pour éviter ce genre de perturbations à l’avenir, il est logique de prendre du recul et de jeter un œil à ce qu’est le cloud computing et à quoi il sert.

Alors, qu’est-ce que le cloud computing et AWS ?

Chaque fois que vous vous connectez à quoi que ce soit sur Internet, votre ordinateur ne fait essentiellement que parler à un autre ordinateur. Un serveur est un type d’ordinateur capable de traiter les demandes et de fournir des données à d’autres ordinateurs du même réseau ou via Internet.

Mais exécuter votre propre serveur n’est pas bon marché. Vous devez acheter la boîte de matériel, l’installer quelque part et lui donner beaucoup d’énergie. Dans de nombreux cas, il a également besoin d’une connexion Internet. Ensuite, pour s’assurer que les données sont reçues et envoyées dans des délais minimes, ces serveurs doivent être physiquement proches de leurs utilisateurs.

De plus, vous devez installer un logiciel qui doit être mis à jour régulièrement. Et vous devez créer des mécanismes de sécurité qui basculeront les opérations sur un autre serveur en cas de dysfonctionnement d’un serveur principal.

[Related: Facebook has an explanation for its massive Monday outage]

Ce que des entreprises comme Amazon ont remarqué, c’est que beaucoup de [computing infrastructure] n’est pas vraiment spécifique au service que vous exécutez, explique Justine Sherry, professeure adjointe à l’Université Carnegie Mellon.

Par exemple, le code exécutant Netflix fait quelque chose de différent par rapport au code exécutant un service comme Venmo. Le code Netflix diffuse des vidéos aux utilisateurs et le code Venmo facilite les transactions financières. Mais en dessous, la plupart du travail informatique est en fait le même.

C’est là qu’interviennent les fournisseurs de cloud. Ils ont généralement des centaines à des milliers de serveurs dans tout le pays avec une bonne bande passante. Ils proposent de prendre en charge les tâches fastidieuses telles que la sécurité, la gestion quotidienne des opérations du centre de données et la mise à l’échelle des services si nécessaire.

Ensuite, vous pouvez vous concentrer sur votre [specialized] code. Écrivez simplement la partie qui fait fonctionner la vidéo ou la partie qui fait fonctionner les transactions financières. C’est plus facile, c’est moins cher car Amazon le fait pour beaucoup, beaucoup de clients. Sherry explique. Mais il y a aussi des inconvénients, à savoir que tout le monde dans le monde compte sur les mêmes entrepôts de la taille de Costco remplis d’ordinateurs. Il y en a des dizaines à travers les États-Unis. Mais quand l’un d’eux tombe en panne, c’est catastrophique.

Qu’est-ce qui n’a pas fonctionné avec AWS les 7 et 15 décembre

Ce qui a causé les pannes d’AWS semblait être lié à des erreurs avec les systèmes automatisés gérant le flux de données dans les coulisses.

AWS a expliqué dans un article que l’erreur du 7 décembre était due à un problème d’activité automatisée pour faire évoluer la capacité de l’un des services AWS hébergés sur le réseau AWS principal, ce qui a entraîné une forte augmentation de l’activité de connexion qui a submergé les périphériques réseau entre le réseau interne et le réseau AWS principal, entraînant des retards de communication entre ces réseaux.

[Related: A Look Inside the Data Centers of The Cloud]

Cette capacité de mise à l’échelle automatique permet à l’ensemble du système d’ajuster le nombre de serveurs qu’il utilise en fonction du nombre d’utilisateurs sur le réseau. L’idée est que si j’ai 100 utilisateurs à 7 heures du matin, puis à midi, tout le monde est en pause déjeuner sur Amazon et maintenant j’ai 1 000 utilisateurs, j’ai besoin de 10 fois plus d’ordinateurs pour interagir avec tous ces clients, explique Sherry. Ces frameworks examinent automatiquement l’ampleur de la demande et peuvent consacrer plus de serveurs à faire ce qui est nécessaire quand c’est nécessaire.

Plus tard le 15 décembre, une mise à jour de statut publiée par AWS a déclaré que la panne était due à une ingénierie du trafic déplaçant de manière incorrecte plus de trafic que prévu vers des parties du backbone AWS qui affectaient la connectivité à un sous-ensemble de destinations Internet.

Les grands centres de données disposent de nombreuses connexions Internet via différents fournisseurs de services Internet. Ils peuvent choisir où le trafic en ligne est acheminé, qu’il s’agisse d’un câble via AT&T ou d’un autre câble via Sprint.

Leur ingénierie automatique du trafic décide de réacheminer le trafic en fonction d’un certain nombre de conditions. La plupart des fournisseurs vont rediriger le trafic principalement en fonction de la charge. Ils veulent s’assurer que les choses sont relativement équilibrées, dit Sherry. On dirait que l’auto-adaptation a échoué le 15, et ils ont fini par acheminer trop de trafic sur une seule connexion. Vous pouvez littéralement y penser comme un tuyau qui a eu trop d’eau et l’eau sort des coutures. Ces données finissent par être supprimées et disparaissent.

Malgré quelques pannes courantes au cours des dernières années, Sherry affirme qu’AWS est assez bon pour gérer son infrastructure. Par nature, il est très difficile de concevoir des algorithmes parfaits capables d’anticiper tous les problèmes, et les bogues sont une partie ennuyeuse mais régulière du développement de logiciels. La seule chose qui est unique dans la situation du cloud est l’impact.

[Related: Amazons venture into the bizarre world of quantum computing has a new home base]

Un nombre croissant d’entreprises indépendantes se tournent vers des services centralisés tiers comme AWS pour l’infrastructure cloud, le stockage, etc.

Si je paie Amazon pour gérer un centre de données pour moi, stocker mes fichiers et servir mes clients, ils feront un meilleur travail que je ne peux le faire en tant qu’administrateur d’université ou en tant qu’administrateur d’une petite entreprise, déclare Sherry. Mais d’un point de vue sociétal, lorsque tous ces petits acteurs individuels décident d’externaliser vers le cloud, nous nous retrouvons avec une très grande dépendance centralisée.

Retour aux sources?

Pendant le temps qu’AWS est sorti, Sherry ne pouvait pas contrôler sa télévision. Normalement, elle utilise son téléphone comme télécommande. Mais le téléphone ne parle pas directement au téléviseur. Au lieu de cela, le téléphone et le téléviseur parlent tous deux à un serveur dans le cloud, et ce serveur orchestre cela entre les deux. Le cloud est essentiel pour certaines fonctions, comme le téléchargement de mises à jour logicielles automatiques. Mais pour faire défiler les offres de câble disponibles à partir d’une antenne ou d’un satellite, il n’y a aucune raison que cela se produise, dit-elle. Étaient dans la même pièce, étaient sur le même réseau sans fil, tout ce que j’essaie de faire est de changer de canal. En bref, le cloud peut offrir des solutions technologiques pratiques dans certains cas, mais pas dans tous.

[Related: This Is Why Microsoft Is Putting Data Servers In The Ocean]

Un compte rendu d’une technologie abandonnée qui l’a le plus frappée comme une conception inutilement détournée était une mangeoire pour chats chronométrée qui devait passer par le nuage. Les mangeoires automatisées pour chats existent bien avant le cloud. Ils sont essentiellement couplés à un réveil. Mais pour une raison quelconque, quelqu’un a décidé que plutôt que de construire la partie réveil dans la mangeoire pour chat, ils allaient mettre la mangeoire réveil dans le cloud, et faire en sorte que la mangeoire pour chat aille sur Internet et demande au cloud, est-il temps nourrir le chat ? dit Sherry. Il n’y a aucune raison que cela ait besoin d’être mis dans le cloud.

À l’avenir, elle pense que les développeurs d’applications devraient examiner chaque fonctionnalité destinée au cloud et demander si cela peut fonctionner sans le cloud, ou au moins avoir un mode hors ligne qui n’est pas aussi complètement débilitant lors d’une panne d’Internet, d’un centre de données ou même d’une panne de courant. .

Il y a d’autres choses qui ne fonctionneront probablement pas. Vous ne pourrez probablement pas vous connecter à votre banque en ligne si vous ne pouvez pas accéder au serveur de la banque, explique Sherry. Mais tant de choses qui ont échoué sont des choses qui n’auraient vraiment pas dû échouer.

www.actusduweb.com
Suivez Actusduweb sur Google News


Recevez des mises à jour en temps réel directement sur votre appareil, abonnez-vous maintenant.

commentaires

Ce site utilise des cookies pour améliorer votre expérience. Nous supposerons que cela vous convient, mais vous pouvez vous désinscrire si vous le souhaitez. J'accepte Lire la suite