Belle illustration de l’effet domino : jeudi soir, bon nombre de services populaires, de Spotify à Discord en passant par Gmail se sont trouvés très ralentis, voire totalement inaccessibles.
L’attention s’est d’abord portée vers Cloudflare, qui sert d’intermédiaire technique à la distribution de la plupart de ces sites et applications. L’entreprise américaine a en effet déclaré à 20h19 l’ouverture d’un incident entraînant des répercussions sur ses outils d’authentification, mais aussi sur la connectivité de ses services.
À 21 heures, Cloudflare parle de dysfonctionnements « intermittents », mais précise que ces derniers affectent les principaux composants de son infrastructure. À ce stade, la cause de la panne n’est pas encore publiquement identifiée.

Une heure plus tard, l’entreprise donne enfin une piste : « Le service critique Workers KV de Cloudflare a été mis hors ligne en raison d’une panne d’un service tiers essentiel. Par conséquent, certains produits Cloudflare qui s’appuient sur le service KV pour stocker et diffuser des informations sont indisponibles ».
Workers KV, c’est le service de stockage par l’intermédiaire duquel Cloudflare assure la réplication et la distribution au plus près des clients des contenus que l’entreprise distribue. Or ce service repose sur l’infrastructure d’un partenaire.
En l’occurrence, Google Cloud Platform, qui a lui aussi fait état d’un incident majeur jeudi soir, déclaré d’ailleurs jeudi à 20h46 heure française, soit après que Cloudflare a ouvert son propre ticket.
Le rapport d’incident de Google détaille le calendrier de la résolution du problème et la remise en service progressive des différents composants de GCP, mais il ne précise pas, à ce stade, les causes de la panne. Outre Cloudflare et ses clients, elle a par ailleurs directement affecté les services, grand public ou entreprise, de Google, comme en témoigne cet incident recensé au niveau des outils composants Workspace.
« Tous les services sont entièrement rétablis suite au problème. Nous publierons une analyse de cet incident une fois notre enquête interne terminée », a conclu Google, vendredi à 3h37.
Cloudflare a de son côté publié un post mortem détaillé, qui revient sur le déroulé exact de l’incident, et la façon dont les dysfonctionnements se sont propagés au sein de son infrastructure. L’éditeur y endosse sa part de responsabilité, avec des excuses qui illustrent bien les problématiques de centralisation des réseaux.
« Nous sommes profondément désolés pour cette panne : il s’agit d’une défaillance de notre part, et bien que la cause immédiate (ou le déclencheur) de cette panne soit une défaillance d’un fournisseur tiers, nous sommes en fin de compte responsables de nos dépendances choisies et de la manière dont nous choisissons de nous architecturer autour d’elles. »