Je vous met ici le compte rendu final: il est intéressant car il explique (en gros) comment est gérée énergétiquement une salle réseau et quels sont les problèmes d'alimentation qui peuvent survenir en cas d'incident. Cela montre aussi qu'un accident est souvent une succession d'incident mineur et qu'une simple vérification manquante (en l'occurence la remise sur le monde automatique) peut aboutir à une "catastrophe".
Cher Client,
Après plus de 20h sur le pied de guerre, nous pouvons enfin vous donner quelques explications sur l'incident technique majeur que nous avons rencontré entre le 10 mai 17h et le 11 mai 15h30 (heure ou l'ensemble des services sont opérationnels a 100%).
Il s'agit d'un incident exceptionnel dans sa nature comme dans ses consequences...
Le résumé :
Hier vers 16h15 l'alimentation EDF (GEG) du batiment a disjoncté au niveau de la cellule située à l'exterieur du batiment. Nous ne connaissons (et GEG ne connait pas les raisons précises qui font que l'alimentation a coupé)..
Dans pareille situation, l'alimentation des serveurs ne doit pas couper puisque le batiment est sécurisé par 3 gros onduleurs ainsi qu'un groupe électrogene gazole de 400kva. Le systeme fonctionne normalement bien puisque nous avons deja vecu une coupure EDF il y a une semaine et cela n'avait pas eu d'incidence.
Cela ne s'est pas passé ainsi hier comme vous avez pu le constater.
Le Personnel de Cogent (groupe internationnal qui exploite ce datacenter) est intervenu en debut de semaine afin d'effectuer une maintenance et des tests sur le groupe électrogene Gazole. Les personnes qui sont intervenues n'ont visiblement pas repassé le groupe en mode de demarrage automatique pour que celui-ci demarre dès qu'il detecte qu'il n'y a plus de courant EDF.
Le resultat a été sans appel : le groupe ne demarrant pas, les onduleurs se sont totalement vidés et les serveurs n'ont plus été alimentés.
Par ailleurs, le site est normalement monitoré depuis plusieurs noc situés a Paris, New york et depuis l'Espagne afin que ce type de soucis puisse etre detecté très vite par Cogent et pour qu'ils puissent intervenir. Cette fois-ci cela n'a pas fonctionné puisqu'il y avait un incident sur le systeme de monitoring depuis quelques jours. (qui doit etre réglé ce jour ou demain).
PHPNET était présent sur le site moins de 10 minutes apres la coupure electrique des serveurs afin d'une part de faire demarrer le groupe electrogene manuellement pour retablir le courant et d'autre part de redemarrer l'ensemble des serveurs.
Comme un problème n'arrive jamais seul... Lorsque GEG a rétabli le courant secteur, le systeme de basculement automatique a tenté de rebasculer dessus et c'est la que nous avons connu notre
deuxieme coupure electrique...
En effet la procedure normale de basculement est : edf => onduleurs => groupe eletrogene.A l'inverse pour repasser sur edf, le circuit est goupe electrogene => onduleurs => edf.
Les onduleurs n'ayant pas eu le temps de se recharger suffisament, l'alimention a de nouveau ete coupée pour les serveurs.
Pour couronner le tout, l'alimention EDF a de nouveau disjoncté quelques minutes apres la bascule car la consommation électrique du site etait trop importante. Les blocs de climatisation ainsi que les serveurs consommant deux a 3 fois plus d'electricité au demarrage, la consommation a depassé les reglages presents à l'exterieur du batiment, engendrant une nouvelle coupure pour les serveurs.
Nous avons donc dû couper les systemes de climatisation et redémarrer chaque partie du batiment en respectant un certain delai, de maniere a ne pas faire redisjoncter.
Ces nombreuses coupures electriques ont provoqué la perte de nombreux disques durs dans les serveurs et (surtout) la perte de plusieurs systèmes de fichiers. Nous avons neanmoins basculé avec succès sur notre systeme de secours hier soir pendant quelques heures.
Le serveur de mails 1 (cluster1) a du etre restauré sur notre derniere sauvegarde vu que ses données n'etaient pas recuperables. La situation est fixée desormais.
Aujourd'hui la responsabilité de cet incident doit etre reportée sur Cogent qui aurait du s'assurer que le groupe était bien en mode de démarrage automatique et surtout surveiller correctement
le datacenter pour intervenir avant que les onduleurs soient vides.
Nous allons engager les négociations nécessaires pour obtenir réparation financière qui sera repercutée sur votre abonnement PHPNET a hauteur de la coupure que vous avez subie.
Diverses solutions concernant l'aménagement d'un datacenter sont encours d'étude coté PHPNET car nous ne voulons plus dépendre du bon vouloir de prestataires comme Cogent ou Redbus.
Nous vous tiendrons informés sur ce projet qui doit aboutir dans les 12 mois a venir.
Toute l'equipe de PHPNET se joint a moi pour vous remercier de votre compréhension et pour nous excuser de la gène que cela aura pu vous occasionner.
Excellent weekend a vous,
----
PHPNET
123 ter Cours de la libération
38100 GRENOBLE