Page 1 sur 1

Gestion électrique de salle réseaux de serveurs internet

Publié : 12/05/07, 13:09
par Christophe
Il y a 2 jours, un des hebergeurs chez qui j'ai un serveur a connu une panne électrique.

Je vous met ici le compte rendu final: il est intéressant car il explique (en gros) comment est gérée énergétiquement une salle réseau et quels sont les problèmes d'alimentation qui peuvent survenir en cas d'incident. Cela montre aussi qu'un accident est souvent une succession d'incident mineur et qu'une simple vérification manquante (en l'occurence la remise sur le monde automatique) peut aboutir à une "catastrophe".

Cher Client,

Après plus de 20h sur le pied de guerre, nous pouvons enfin vous donner quelques explications sur l'incident technique majeur que nous avons rencontré entre le 10 mai 17h et le 11 mai 15h30 (heure ou l'ensemble des services sont opérationnels a 100%).
Il s'agit d'un incident exceptionnel dans sa nature comme dans ses consequences...

Le résumé :

Hier vers 16h15 l'alimentation EDF (GEG) du batiment a disjoncté au niveau de la cellule située à l'exterieur du batiment. Nous ne connaissons (et GEG ne connait pas les raisons précises qui font que l'alimentation a coupé)..

Dans pareille situation, l'alimentation des serveurs ne doit pas couper puisque le batiment est sécurisé par 3 gros onduleurs ainsi qu'un groupe électrogene gazole de 400kva. Le systeme fonctionne normalement bien puisque nous avons deja vecu une coupure EDF il y a une semaine et cela n'avait pas eu d'incidence.

Cela ne s'est pas passé ainsi hier comme vous avez pu le constater.

Le Personnel de Cogent (groupe internationnal qui exploite ce datacenter) est intervenu en debut de semaine afin d'effectuer une maintenance et des tests sur le groupe électrogene Gazole. Les personnes qui sont intervenues n'ont visiblement pas repassé le groupe en mode de demarrage automatique pour que celui-ci demarre dès qu'il detecte qu'il n'y a plus de courant EDF.

Le resultat a été sans appel : le groupe ne demarrant pas, les onduleurs se sont totalement vidés et les serveurs n'ont plus été alimentés.

Par ailleurs, le site est normalement monitoré depuis plusieurs noc situés a Paris, New york et depuis l'Espagne afin que ce type de soucis puisse etre detecté très vite par Cogent et pour qu'ils puissent intervenir. Cette fois-ci cela n'a pas fonctionné puisqu'il y avait un incident sur le systeme de monitoring depuis quelques jours. (qui doit etre réglé ce jour ou demain).

PHPNET était présent sur le site moins de 10 minutes apres la coupure electrique des serveurs afin d'une part de faire demarrer le groupe electrogene manuellement pour retablir le courant et d'autre part de redemarrer l'ensemble des serveurs.
Comme un problème n'arrive jamais seul... Lorsque GEG a rétabli le courant secteur, le systeme de basculement automatique a tenté de rebasculer dessus et c'est la que nous avons connu notre
deuxieme coupure electrique...

En effet la procedure normale de basculement est : edf => onduleurs => groupe eletrogene.A l'inverse pour repasser sur edf, le circuit est goupe electrogene => onduleurs => edf.
Les onduleurs n'ayant pas eu le temps de se recharger suffisament, l'alimention a de nouveau ete coupée pour les serveurs.

Pour couronner le tout, l'alimention EDF a de nouveau disjoncté quelques minutes apres la bascule car la consommation électrique du site etait trop importante. Les blocs de climatisation ainsi que les serveurs consommant deux a 3 fois plus d'electricité au demarrage, la consommation a depassé les reglages presents à l'exterieur du batiment, engendrant une nouvelle coupure pour les serveurs.

Nous avons donc dû couper les systemes de climatisation et redémarrer chaque partie du batiment en respectant un certain delai, de maniere a ne pas faire redisjoncter.

Ces nombreuses coupures electriques ont provoqué la perte de nombreux disques durs dans les serveurs et (surtout) la perte de plusieurs systèmes de fichiers. Nous avons neanmoins basculé avec succès sur notre systeme de secours hier soir pendant quelques heures.

Le serveur de mails 1 (cluster1) a du etre restauré sur notre derniere sauvegarde vu que ses données n'etaient pas recuperables. La situation est fixée desormais.

Aujourd'hui la responsabilité de cet incident doit etre reportée sur Cogent qui aurait du s'assurer que le groupe était bien en mode de démarrage automatique et surtout surveiller correctement
le datacenter pour intervenir avant que les onduleurs soient vides.

Nous allons engager les négociations nécessaires pour obtenir réparation financière qui sera repercutée sur votre abonnement PHPNET a hauteur de la coupure que vous avez subie.

Diverses solutions concernant l'aménagement d'un datacenter sont encours d'étude coté PHPNET car nous ne voulons plus dépendre du bon vouloir de prestataires comme Cogent ou Redbus.
Nous vous tiendrons informés sur ce projet qui doit aboutir dans les 12 mois a venir.

Toute l'equipe de PHPNET se joint a moi pour vous remercier de votre compréhension et pour nous excuser de la gène que cela aura pu vous occasionner.

Excellent weekend a vous,
----
PHPNET
123 ter Cours de la libération
38100 GRENOBLE

Publié : 12/05/07, 14:10
par nonoLeRobot
On n'en parle pas souvent mais la consommation des datacenter est une vrai problème. (Ici apparement autour de 400 kW vu le groupe électrogène).

IBM lance un gros projet de diminution ou en tout cas de non augmentation malgré augmentation de puissance de la consommation:

http://www.presence-pc.com/actualite/IBM-Green-project-23275/

Publié : 12/05/07, 14:11
par Colmant
effectivement "ca"a beugué en cours de rédaction de messages et en meme temps j'ai eu une panne de pile sur ma souris sans fil

c'était pendant ou juste après que jérome -dominique 234 s'est refait viré , j'ai pensé que du haut de son QI il avait réussi à virosé le système...
je suis rassuré aux vues de mes capacités informatiques limitées
a+

Publié : 12/05/07, 14:56
par Christophe
Non Colmant, cet incident concerne le serveur qui hebergait le blog: www.econologie.info et non le site et ce forum :)

Toutes tes remarques ne sont donc que pure coincidences (sauf que le serveur du .com commence a largement saturer...des investigations sont en cours pour résoudre le probleme de saturation)

Publié : 13/05/07, 16:37
par citro
C'est vrai que parfois, j'ai l'impression que le .com rame fort... mais comme mon débit adsl fluctue parfois de 300kb/s à 3000kb/s je mettais cela sur le dos de mon FAI... jusqu' à ce que j'apprenne (j'ai mes sources :? ) que le serveur sature. :?