Login
blog > psykopat > Kookyoo : retour en ligne

Kookyoo : retour en ligne

Posté par : Seb - Le Jeudi 22 Janvier 2009 à 16:52

Kookyoo est enfin de nouveau en ligne. Je tiens à présenter toutes mes excuses pour la gêne occasionnée, un problème propre à OVH a entraîné aujourd'hui la coupure des filers qui gèrent les disques durs des serveurs RPS.

Une opération de maintenance qui tourne au cauchemar et a causé l'indisponibilité totale de nombreux serveurs, dont celui de Kookyoo, de 14h à 17h45 aujourd'hui.

Les choses rentrent enfin dans l'ordre, vous pouvez à nouveau profiter de notre site. Je détaillerais plus en détails les causes de la panne dans les heures à venir.


MAJ 22 Janvier :

OVH a répondu à mon mail et un communiqué que voici est arrivé sur la news OVH :


Bonjour,
Hier dans l'après midi et jusqu'à tard dans la nuit, nous avons eu hier un
important incident qui a impacté 20% des clients RPS.

Il s'agit d'un problème d'alimentation électrique sur 8 SAN. Il y a 1 semaine
les équipes électriques ont travaillé dans la salle des SAN sur l'une des deux
arrivées électrique (afin d'ajouter les nouveaux SAN). En tout, nous avons
plus de 40 SAN en production dans cette salle et 120 à terme. Pour ces travaux,
ils ont donc coupé l'une des arrivée mais après la fin des travaux, ils ont fait
une erreur humaine au niveau de rebranchement sur 8 SAN. Hier, pendant les tests
de groupes électrogènes, les 8 SAN mal rebranchés sont tombés en défaut
d'alimantion et sont tombés en panne. Le défaut a été corrigé rapidement mais
il faut plusieurs heures aux SAN pour remonter le service. Le problème de la durée
se situe au niveau d'un bug sous Solaris qui provoque un temps de remise en route
d'un SAN qui varie entre 2h et 12h (suivant le nombre de filesystem à monter avec
ou sans les snapshot). Nous travaillons avec SUN sur l'amélioration de temps de
redémarrage d'un SAN mais pour l'instant, nous avons encore ce bug. En bref, 18%
des RPS ont été en panne pendant 2H et 2% pendant 12H (un SAN a mis énormément de
temps à remonter). Nous regardons aussi de quelle manière on peut éviter ce genre
de problèmes bêtes mais humainement possibles.                    

L'ensemble des clients impactés par ce problème vont avoir 1 mois gratuit.
Au plus tard Mardi un email leur sera envoyés un URL à remplir.

Désolé pour l'incident.


Voilà qui semble clore le problème. Pourvu que celà ne se reproduise pas de si tôt ; )







Commentaires 9 commentaires

farwarx le 22 Janvier 2009 à 17:02

Ouf!!! J'en pouvais plus!
Je voudrais pas être à leur place en ce moment, ça va gueuler!!!

Seb le 22 Janvier 2009 à 17:10

En même temps tester un groupe électrogène en production et faire sauter toute une partie du datacenter de Roubaix-1 ... j'espère bien que ça va gueuler.
Mais pour les indemnisations on peut se brosser.

Seb le 22 Janvier 2009 à 20:35

Serveur Trackmania Up !

Damien le 22 Janvier 2009 à 22:35

Il faut jamais faire les manipulations techniques sans un fan de Mc Guiver a coté ... eux ils savent construire une bombe atomique avec du crottin et un morceau d'aluminium tenus par un chewing-gum , alors un groupe électrogène c'est de la rigolade

Il se fait tard,désolé la journée a été longue !

farwarx le 23 Janvier 2009 à 0:49

Le crottin dégage du propane.... boom!

Je sors ;) enfin, je vais me coucher...

Seb le 23 Janvier 2009 à 16:11

MAJ : Mail d'OVH concernant l'incident.

farwarx le 23 Janvier 2009 à 18:39

Problème avec le français ils ont.

Seb le 25 Janvier 2009 à 14:21

Après la coupure du RPS c'est votre serviteur lui même qui s'est trouvé en défaut suite à une coupure électrique générale dans le département (66) tout hier suite à la tempête.
Décidément ...

farwarx le 25 Janvier 2009 à 16:48

Et le groupe électrogène? ;) ^^



.laisser un commentaire




Codes html interdits. Les liens sont convertis automatiquement.

Réalisation

Code & Design : Sébastien Cardona

Page générée en : 0.049532s