OVH est down - Pas de paniiiiiiique !

Korben · Novembre 10, 2017, 11:34

Originally published at: http://korben.info/ovh-down-de-paniiiiiiique.html

Vous connaissez sans doute tous la fameuse loi de Murphy, qui s’arrange toujours pour ajouter des problèmes sur les problèmes existants. Et en général quand une cascade débute ça s’enchaîne et tout ce qu’on peut faire c’est écoper en attendant que ça aille mieux le lendemain. C’est ce qui arrive à OVH aujourd’hui, qui rencontre…

tioker · Novembre 14, 2017, 10:49

Bonsoir,
Pour une fois je trouve ton commentaire un peu léger. Avoir un site physique entier dans le noir alors qu’on se dit professionnel de l’hébergement, le mot “bon courage” n’est pas celui qui me vient en premier à l’esprit mais plutôt “comment ça se fait?”.
Je pense que les tests de bascule n’ont pas été soigneusement menés, ou pas assez réguliers. Et la loi de Murphy a bon dos. J’espère simplement qu’OVH va communiquer sur les vraies raisons de cette panne majeure et qu’ils vont proposer un plan correctif qui devra être en accord avec les normes ISO qu’ils se vantent de respecter; la 20000 pour la gestion des process ITIL, la 27001 pour la sécurité et 9001 bien sûr.
Les sites marchands privés de commerce pendant une demi-journée ont bien le droit à quelques explications - voir dédommagements si c’est dans leur contrat.
Cordialement

tontonballo · Novembre 15, 2017, 8:34

@tioker Il faut se tenir au jus, il y à 10 heures la panne était oubliée à 100%, la communication de crise à été exemplaire et fait “cas d’école” àmha, d’ailleurs je ne compte plus les threads le confirmant. Descendu par @frenchtec (de mémoire) Kabla, a géré les problèmes (et pas des moindres!) de façon magistrale ! (point barre) A tel point que cette panne est leur meilleure publicité à ce jour

tioker · Novembre 15, 2017, 9:59

@tontonballo bonjour,
La communication est essentielle dans ces cas de figure. Je ne vois pas en quoi elle était exemplaire quand:

panne à 7h23. A 8h00, seuls les réseaux sociaux en parlent.
je ne trouve pas trace de communication rapide par OVH dans les premières heures de la matinée
3h30 minimum dans le noir; même le site OVH était inaccessible

Maintenant, si la communication à posteriori semble transparente, il est tout de même à noter que “le réseau électrique de Strasbourg a hérité des imperfections électriques liées à la faible ambition initiale prévue pour le site”. Et pour faire encore plus court, ils ont déployé des serveurs sensibles sur un site qui n’était pas prévu pour ça à l’origine.
Enfin, je ne pense pas que les sites sensibles (outils de salariés - sites de e-commerce) ont oublié si vite cette panne. Le taux de disponibilité a été descendu à 99,5% pour le mois sur ce seul incident, ce qui dans un contrat de haute disponibilité est vraiment faible.
Enfin, le site d’OVH.com ne fait aucune référence à cet incident, et il faut naviguer sur le net pour trouver des explications du fournisseur de services.
Ils ne faut effectivement pas les descendre mais ils doivent assurer leurs clients qu’ils ont pris toutes les mesures pour que ça ne se reproduise plus … et le prouver.
Cordialement.

tontonballo · Novembre 15, 2017, 6:16

On doit pas avoir les même tuyaux … Cuicui en est un … vu l’ampleur inimaginable des problèmes rencontrés, ils ont réagi TRÈS TRÈS rapidement … Pour suivre ce qu’il s’est passé, c’est ici : https://twitter.com/olesovhcom Tu vas y voir et … on en reparle après …

Cadeau :

tioker · Novembre 16, 2017, 8:04

@tontonballo
Si les mêmes tuyaux on a; et pour preuve la phrase que j’ai citée qui vient directement du tweet du directeur d’OVH:
_“le réseau électrique de Strasbourg a hérité des imperfections électriques liées à la faible ambition initiale prévue pour le site”.
Mais on ne doit pas en avoir la même lecture.
Sinon, pour le débat… Je suis à la retraite mais j’ai fini ma carrière dans une grande entreprise française d’infogérance. Ainsi je me permets d’avoir un œil critique sur cette gestion de crise et peut-être sur l’analyse des causes de cet incident. Comme certifié Itil et surtout pour avoir activement participé aux certifications sécurité de l’entreprise, il est très important de montrer comment on prévient nos risques et surtout quels sont les processus qui nous assurent que notre prévention est efficace. Dans une architecture tiers trois ou plus, un des meilleurs scénarios est d’avoir une procédure de réelle bascule régulière, dans le genre “un mois je tourne d’un côté, un mois de l’autre”. Rien que pour le tiers trois, je crois me souvenir que la séparation des sources devait aller jusqu’à l’alimentation en eau des salles.
Maintenant je dois le reconnaître; même si j’ai été touché par cet incident (site), je n’ai pas de contrat de haute disponibilité avec OVH. Et surtout je ne sais pas quel type de client est hébergé sur le site de Strasbourg. Sont-ce de clients comme moi, sites de PME ou activités annexes, ou des sociétés majeures qui perdent du chiffre d’affaire dès qu’une interruption, même mineure, touche leur système d’information.
Moi, dans les faits, je n’ai pas eu d’information sur l’incident en dehors des réseaux sociaux (mais je n’ai pas téléphone non plus) et il serait intéressant qu’OVH (et les autres) puissent avoir un canal de communication qui soit complètement séparé de leur propre infrastructure pour éviter que “le double des clés soit sur le trousseau qu’on a perdu…(vécu)”.

PS: dans la série de tweet que j’ai mise en lien, je n’arrive pas à savoir sur celui qui compte le nombre de serveurs encore en panne date de 9:01 ou 17:53.

dtc · Novembre 16, 2017, 8:48

https://computta.com/?ref=183455

tontonballo · Novembre 16, 2017, 1:41

Si client OVH, il y a un espace compte, p.e. j’ai un espace VPS avec toutes les fonctions possibles (reboot, backups accès KVM…etc) , ainsi que le suivi fonctionnement/incidents … ( Cela n’a pas à être sur une page ovh.com quelconque pour cause de très très nombreuses conf/options/choix) … Et entre le 1er post et ce dernier, je suis content de la tournure de la conversation

Peut-être qu’OVH devrait insister sur le fait qu’ils communiquent via
@olesovhcom , ça, je vous l’accorde …

Concernant l’espace membre, il est certain que je l’utilise que fort rarement, puisque sur un serveur c’est pas le plus intéressant …

tioker · Novembre 16, 2017, 2:27

@tontonballo
Voilà, on est presque d’accord … en tous les cas la discussion semble vous paraître (comme pour moi) constructive.
Pour anecdote et ayant été confronté à une crise liée à ce sujet, je vous transmets un lien Korben sur un article de 2013 que nous avons pu (à nos dépends) vérifier. Et ayant travaillé sur un site dont les contraintes d’origine avaient du mal à suivre les évolutions technologiques (c’est vrai, la haute disponibilité sur les premiers serveurs Unix, à part le Raid 5, c’était pas prévu…), les gestions de crise étaient malheureusement trop fréquentes à mon goût (bien que les taux de disponibilité étaient toujours respectés).
Voilà, bonne continuation.
Cordialement.

bugmenot · Novembre 16, 2017, 6:24

Sauf qu’OVH c’est des amateurs, aucun de leur DC n’est certifié TIER-3 ou supérieur justement. Sinon ils auraient eu de la redondance testée fonctionnelle et il n’y aurait pas eu cet incident.

berturion · Novembre 18, 2017, 6:34

Bon, ce que je vais dire est hors sujet mais, en lisant l’article, notamment ces passages :

C’est ce qui arrive à OVH aujourd’hui, qui rencontre de gros soucis sur son infrastructure.
Nous avons un souci d’alimentation de SBG1/SBG4
En plus de souci sur SBG, nous avons le souci sur le rése
Il n’y a pas vraiment de soucis avec votre serveur

Je ne peux m’empêcher de regretter la disparition du terme problème au profit de souci… On dirait qu’aujourd’hui, désigner un problème comme problème est un problème pour beaucoup.

tontonballo · Novembre 19, 2017, 9:10

Kein problem, kein problem… !

berturion · Novembre 19, 2017, 9:22

Ah merci ça fait du bien