Consultant Informatique Réseau et Internet

24 février 2010

Petit guide pour survivre face à un serveur OVH qui ne boot plus

Votre serveur dédié OVH ne boot plus. Que faire ? … pas de panique, commencer par lire cet article.Reboot hard via le manager OVH … attente … les minutes passent … toujours pas de ping … c’est clair, le serveur ne boot pas … ça va mal … c’est la crise :(

Si vous exploitez un serveur dédié OVH, tôt ou tard, vous serez face à cette situation. Ne paniquez pas, le support OVH est assez bien organisé pour gérer ce type de situation, mais malheureusement OVH communique mal. Il m’a fallut subir une bonne dizaine d’incidents critiques sur de serveurs dédiés OVH, beaucoup d’énervements, de frustations et de perte de temps pour comprendre la marche à suivre dans de telles situations. Comme souvent, une fois clarifiés et compris les faits obscurs au départ semblent évidents après coup.

Voici donc un petit guide pour rassurer l’administrateur paniqué à l’idée que rien n’est fait pour son serveur hors service.

1) Au départ, le serveur ne répond plus aux pings (et donc impossible de se connecter pas SSH)

a) Si vous constatez en direct le problème:

Vous tenterez probablement un reboot hard via le Manager OVH. Si le serveur répond à nouveau, tout va peut-être bien, vous avez de le chance (savourez votre victoire car la guerre n’est pas gagnée).

Si votre serveur ne répond toujours pas, il est totalement inutile d’appeler le support OVH au numéro généreusement surtaxé. Vous n’obtiendrez aucune aide, aucune information, aucun traitement prioritaire. Inutile également de contacter le support en ligne avec l’icône [Contacter l'assistance technique], même combat.

b) Si vous n’êtes pas présent pour constater l’arrêt de la réponse aux pings, la procédure déclenchée par le monitoring OVH suivra son cours automatiquement et vous allez retrouver votre serveur en mode rescue (Linux ou Windows), c’est à dire:

  • réponse aux pings
  • aucune application ne fonctionne
  • impossible de se connecter au serveur car le mode rescue s’accompagne d’un mot de passe aléatoire.

En d’autres termes, sous Linux votre password root est refusé, sous Windows Remote Desktop ne fonctionne plus. Plutôt déstabilisant, si vous n’avez pas le réflexe de penser que votre serveur a été basculé, bien malgré vous, en mode rescue. Dans ce cas, passez directement à la rubrique 4 ci-dessous.

2) Assurez-vous qu’un ticket d’incident a été créé

En principe, quelques minutes après l’arrêt des réponses aux  ping,  le système de monitoring d’OVH a détecté le problème et a créé automatiquement un ticket d’incident.

Exemple d’email signalant un problème détecté par le monitoring OVH:

La création du ticket d’incident vous est confirmé par un email du type :

Si, du fait des problèmes serveur, vous n’avez plus accès à vos emails, un historique des emails envoyés par OVH est consultable via le Manager OVH:

[Administration >> Paramètres >> Historiques des emails]

Le ticket d’incident peut être consulté en ligne via le Manager OVH, rubrique:

[Contactez le support >> Déclarer un incident]

En cliquant sur la loupe, vous pourrez lire un message du type:

Par contre, si après une quinzaine de minutes, le ticket d’incident n’est toujours pas créé automatiquement, il vous faut déclarer l’incident, soit en appelant le support, soit par le choix [Ouvrir un ticket] dans la Manager OVH.

3) Attendez le résultat de l’intervention

Ayant la confirmation qu’une intervention est programmée, il vous faut patienter et attendre le résultat. Un technicien, un vrai, en chairs et en os va se déplacer pour examiner votre serveur.

Surtout ne faites rien, pas de reboot en mode rescue ou vKvm, cela ne ferait que retarder l’intervention. En effet, lorsque le serveur redémarre (en mode rescue ou vkvm) il répond à nouveau au ping et donc l’intervention programmée est annulée. Dommage pour vous.

Par expérience, il faut compter une à deux heures de délais pour que l’intervention programmée ait lieu.

Un technicien va donc arriver face à votre serveur. Je suppose qu’il commence par brancher un moniteur pour voir ce qu’affiche la console. Il peut alors diagnostiquer un problème matériel ou logiciel.

a) dans le cas d’un problème matériel, le technicien fera le nécessaire pour réparer physiquement le serveur. Si l’intervention a provoqué la perte de l’OS (ex: remplacement du disque dur) il sera de votre responsabilité de  résinstaller l’OS et ses applications.

b) dans le cas d’un problème logiciel, le technicien va noter le message affiché sur la console et rebooter le serveur en mode rescue (ou vKvm).  Le serveur n’ayant pas de problème matériel démarre (en principe) sans problème dans le mode de secours choisi.

Je rappelle qu’OVH est responsable du matériel (serveur et réseau) et non du logiciel. En d’autres termes, le technicien va estimer son intervention comme terminée lorsque le serveur boot sans signaler d’erreur matériel, que ce soit sur le disque dur, ou sur un OS réseau en mode rescue ou vKVM.

Dans la pratique, je propose de faire un ping perpétuel (”ping -t” sous Windows) vers le serveur HS, ceci vous permettra détecter en temps réel la fin de l’intervention (reprise des réponses aux pings). A ce stade, il vous faut encore attendre quelques minutes, temps nécessaire au technicien pour remplir son rapport d’intervention.

4) Consulter le rapport d’intervention

En fin d’intervention, le technicien complète le ticket d’incident en résumant son diagnostic et ses actions. Pour consulter le rapport d’intervention, connectez-vous au Manager OVH, et aller à:

[Contactez le support >> Déclarer un incident >> cliquer sur la loupe]

Dans le cas d’un incident logiciel il recopie le message d’erreur lu sur la console.

Voici quelques exemples de rapport d’intervention:

L’incident, se termine par le message suivant:

5) Si votre serveur est en mode rescue

En général, si l’incident est lié à un problème logiciel le technicien OVH bascule le serveur en mode rescue. Dans ce cas, vous recevrez environ 10 à 15 minutes plus tard un email vous résumant la situation, vous précisant la procédure d’accès au serveur,  et en particulier le password généré pour le compte root.
Si, du fait des problèmes serveur, vous n’avez plus accès à vos emails, un historique des emails envoyés par OVH est consultable via le Manager OVH:
[Administration >> Paramètres >> Historiques des emails]

2 commentaires

  1. Bonjour,

    Tout d’abord, je tiens à vous remercier et vous féliciter pour votre service “Wake on Lan Center” sur lequel je viens de tomber après moultes recherches sur le wake on lan / wan.
    Ce script est le premier du genre que je trouve et qui correspond parfaitement à mes besoins. Il se rapproche d’un petit CMS alors que les autres se contentent de mettre à disposition un simple script comme celui que vous mettez dans votre FAQ.
    Une petite question : mettriez vous à disposition le code source de ce script pour une implémentation externe? Si oui, quelles sont vos conditions, tarifs?
    J’aimerai bien mettre en place votre solution sur mon hébergement OVH en tant que particulier.

    Je vous remercie par avance de votre réponse.

    Bonne continuation pour vos travaux qui rendent de biens bons services à la communauté.

    Bonne journée,

    Nico.

    PS : je vous contacte en vous laissant un commentaire car votre adresse e-mail “phil@philten.com” ne semble pas fonctionner. Merci de votre compréhension

    Commentaire par Nico — 11 mars 2010 @ 14:50

  2. Bonsoir,

    Je viens de lire votre exposé que j’ai trouvé très instructif. Ce qui m’interpelle pour un problème différent mais tout aussi désagréable.

    J’ai un ami qui ne peux plus se connecter à son serveur dédié chez OVH parce que le firewall Firestarter fraichement installé sur le serveur lui bloque l’accès à la connexion.

    Comment pourrait il faire pour désactiver le pare-feu qui l’empêche de se connecter au serveur.

    Merci.

    Commentaire par Papounet17000 — 16 mai 2010 @ 1:24

Flux RSS des commentaires de cet article.

Désolé, les commentaires sont fermés pour le moment.

Propulsé par WordPress