Incendie d’OVH : mon retour d’expérience

Incendie d’OVH : mon retour d’expérience

Mardi 9 mars

En allant me coucher, je savais que le lendemain je devrais :

  1. Trouver une centaine d’images du Brésil sur Pixabay pour créer les sites d’un client.
  2. Modifier les formulaires d’une trentaine de sites pour en optimiser le taux de conversion.

Des tâches quotidiennes, pas très excitantes (il faut bien l’avouer), mais qui sont indispensables pour la bonne marche de mon entreprise et elles entrent dans ma routine d’amélioration continue de mes processus.

Mercredi 10 mars

Je me suis réveillé tranquillement à 8h30, j’ai pris mon petit déjeuner en famille. J’ai raconté une anecdote rigolote à ma femme sur un site que j’ai modifié la veille et les enfants ont voulu voir le site en question. Je sors donc mon smartphone et je vais sur le site : « Tiens, il ne s’ouvre pas… ». Pourtant j’ai bien internet (Google fonctionne). Je tente d’en ouvrir un autre, puis un autre… Toujours rien alors qu’ils sont sur des serveurs différents.

🤨 Hum…

Tout cela ne présage rien de bon mais c’est peut-être mon IP qui est blacklistée par le réseau, chose qui arrive de temps à autre. Je vais donc à mon bureau pour vérifier tout ça, j’ouvre mon ordinateur et je tombe directement sur 5 mails : « Problème de connexion », « Sites qui ne répondent pas », « Rien ne s’affiche sur le site »…

😬 Aïe, aïe, aïe.

Un de mes clients m’écrit sur Skype : « Tes serveurs sont à Strasbourg ? ». C’est bien le cas… mais il n’est pas censé le savoir !

😨 Sueurs froides.

Je tape donc « OVH Strasbourg » sur Google et là je comprends instantanément le problème :

L’article de Le Monde que j’ai lu mercredi au réveil. Super.

🔥😱🔥 Putain ! C’est la merde… 🔥🔥🔥

Quelques informations sur mon architecture informatique

Avant de poursuivre cette histoire, j’aimerais vous décrire un peu l’architecture technique de mon entreprise, c’est important pour comprendre la suite.

5 « petits » serveurs

Aujourd’hui, j’héberge 2500 sites internet (900 m’appartiennent et 1600 sont à mes clients). Ils sont installés sur 5 « petits » serveurs différents. Cette division a beaucoup d’inconvénients par rapport à un seul « gros » serveur :

  • C’est plus cher et plus difficile à installer qu’un seul « gros » serveur.
  • C’est plus de travail de maintenance.
  • Ca requiert beaucoup d’organisation et de rigueur.

Mais il y a aussi de solides avantages :

  • C’est plus sécurisé : si 1 serveur s’arrête pour une raison quelconque (bug, piratage, surcharge de trafic…), les 4 autres continuent à tourner normalement.
  • Ca permet de placer mes sites stratégiques sur différents serveurs.

Je suis informaticien de métier, mais ma spécialité c’est le développement. Je peux donc me débrouiller pour faire tourner des serveurs, mais ça reste un travail de spécialiste. Je travaille donc en collaboration avec Yannick Siegler, un administrateur système freelance. Il gère les tâches les plus complexes, surveille l’état des serveurs et me conseille sur les meilleures solutions techniques à adopter. Il a joué un rôle majeur dans cette histoire (et il a brillé par son professionnalisme ⭐️⭐️⭐️⭐️⭐️).

Les sauvegardes

Mon système informatique a 2 niveaux de sauvegardes :

  1. Les « Instances backup » quotidiennes d’OVH.
  2. La « Sauvegarde des données » quotidiennes de Yannick.

Voyons les différences entre les 2 systèmes :

1) Les « Instances backup » d’OVH

En gros, une « instance backup », c’est une photo à l’instant T d’un serveur. L’intégralité du serveur est copié, c’est à dire :

  • Les fichiers
  • Les bases de données
  • Le système d’exploitation

C’est extrêmement pratique : si un serveur casse, il suffit de le supprimer et de le remplacer par une copie. L’opération ne nécessite que quelques clics et seulement quelques minutes. Ca permet aussi de monter rapidement des serveurs provisoires pour faire des tests critiques avant de les appliquer sur le « vrai » serveur.

C’est un bel outil, très pratique.

Toutes les nuits vers 3 heures du matin, mes 5 serveurs sont ainsi copiés. Si un gros problème se produit sur un serveur pendant la journée et qu’une réparation est impossible, il suffit d’activer la copie nocturne.

J’ai activé ce système de sauvegarde à plusieurs reprises, pour différentes raisons. Il me semblait robuste, fiable et simple d’utilisation.

Parfait.

2) La « sauvegarde des données » quotidienne de Yannick.

C’est un service proposé par Yannick, il est inclus dans sa prestation de maintenance de serveurs. Ici, la copie est plus subtile : seuls les fichiers et les bases de données sélectionnés sont sauvegardés, pas le système d’exploitation.

Yannick m’a fourni les accès, mais vu que je disposais déjà d’un système de sauvegarde robuste, fiable et simple d’utilisation, je n’ai jamais vraiment prêté d’intérêt à ce système en doublon. En plus, l’utilisation n’est vraiment pas évidente, il faut passer par des interfaces moches et complexes. Parfois, je me demandais même s’il ne s’agissait pas là d’une perte de ressources et d’énergie. Dans le fond, les « instances backup » font parfaitement le travail…

Néanmoins, je suis content de savoir que ce système existe et qu’il est maintenu. C’est rassurant.

La sauvegarde est activée tous les jours vers minuit.

Bref, mon système est prévu pour être résilient aux pannes et j’étais assez serein vis à vis de la sécurité des données. Maintenant, que vous avez une vision d’ensemble de l’architecture informatique, vous pouvez mieux comprendre la suite 😉

Petite pub newsletter 🙂

Vous avez déjà lu une bonne partie de cet article, j’ai l’impression qu’il vous intéresse 👍

Au fait, je m’appelle François Tréca. Je publie de temps à autre des articles et/ou des vidéos au sujet des PBN, du SEO, du web, de la productivité, du marketing… Je fais de mon mieux pour produire des contenus de qualité (ça attire toujours les clients).

Si ces sujets vous intéressent, je vous invite à vous inscrire à ma newsletter pour ne pas rater mes prochaines publications. C’est gratuit (je monétise avec mes prestations) et, promis, vous ne serez pas spammé (c’est contre-productif 😉 ).

Fin de la pub, vous pouvez reprendre tranquillement votre lecture ♥️

Quand tout s’effondre

Suite à l’incendie, voilà ma situation :

  • Impossible pour moi d’accéder à mes sites, à mes outils et à mon CRM.
  • L’interface d’OVH est HS donc pas d’accès aux « instances backup ». Je vois passer des messages sur Twitter qui disent que les backups sont détruits.
  • Pas la peine d’être un génie pour comprendre que le support ne sera d’aucune aide (vu qu’ils sont déjà complètement à la ramasse en temps normal).

Je ne peux donc rien faire.

Techniquement j’ai perdu 10 années de travail, qui sont maintenant dispersées dans l’atmosphère alsacienne. Le cloud n’a jamais aussi bien porté son nom…

J’envoie un message à l’aide à Yannick. Sans surprise, il est complètement débordé. Mais, il me rassure : oui, ses sauvegardes ont fonctionné. Ouf, tout n’est pas donc pas perdu. Mais la situation est vraiment critique, je ne sais pas accéder à ces données, seul Yannick sait comment faire. Si il meurt, tout est foutu 💀 (oui, je sais, c’est un peu brutal comme raisonnement, mais c’est un fait).

Je fais donc la seule chose possible : j’envoie des messages à mes clients pour leur expliquer le désastre et leur dire que je n’ai aucune idée de quand aura lieu la reprise. Charmante perspective. J’envoie aussi des posts sur Twitter et LinkedIn pour expliquer la situation.

J’aimerais bien vous dire qu’à ce moment là, en bon capitaine d’industrie, j’ai pris le problème à bras le corps pour commencer à le résoudre… Mais ce serait un mensonge.

La vérité c’est qu’à ce moment là, je suis à poil : sans outil et sans matière à travailler, je n’ai rien à faire. Je tombe alors plus ou moins dans un état de sidération pendant environ 6 heures : en mode « lapin au milieu d’une route qui reste immobile, hypnotisé par les phares qui vont l’écraser ». Car pour l’instant, les clients sont compréhensifs et m’encouragent, ils savent bien que je n’ai pas mis le feu au datacenter d’OVH et que je subis la catastrophe de plein fouet. Mais dans quelques jours, si les sites ne fonctionnent toujours pas, ce sera un autre discours…

Malgré tout, je prends quand même la décision stratégique de me raser la barbe, de me couper les cheveux et de prendre une douche. Les journées risquent d’être longues autant être à l’aise.

14h00 : je demande des nouvelles à Yannick, mais il m’envoie gentiment balader : « Si tu veux que je sois efficace, laisse-moi bosser. » (il le dit de façon plus diplomatique mais l’esprit est là.) Je suis technicien, je sais ce qu’il veut dire mais c’est dur de ne rien pouvoir faire.

17h00 : je décide de reprendre les choses en main. J’ai quelques sites en dur sur mon ordinateur, je peux déjà les remonter ! Je sais parfaitement que c’est une initiative ridicule mais j’ai besoin de faire quelque chose. Je commande alors un serveur chez mon ancien hébergeur (celui d’avant OVH) et j’essaie de monter 3 sites basiques. Mais très vite les obstacles techniques s’accumulent et je comprends rapidement que le service proposé ne pourra pas répondre à mon besoin industriel. La bonne volonté du support client (que je remercie au passage) n’y changera rien…

18h30 : Yannick peut enfin s’occuper de moi, on monte rapidement un plan d’action : je vais commander le plus gros serveur d’OVH, qui sera situé sur le datacenter de Gravelines (le datacenter de Strasbourg est complètement HS) et on y placera tout le contenu des 5 « petits » serveurs. L’idéal serait de commander directement 5 serveurs, mais paramétrer correctement un serveur demande du temps et aujourd’hui nous en n’avons pas. On ne peut donc pas s’offrir ce luxe. Il sera toujours temps d’affiner plus tard.

Nous aurions pu décider de quitter OVH après cette démonstration lamentable (si les serveurs et les backups sont bel et bien stockés dans le même bâtiment, ça me semble être une faute professionnelle impardonnable). Mais nous devions faire vite et dans l’état actuel de nos connaissances, OVH restait le meilleur moyen d’y parvenir…

Début du chantier

Pendant que Yannick commence le paramétrage du nouveau serveur, je prends un crayon et j’organise mon chantier de restauration des sites. Je priorise les sites à restaurer :

  1. Mon système d’informations : La priorité absolue est de rétablir mon système d’informations, il contient toutes mes données, mes outils et mon CRM. C’est lui qui me permet d’être productif. Il me sert aussi de base pour créer de nouveaux outils et vu la situation je vais devoir en développer plusieurs.
  2. Les sites de mes clients : Ils me paient pour que ça fonctionne, je dois rétablir leurs sites rapidement.
  3. Bulldoz : c’est une plateforme de rédaction que j’ai créé et qui permet à des rédacteurs de travailler. Sans cet outil, ils n’ont plus accès à leurs commandes et ils ne peuvent pas livrer leurs clients. J’ai reçu plusieurs mails paniqués, certains sont vraiment bloqués.
  4. Mes sites d’affiliation et mes sites de PBN : je ne gagne pas d’argent tant qu’ils ne fonctionnent pas mais ça me semble moins grave que perdre de la réputation.

Je commence aussi à préparer des algorithmes et des outils qui me permettront d’être très productif lorsqu’il faudra faire certaines tâches ou communiquer des informations en masse aux clients.

Je recommence à sourire, il y a un objectif clairement défini, il n’y a plus qu’à l’atteindre rapidement et ça c’est mon truc.

Jeudi 11 mars

Vu que j’ai très mal dormi pendant la nuit, je me suis réveillé à… 10h !

Commentaire de ma femme « Comme j’ai vu que tu as mal dormi, je ne t’ai pas réveillé. »

OK.

Ce n’est pas idiot.

Mais bon, quand même !

Heureusement, mon sysadmin a été plus matinal que moi : il a monté le serveur et les données sont en cours de transfert. Je calcule qu’à ce rythme, elles seront disponibles à 19h. La nuit risque d’être longue…

Je publie un compte-rendu de la situation sur Twitter et sur LinkedIn afin que mes clients puissent suivre l’évolution de la restauration. Surprise : les posts sont likés dans tous les sens et commentés avec bienveillance :

Ce compte-rendu me permet de gagner du temps : lorsqu’un client me demande par mail où en est le chantier, il me suffit de faire un copié-collé pour lui répondre. Rapide et efficace.

Je commence à développer les outils nécessaires à la restauration sur mon ordinateur (en local). Ce n’est pas l’idéal car mon jeu de données est incomplet par rapport aux besoins de la situation, mais ça me permet d’avancer.

14h00 : mon système d’information est à nouveau disponible en ligne, je dispose à nouveau de la puissance de ma machinerie et mon moral remonte en flèche. Je peux maintenant avancer plus rapidement car je dispose de données complètes.

La principale problématique est de faire entrer 5 serveurs dans 1 seul. Techniquement ce n’est pas très compliqué, mais vu la masse de sites il ne faut pas se louper car chaque erreur est multipliée par 2500 ! Plusieurs obstacles techniques apparaissent au fil de la journée, mais on travaille en symbiose avec Yannick et rien ne semble pouvoir nous ralentir : « Ensemble on est plus fort » comme disent les Kids United 😂

A la fin de la journée, 1/3 des sites des clients sont à nouveau en ligne.

Yannick a reçu une prime de 1000 € pour avoir sauvé mon entreprise des flammes (et accessoirement d’avoir eu la délicatesse d’être resté en vie pendant ces 2 jours 👼).

Vendredi 12 mars

Je commence la journée en rédigeant un compte rendu de la situation. Vu que ce type de communication est lu par un public qui dépasse largement la sphère de mes clients, je prends le temps d’ajouter quelques emojis 😉

Nous avons continué le travail de restauration pendant toute la journée, pour résumer :

  • Bulldoz a été remis en ligne en début de matinée.
  • Les sites des clients ont été finalisés. Pour que ça fonctionne, ils devaient changer le paramétrage de leurs noms de domaine. J’ai donc généré un mail personnalisé contenant toutes les informations nécessaires.
  • Enfin, j’ai pu restaurer mes propres sites.

Globalement, les clients sont ravis et saluent la performance 🙂

Seule ombre au tableau : une cinquantaine de sites n’ont pas pu être remontés car la sauvegarde automatique de leur base de données a échouée. Nous enregistrons donc 2% de perte 😞 Yannick va étudier et améliorer ce point pour que ça ne se reproduise plus. Vu qu’il s’agit de blogs de PBN que j’ai construit moi-même, je dispose encore des textes et des images d’origine dans mon système d’informations. J’ai donc proposé aux clients concernés de les remonter à l’état d’origine de la livraison, ce qu’ils ont accepté 👍

Edit du 24 mars 2021 : Nous avons finalement pu récupérer les backups d’OVH et les sites étaient bien enregistrés dessus. Aujourd’hui 100% des sites sont donc sauvés des flammes 🥳

Samedi 13 mars

Voici le compte rendu envoyé ce jour-là sur Twitter :

La matinée a été consacrée à quelques réglages techniques et à la génération d’un mail personnalisé invitant chaque client à vérifier lui-même si tous ses sites sont bien fonctionnels. C’était très basique : le mail contenait un lien vers chacun de leurs sites, il leur suffisait de cliquer pour vérifier. Si un problème apparaissait, il n’avait qu’à me répondre par mail pour que j’intervienne.

J’ai ensuite passé l’après-midi à reconstruire les 50 sites qui n’ont pas pu être restaurés. Vu qu’il ne s’agissait pas de mon processus de création standard, ça a été beaucoup plus long que d’habitude. J’ai encore du développer de nouveaux outils pour accélérer cette production. Ces sites ont finalement été livrés comme prévu en fin d’après-midi.

Dimanche 14 mars

Cette fois-ci c’est terminé 🥳

19h24 : J’écris cette ligne de mon article de blog.

Edit du 24 mars 2021

Hier matin, les sauvegardes d’OVH étaient (enfin) disponibles dans l’interface d’OVH. J’ai donc développé un petit script de migration permettant de transférer les 50 sites manquants vers le serveur de Gravelines (en écrasant au passage tout mon travail du samedi 13 mars après-midi… C’est la vie).

Cette fois-ci, c’est vraiment bon, tous les sites sont bel et bien de retour 🥳

La suite

Je vais essayer de revenir assez rapidement à une structure à 5 serveurs, qui offre beaucoup plus de sécurité. Ces futurs serveurs ne seront peut-être pas chez OVH, je vais étudier sérieusement les alternatives. Chers fournisseurs de serveurs, c’est le moment de me faire part de vos propositions 😉

Nous avons rétabli la sauvegarde basée sur 2 niveaux : les « instances backup » d’OVH (qui reste un outil pratique) et la « sauvegarde de données » de Yannick. Néanmoins, je vais m’équiper de mon propre système de sauvegarde sur lequel je serai parfaitement autonome. Je ne sais pas encore quelle solution adopter, mais Yannick pourra certainement me conseiller.

Conclusion

Il est clair qu’il y aura un avant et un après l’incendie d’OVH Strasbourg dans ma petite entreprise. Quelle frousse !

J’ai été particulièrement sensible à tous les messages encouragements de mes clients au fil des jours, merci à vous tous ♥️

En tout cas, je sais déjà ce que je dois faire demain :

  1. Trouver une centaine d’images du Brésil sur Pixabay pour créer les sites d’un client.
  2. Modifier les formulaires d’une trentaine de sites pour en optimiser le taux de conversion.

Quel bonheur de pouvoir travailler à nouveau sur des choses aussi simples 😉

Petite anecdote SEO

Mon site « Créer PBN » n’a jamais était aussi bien positionné sur Google que lorsqu’il était hors service :

Conclusion de cette expérience grandeur nature : rendre un site indisponible pendant 2 jours est un moyen efficace de monter dans les résultats de recherche. Vous savez ce qu’il vous reste à faire ! 😂

Vous prendrez bien quelques prestations ?

Sachez que je propose des prestations de SEO :

Vous pouvez suivre mon actualité via Twitter, LinkedIn ou ma newsletter 🙂

Si vous avez des questions, n’hésitez pas à utiliser les commentaires 📝

6 Replies to “Incendie d’OVH : mon retour d’expérience”

  1. Tu m’as tué avec « il a eu la décence de rester en vie 2 jours » 🤣🤣🤣 c’est vrai que ça aurait vraiment été la poisse totale là

  2. Merci pour l’article. Au final, est-ce- que OVH stockait réellement les instances backups au même endroit physiquement???

    1. Au final, il devait y avoir des copies dans un autre endroit vu qu’ils ont fini par les fournir au bout de 15 jours.
      Au moment des faits, cette information n’était pas connue, ce qui était assez stressant !