Après l'incendie du datacenter d'OVH, comment éviter de perdre ses données

Un incendie survenu dans la nuit du 9 au 10 mars a mis à l’arrêt les datacenters du site d'OVHCloud à Strasbourg (Bas-Rhin). Une catastrophe rare mais à laquelle entreprises et hébergeurs peuvent se préparer. Plans de continuité d’activité, de reprise après sinistre, redondance des données… Le point sur les dispositifs existants.

Réservé aux abonnés
Le bâtiment d'OVH brûlé
Le centre de données d'OVHcloud à Strasbourg (Bas-Rhin), pendant l'intervention des pompiers.

Coup dur. Dans la nuit du 9 au 10 mars, un incendie s’est déclaré sur le site strasbourgeois (Bas-Rhin) du spécialiste français du cloud OVH. Le deuxième datacenter du bâtiment, SBG2, a été englouti par les flammes. Les trois autres, en partie touchés par l’incendie, ont été mis hors tension par les autorités. Avec des conséquences négatives pour certains clients. Facepunch Studios, l'éditeur du jeu vidéo Rust, a ainsi annoncé sur Twitter avoir perdu 25 serveurs européens. Les données qu'ils contenaient ne pourront être restaurées.

En fin d’après-midi mercredi 10 mars, le PDG d'OVH annonçait sur Twitter une reprise progressive de ses serveurs strasbourgeois à partir du lundi 15 mars. Avant même de connaître cette longue indisponibilité, dès la première annonce de l’incendie, Octave Klaba a recommandé à ses clients d’activer leurs plan de reprise après sinistre (disaster recovery plan).

Une performance coûteuse

Au-delà des données froides archivées, à l’image du disque dur d’un particulier, un datacenter héberge aussi des données actives, directement liées à l’activité d’une entreprise, tels un site web ou une application. Un datacenter en panne ou parti en fumée peut donc impacter le business même d’une société. Sauf si des répliques des données ont été réalisées et un plan de reprise de l’activité établi.

"Un plan de reprise de l'activité liste les procédures à déclencher en cas de défaillance d'un datacenter ou d'un de ses éléments, explique Thomas Santorelli, responsable de la plate-forme d’hébergement de Rampar, une entreprise de service du numérique (ESN) qui accompagne ses clients dans la gestion de leur système d’information. Prenez l’exemple d’une société de retail qui utilise une application de paiement pour ses boutiques : si un incendie se déclare dans le datacenter hébergeant l’application, il faut activer les processus pour que les copies de l’application prennent le relais.”

Pour juger de la performance d’un plan de reprise d’activité, deux indicateurs sont à regarder. "Le RPO, pour Recovery Point Objective, correspond à la quantité maximum de données que l’entreprise peut perdre, détaille Thomas Santorelli. Dans l’exemple de l’application de paiement, si une copie est effectuée chaque jour à midi, cela signifie que le RPO est de 24 heures, c’est-à-dire que l’entreprise perdra au maximum 24 heures de données. Le deuxième indicateur est le RTO, pour Recovery Time Objective, soit le temps nécessaire pour que la copie devienne opérationnelle. Plus ces deux indicateurs sont petits, plus le plan est performant, mais plus il coûte cher."

Décider d’un plan de reprise d’activité renvoie donc à un arbitrage entre un coût et un degré d’assurance face au risque. La plupart des fournisseurs de services cloud, dont OVH, proposent de tels plans, mais cet arbitrage est réalisé par l’entreprise cliente et peut être à géométries variables. “Une entreprise peut opter pour différentes stratégies de sécurité au sein de son système d’information, selon l’impact de la donnée par rapport à son business”, note Thomas Santorelli.

Éviter les interruptions

Simple en théorie. Pas forcément en pratique. “Un plan qui n’est pas régulièrement testé est peu efficace car entre sa conception et sa mise en œuvre, nombre de changements peuvent avoir eu lieu”, observe Christian Eychène, en charge du marketing cloud chez Orange Business Services. Procédures nouvelles et imprévues, ordre de redémarrage des applications bousculé, absence de certaines bascules réseaux…. Dans le feu de la crise, les obstacles à la bonne marche des plans de reprise sur un autre cloud peuvent être nombreux. “La qualité d’un plan, c’est d’avoir pris en compte ces aléas, afin de prédéterminer son déclenchement en fonction des risques et de la date de récupération des serveurs prévue”, pointe Christian Eychène.

Avec le cloud public - ces infrastructures partagées qui peuvent fournir rapidement de grandes puissance de calcul à leurs clients - “de plus en plus de clients nous demandent des solutions de protection contre la perte d’un site”, décrit Christian Eychène. Au-delà des redondances multisites, la nouvelle mode est celle de la haute disponibilité. Les applications sont alors “distribuées en temps réel sur plusieurs datacenters, de manière à ce que les services continuent de fonctionner même en cas d’incident sur un centre”, explique l’ingénieur. Dès lors, il ne s’agit plus d’un plan de reprise d’activité, mais d’un plan de continuité de l’activité, où il n’y a aucune procédure à lancer. “Pour les clients, la bonne pratique est de diviser”, abonde Arnaud de Bermingham, président et fondateur du fournisseur d’infrastructures cloud Scaleway, qui parle lui de multicloud. Un facteur de résilience face aux risques physiques ou géopolitiques, mais dont les logiciels de virtualisation qui le permettent sont chers.

Risque de pertes de données

Au-delà de la reprise des processus critiques à l’activité, se pose l'enjeu de la récupération des données. Si des serveurs grillent fréquemment dans les racks, que les interruptions de service existent, “c’est la première fois qu’un datacenter est intégralement réduit en cendres”, témoigne Arnaud de Bermingham, estimant que “des entreprises peuvent avoir perdu leurs données irrémédiablement”.

Véritables cathédrales du numérique, les centres de données sont des bâtiments ultra-performants, sous surveillance constante et dotés de systèmes de sécurité multiples. Les causes de cet incendie improbable seront donc à déterminer. L'après-midi du 10 mars, les équipes techniques et commerciales d’OVH étaient à pied d'œuvre pour diagnostiquer les impacts de l’incendie sur ses serveurs et les données qu’ils contenaient, a expliqué OVH à L’Usine Nouvelle. Sur les réseaux, plusieurs voix faisaient part de leurs craintes pour leurs archives numériques.

Une inquiétude notamment pour les plus petites sociétés, aux pratiques moins normées que celles des grands groupes. “La majorité des petites entreprises n’ont pas de sauvegardes, car c’est complexe et qu’elles estiment que le coût est trop élevé”, considère Gregory Moulis, ingénieur réseau et directeur général de Itaia, une PME de services et support informatique dédiée aux TPE et PME. Même pour ceux qui franchissent le pas, “nous conseillons fortement à nos clients de mettre en place des redondances toutes les heures, mais plusieurs se contentent de moins, par exemple une fois par semaine”. Un discours auquel l'incendie devrait, malheureusement, apporter du crédit.

Newsletter La Quotidienne
Nos journalistes sélectionnent pour vous les articles essentiels de votre secteur.