Plan de reprise d’activité: pouvoir réagir lorsque l’impossible arrive

#LANG

Même avec les meilleures protections, la sécurité totale est illusoire. Un accident plus ou moins grave peut toujours arriver. Si tel est le cas, il faut pouvoir réagir rapidement pour limiter les dégâts et pour pouvoir redémarrer dans l’ordre.
Le plan de reprise d’activité (Recovery plan), c’est l’art de tomber sans se faire (trop) mal et surtout, de se relever rapidement et en souplesse.
Pour l’entreprise ou l’organisation, le plan de reprise d’activité permet de basculer vers une procédure de repli lorsque le fonctionnement normal n’est plus possible. Par exemple, l’utilisation d’une infrastructure informatique alternative dédiée à la survie de l’activité.
Le plan de reprise d’activité est un exercice intéressant à réaliser car il exige de se poser quelques bonnes questions, comme:

  • quelles sont les activités essentielles à la survie de l’entreprise;
  • quelles sont les données nécessaires à ces activités;
  • quels sont les risques auxquels ces données sont exposées.

La dernière question nécessite quelques efforts d’imagination, car au-delà des risques connus, il en existe beaucoup qui sont inconnus et/ou difficiles à concevoir.
A partir du moment où les données critiques sont identifiées, il faut définir 2 notions stratégiques : le RTO et le RPO. De quoi s’agit-il?
Le RTO désigne le temps maximal acceptable durant lequel une ressource informatique peut se trouver indisponible suite à un sinistre (Return Time on Objective).
RPO est la Perte de données maximale admissible (Recovery Point Objective). Elle est également exprimée en temps (minutes / heures) car elle résulte de la différence entre la dernière sauvegarde et l’incident.

Le temps, c’est de l’argent

Un RTO et une RPO très courts (moins d’une minute par exemple) exigeront des moyens souvent plus onéreux qu’une tolérance plus large, car ils exigent de mettre en place des mesures de sauvegarde qui se rapprochent du « temps réel ».
Une fois que l’on a défini ces 2 valeurs, il faut envisager les réponses les plus adéquates aux risques identifiés. Cela passera notamment par des sauvegardes, du matériel de remplacement, des moyens informatiques redondants… un site de secours.
RTO et RPO feront normalement l’objet d’une négociation entre les responsables « métier », qui savent le mieux la limite qu’il ne peuvent pas franchir sans mettre en péril le business, et le responsable informatique qui a une vue plus précise des capacités techniques de l’entreprise.
Suite à cette confrontation des réalités « business » et « informatique », une étude des solutions techniques et financières pourra être faite.

Inventaire: le 1er pas

Le Plan de Reprise des activités doit se concevoir comme un élément de la gestion des risques et nécessite à ce titre un inventaire précis des actifs. Cet inventaire permettra non seulement de classifier les actifs afin de distinguer par exemple les applications vitales, critiques ou standards.
Il permettra également d’optimaliser la maintenance du matériel et des applications, afin de prévenir un certain nombre d’incidents.
Certains PRA prévoient la construction d’un site distant, qui devra prendre le relais en cas de catastrophe sur le site principal. Dans ce cas, le matériel de remplacement sera constamment prêt à l’emploi. Il devra aussi être adapté à cette situation de crise, qui dans une majorité de cas ne durera que quelques temps.
Pour en savoir plus sur le Plan de reprise d’activité, consultez notre fiche technique.

Scénario: incendie majeur en salle serveurs

=> L’analyse de risques a préalablement détecté plusieurs vulnérabilités dans la salle serveurs hébergeant les données vitales de l’entreprise. Il n’y a pas de détecteur de fumée, il n’y a aucun moyen d’extinction automatique d’un incendie et le système de sauvegarde est hébergé dans la même salle que les serveurs.

Thème général : Un court-circuit provoque la destruction totale de la salle serveurs.
L’incident:
Le dirigeant de l’entreprise a décidé de lancer des travaux de rénovation électrique. A la veille du week-end, un ouvrier travaillant dans le tableau électrique se situant dans la salle serveurs, néglige des raccordements sur les disjoncteurs. Dans la nuit de vendredi à samedi une surchauffe due à un faux contact, provoque un incendie détruisant l’entièreté des moyens informatiques. Facteur aggravant, les systèmes de sauvegarde sont dans la même salle serveurs. Toutefois, une copie des sauvegardes est placée mensuellement dans un coffre-fort d’un bâtiment annexe.
Composantes du scénario:

  • Sources du problème : Un incendie
  • Menace : Négligence d’un ouvrier
  • Vulnérabilités : Aucun système de détection de fumée et aucun moyen d’extinction d’incendie
  • Support informatiques impactés : Réseau + serveur + systèmes de sauvegarde
  • Conséquence immédiate : Perte de disponibilité
  • Impact potentiel sur l’organisation : Perte d’exploitation – perte financière

Éléments à tester:

Sur la base de la sauvegarde hébergée dans le coffre-fort du bâtiment annexe:

  • Sommes-nous en mesure de respecter le RTO ?
  • Sommes-nous en mesure de respecter le RPO ?

Contre-mesures / solutions techniques à tester:

  • Pour le redémarrage des services informatiques sommes-nous en mesure :
    • D’utiliser une salle serveurs provisoire ou de remplacement ?
    • Les ressources humaines sont-elles disponibles et ont elles les compétences pour reconstruire l’infrastructure ?
  • Le fournisseur est-il en mesure de respecter le SLA (s’il existe) pour la livraison de matériels de remplacement ?

Voir aussi: Mesures de sécurité pour PME – L’infrastructure face aux menaces sur CASES