Duquesne Group Duquesne Group

English version
Recherche et Analyse

Pour éclairer les décideurs dans le domaine de la Continuité d'Activité et de la Sécurité de l'Information, Duquesne Group propose ses analyses et réflexions issues de ses réalisations concrètes en clientèle. Observation critique du terrain par nos experts, contacts permanents avec les principaux acteurs du domaine et expérience vécue dans nos missions de conseil sont nos principales sources. Contactez-nous pour en savoir +
French version
Research

To support decision makers in the management and optimisation of information systems, Duquesne Group delivers in-depth analyses of information technologies, their implementations and their markets. Our research is based on critical observation of the market by our analysts and their on-going contacts with the vendor community, together with hands-on, practical experience from our consulting work. Contact us to find out more


Continuité dans le Cloud : Orange apporte-t-il des solutions?


Peut-on considérer les acteurs du Cloud à l’abri d’incidents disruptifs majeurs, voire de sinistres graves ? Surtout, ces hébergeurs du monde virtuel, nous proposent-ils de véritables solutions s’ils sont confrontés à de telles défaillances ?



Continuité dans le Cloud : Orange apporte-t-il des solutions?
Dans le discours ambiant autour du Cloud, un besoin vital des clients est souvent relégué au deuxième plan : la continuité des services fournis aux métiers des entreprises.

Le sujet revient de temps en temps sur la table quand les services d’un grand acteur du Cloud sont coupés ou fortement perturbés par la tombée de la foudre ou un incident technique majeur. Cependant, grâce à la résilience de la plupart des data centers Cloud, les clients ont jusqu’ici subi des défaillances qui étaient certes pénalisantes mais rarement d’une grande dangerosité.

Cela étant dit, à notre époque, nous avons de bonnes raisons pour admettre que des événements très rares - mais à impact très lourd - finissent par arriver. Un jour ou l’autre, ici en France ou ailleurs, un data center Cloud sera gravement sinistré - pour des raisons naturelles, techniques ou humaines - mettant en grand danger, voire en péril mortel, l’activité de ses clients. C’est un peu comme la grande crue centennale de la Seine : la question n’est pas « si » mais « quand ».

Par ailleurs, même en mettant de côté le risque d’un très grand sinistre, les entreprises aujourd’hui deviennent de plus en plus exigeantes sur la continuité du service, à mesure qu’elles déploient en Cloud les systèmes innovants d’engagement client ou de gestion des objets connectés, voire tout simplement leurs applications « cœur de métier » plus classiques.

Dans l’univers du Cloud public, Orange est parmi les rares acteurs à proposer un ensemble de solutions de reprise en cas de sinistre. Mais ces solutions, notamment au sein de sa gamme Flexible Computing Premium, répondent-elles bien aux problématiques des clients ?

La continuité du Cloud pour la continuité d’activité des entreprises

Tout d’abord, mettons-nous dans le contexte d’une entreprise (ou d’ailleurs d’une organisation publique) qui élabore son Plan de Continuité d’Activité (PCA), que ce soit pour des raisons réglementaires ou contractuelles, voire suite à une décision clairvoyante et responsable prise par sa Direction.

La norme ISO 22301 : la nécessaire prise en compte des hébergeurs dans les PCA des entreprises.

Naturellement, ce processus devrait être conduit en s’appuyant sur les règles de l’art et les bonnes pratiques reconnues. La référence normative incontournable pour les PCA (et plus largement pour le management de la Continuité d’Activité dans la durée) est le standard international ISO 22301, également adopté par l’AFNOR comme norme française et appuyée par l'Etat français.

Un point clé de cette norme est l'exigence pour les entreprises d'évaluer – et de prendre en compte dans leurs PCA - les mesures de continuité d'activité de leurs fournisseurs, surtout chez ceux qui sont « critiques » pour les métiers. Les hébergeurs des applications vitales – que ce soit en mode traditionnel ou en Cloud - sont donc en première ligne, car un sinistre chez eux pourrait compromettre la continuité des activités de leurs clients.

Cependant, la norme n’exige pas un véritable « audit » du PCA global de l’hébergeur. Elle demande une évaluation - ciblée sur le périmètre des prestations et généralement fondée sur des échanges - permettant d’apprécier le sérieux des mesures de continuité en place. Dans le cas des prestations « critiques », cette évaluation devrait aussi prendre en compte des solutions spécifiques, disponibles en option, comportant de véritables engagements sur la reprise du service en cas de sinistre, autrement dit, des Options PRA (Plan de Reprise d’Activité).

Le RPCA et la problématique du Cloud

Dans ce contexte, le choix de faire héberger des applications importantes dans un Cloud public représente souvent une vraie problématique pour le Responsable du Plan de Continuité d’Activité (RPCA) d’une entreprise.

Sur le côté positif, l’hébergement en Cloud se fait généralement dans un data center sécurisé et résilient de très bon niveau. De plus, qui dit « Cloud » dit (a priori) « loin », en tout cas en dehors de la zone de risque de l’entreprise. Le Cloud permet donc de limiter – ou tout au moins déconcentrer – certains risques d’interruption du service fourni aux métiers du client.

En revanche, le choix du Cloud induit des difficultés pratiques (comme d’ailleurs le choix de l’infogérance classique) pour l’élaboration du PCA. Les contrats de service (les SLA, « Service Level Agreements ») de la plupart des acteurs du Cloud ne permettent pas au RPCA d’apprécier sérieusement les mesures de continuité en place chez les prestataires et presque jamais de comprendre ce qui se passerait pour son entreprise en cas de sinistre important, touchant un grand nombre de clients.

Certes, un cabinet spécialiste comme Duquesne Group peut évaluer assez rapidement les dispositifs généraux de continuité en place chez le prestataire et déterminer s’il faut aller plus loin dans l’évaluation.

Néanmoins, il reste une difficulté majeure. Un RPCA qui a bien pris la mesure des DMIA (Durée Maximale d’Interruption Admissible) des métiers ne peut pas se contenter – dans le cas des activités les plus critiques – des taux théoriques de disponibilité annoncés par les SLA. Les pénalités contractuelles ne changent en rien son problème : elles sont toujours dérisoires par rapport au préjudice subi en cas d’interruption de service prolongée et, de toute façon, les SLA ne s’appliquent plus dans le cas d’un sinistre très grave considéré comme « force majeure », ou de tout sinistre explicitement exclu de l’obligation de résultat du prestataire.

Pour les applications critiques, le RPCA pourrait avoir besoin d’engagements clairs sur ce qu’on appelle (dans le jargon de la continuité d’activité) :
  • d’une part, le RTO (« Recovery Time Objective ») : le temps nécessaire pour le rétablissement des moyens nécessaires au service, suite à un sinistre
  • d’autre part, le RPO (« Recovery Point Objective ») : la perte de données maximale admissible, exprimée usuellement aussi comme une durée (par exemple, 30 minutes ou 4 heures ou 24 heures) de données perdues.

Bien entendu, ces deux paramètres techniques sont à ajuster avec les exigences des métiers pour la reprise de leurs activités (au moins en mode dégradé) et en particulier avec les DMIA du PCA.

Ici nous sommes malheureusement confrontés à une pénurie du côté de l’offre. Si certains hébergeurs en mode classique s’engagent ainsi pour les clients ayant souscrit une Option PRA, aucun des grands acteurs américains du Cloud public ne prend de tels engagements. Le client lui-même peut toujours mettre en place et gérer – a priori dans une autre « zone de disponibilité » de son fournisseur cloud – sa propre solution de secours, mais c’est, comme on dit en anglais, « do it yourself », une démarche souvent hors de portée pour beaucoup d’entreprises, notamment celles de taille moyenne ou intermédiaire.

Dans ce paysage du Cloud public, Orange fait figure d’exception. C’est pourquoi, dans la suite de cet article, nous nous intéressons aux solutions PRA de Flexible Computing Premium (FCP), sa gamme de Cloud managé.


Les solutions de reprise sur sinistre de Flexible Computing Premium

FCP est une offre d’Infrastructure as a Service (IaaS) pour les entreprises et les organismes qui souhaitent bénéficier des avantages du Cloud, tout en déléguant tout ou partie de la gestion des infrastructures, voire de l’exploitation des applications. Standardisée mais modulable par application, la palette de services managés de FCP s’étend de la gestion des systèmes d’exploitation (OS managé) jusqu’à l’Infogérance complète, en passant par le management des middlewares et la supervision 24x7. Le client peut aussi faire appel à des expertises à la demande (« Cloud Coach ») et à la capacité d’Orange à mettre en place des solutions personnalisées à ses besoins. Contrairement aux grands Clouds publics américains, FCP est donc une offre de Cloud managé avec des services à la carte.

En France, le service FCP est fourni depuis des data centers reconnus comme hautement sécurisés et résilients, repartis sur le territoire national. S’agissant d’un service de Cloud managé, Orange propose systématiquement l’externalisation des sauvegardes des données et des machines virtuelles, ce qui lui permettrait de reconstruire l’environnement des applications des clients en cas de sinistre grave d’un data center.

De plus, les data centers FCP sont organisés en binômes, c’est à dire, chaque site de production nominal est étroitement associé à un site de secours. Sur cette topologie, Orange propose en option – mais avec engagement de résultat en termes de RTO et de RPO - plusieurs solutions de reprise, afin de répondre au mieux aux besoins spécifiques du client.

Précisons tout de suite que ces engagements concernent ce qui est de la responsabilité d’Orange dans son contrat avec le client, selon le niveau de service choisi. Dans son PCA, l’entreprise devrait aussi prendre en compte des facteurs comme l’éventualité de données corrompues de son fait et répliquées sur le site de secours, ou encore la problématique de cohérence applicative à rétablir. Mais de toute façon, les engagements RTO/RPO pris par Orange dans ses solutions PRA peuvent simplifier considérablement la tâche d’un RPCA qui doit évaluer – dans l’esprit de la norme ISO 22301 - les mesures de continuité en place chez les hébergeurs d’applications critiques.

« Plateforme PRA »

Depuis environ un an, Orange a enrichi son offre Flexible Computing Premium avec une option de reprise que nous appelons ici « Plateforme PRA ». L’objectif est de protéger l’ensemble des clients ayant souscrit cette option contre, soit une défaillance majeure de la plateforme cloud les hébergeant, soit un véritable sinistre frappant le data center tout entier.

Toutefois, pour un client, le choix de protection n’est pas « tout ou rien » mais plutôt par VM (« virtual machine »). Le client peut choisir, par exemple, de protéger ses VM de production (surtout pour les applications critiques) sans pour autant retenir cette option pour d’autres VM moins critiques.

Cela étant dit, la solution de « Plateforme PRA » se situe bien au niveau de la plateforme Cloud qui héberge les VM protégées. Dans ce contexte, face à une crise qui met en danger le service pour tous les clients, il incombe forcément à Orange, responsable du service, de prendre la décision de basculer l’ensemble des VM protégées du site nominal sur le site de secours.

Bien entendu, il s’agit d’une décision lourde. Il faut savoir faire la part des choses entre le cas d’un incident perturbant, mais réparable sous quelques heures, et le cas d’une défaillance ou sinistre grave qui pourrait entrainer une coupure longue et dommageable pour les clients. Si une décision de bascule s’impose, il faut être bien organisé, afin de pouvoir conduire tous les processus techniques et humains nécessaires.

Pour s’y préparer, Orange a mis en place des procédures détaillées de gestion de crise : les processus d’escalade, la constitution de la cellule de crise, les critères de décision, les missions et les rôles, les astreintes … sans oublier l’indispensable communication avec les clients. Selon Orange, ces procédures sont bien rodées et mises à jour à chaque changement au niveau de la plateforme et lors d’entrées/sorties des personnes impliquées.

L’architecture générale de la solution est présentée dans le schéma ci-dessous.

La clé de voûte de la solution est SRM (« Site Recovery Manager ») de VMware, outil mature et éprouvé de définition et d’orchestration de reprise. Chaque client a son plan de reprise qui regroupe les VM par application, ce qui, sous le contrôle de SRM, permet de redémarrer les VM et les applications en bonne ordre en cas de bascule sur le site de secours.

En revanche, SRM n’assure pas lui-même la réplication des données. Dans la plupart des cas (dont la solution « Plateforme PRA » d’Orange), il passe par la réplication baie à baie (« Storage Array Replication ») via un SRA spécifique (« Storage Replication Adaptor »), afin de tirer parti de la performance intrinsèque des baies et de leur interconnexion. Ce type de réplication n’est pas, comme on dit en anglais, « application aware », à charge de SRM d’aller chercher et reconstruire les VM d’une application en cas de bascule.

Avec sa solution « Plateforme PRA », Orange peut s’engager en cas de bascule sur les RTO/RPO de 4 ou 24 heures selon l’option choisie, en intégrant deux heures de prise de décision suite à la détection de l’incident.

Toutefois, il ne faut pas perdre de vue qu’il s’agit d’un PRA des infrastructures, ce qui veut dire que les VM avec les applications et les données se retrouvent sur le site de secours, avec les liens réseau de client basculés par Orange. Selon les applications, il peut prendre plus de temps de redémarrer certains traitements (notamment s’il faut s’assurer de la cohérence applicative), mais l’essentiel est à l’abri.

En matière de tests, Orange propose en standard un test par an, mais peut en organiser davantage sur devis. Ces exercices techniques s’appuient sur la fonction « Test » de SRM, ce qui permet de les mener dans des environnements virtuels dédiés, sans interruption du service aux métiers. Ceci est un avantage majeur par rapport aux tests des secours physiques traditionnels, souvent lourds à organiser, et parfaitement en ligne avec ISO 22301 qui précise que les tests doivent « minimiser le risque de perturbation des opérations. »

« vApp PRA »

Si la solution « Plateforme PRA » apporte déjà une protection de base à beaucoup de clients FCP, d’autres entreprises seront toutefois plus exigeantes. Ils peuvent avoir besoin d’un temps de reprise plus court ou encore davantage de souplesse pour la conduite des tests et dans la décision de basculer une application (ou plus précisément une vApp, ce qui veut dire un groupe de VM qui supportent une application) sur le site de secours. Pour répondre à ces exigences, Orange a récemment mis à leur disposition une solution sur mesure que nous appellerons ici « vApp PRA ».

Par ailleurs, Orange propose cette solution aussi sur Flexible Computing Advanced (FCA), le cousin germain de FCP mais sur lequel les partenaires « IT Pros » (essentiellement les intégrateurs) fournissent leurs services.

L’architecture générale de la nouvelle solution est présentée dans le schéma ci-dessous.

La clé de voûte de la nouvelle solution « vApp PRA » est Zerto, outil reconnu comme leader du marché de la réplication et de la récupération des VM et données associées. La réplication se fait ici, au niveau supérieur, celui de la couche hyperviseur et non plus au niveau plus bas des baies de stockage. Contrairement aux architectures SRM/SRA, la réplication Zerto est « application aware » et « storage agnostic ».

Comme présentés sur le schéma, les deux éléments clés de la solution sont :
  • Zerto Virtual Manager (ZVM) —Le ZVM s’interface directement avec le portail de management VCenter de VMware, ce que lui donne une vision complète de toute l’infrastructure. ZVM est en quelque sorte le centre nerveux de la solution, gérant la réplication des VM dans le domaine VSphere tout entier et surveillant les applications et les données en cours de réplication en temps réel.
  • Virtual Replication Appliance (VRA) — Le VRA est un module logiciel automatiquement déployé sur des serveurs physiques. Il est chargé de répliquer au fil de l’eau les données des VM protégées et – après compression – de les envoyer au site de secours sur le réseau WAN.

Dans sa mécanique de réplication, Zerto offre aussi une fonction de journalisation appelée « Continuous Data Protection », ce qui permet de choisir assez finement le point de reprise le plus approprié, notamment pour aider à traiter les contraintes de cohérence applicative.

S’appuyant sur ce socle technologique, la nouvelle solution « vApp PRA » offre plusieurs avantages en termes de reprise accélérée, de protection des données et de souplesse pour le client.

En matière de temps de reprise, le temps de bascule théorique de Zerto est très court, de l’ordre de quelques minutes. Toutefois, l’engagement RTO que peut prendre Orange dépend des dispositions contractuelles avec le client et notamment la répartition des responsabilités. Si la décision de basculer est prise par le client, Orange peut s’engager sur un RTO assez court, à partir de la confirmation de la décision client. En revanche, si le client délègue cette décision en tout ou partie à Orange, il faut y’intégrer le temps nécessaire pour la prise de décision suite à un incident disruptif.

Au niveau de la protection des données, Orange peut s’engager sur un RPO de 30 minutes, en fonction des performances intrinsèques de la réplication et de la bande passante mise à disposition. Toujours faut-il garder à l’esprit que le choix du point de reprise réel en situation de sinistre dépend aussi de la problématique de cohérence applicative.

De plus, la solution « vApp PRA » permet une simplification des opérations de bascule et de rétablissement, entre le site protégé et celui de secours et plus de souplesse pour les tests, toujours en environnement virtuel et donc sans interruption du service aux métiers. Surtout, elle offre une granularité plus fine : la décision de basculer ne se prend plus obligatoirement pour toute la plateforme mais au niveau de la vApp qui porte une application client.

Choisir la solution de reprise qui répond au besoin de l’entreprise

Dans le cadre de son PCA, l’entreprise doit se prémunir contre les sinistres affectant les data center, cause d’une interruption potentiellement longue du service de ses applications en Cloud. Orange de son coté a mis en place, dans sa gamme Flexible Computing Premium, un éventail de solutions managées de continuité et de reprise, pour répondre au mieux aux besoins différents et variés de ses clients.

Pour les applications peu critiques, la simple externalisation des sauvegardes des données et des machines virtuelles pourrait apporter une réponse adéquate. En cas de sinistre grave d’un data center Cloud, Orange saurait alors reconstruire ailleurs les environnements des applications des clients. L’engagement est de type « best efforts » (c’est à dire, sans RTO ni RPO), mais cela peut être suffisant dans bien des cas.

En revanche, pour les applications critiques, beaucoup d’entreprises ont besoin des engagements contractuels en matière de RTO et RPO, en ligne avec les exigences de leurs métiers et pouvant être pris en compte dans leurs propres PCA. La solution « Plateforme PRA » de FCP répond déjà à ce besoin.

D’autres entreprises seront toutefois plus exigeantes, à la fois en termes de temps de reprise et de souplesse dans la conduite des tests et dans une éventuelle décision de basculer. Dans bon nombre de ces cas, une solution (plus récente) de type « vApp PRA », telle que proposée par Orange, parait le choix le plus judicieux.

Enfin, certaines entreprises seront plus exigeantes encore en matière de continuité de service et de protection des données. Or là aussi, Orange a démontré sa capacité aux travers de nombreux projets clients de mettre en place et gérer des solutions sur mesure encore plus sophistiquées et performantes. Citons en particulier :

« Actif-Actif »

Depuis quelques années, Orange a mis en œuvre pour certaines applications sur FCP des solutions de type « actif-actif », les seules à pouvoir garantir - mais sous réserve d’une distance raisonnable entre les sites - un RTO de zéro : quand un site tombe en panne, la charge va automatiquement sur l’autre site. Pour la contrainte de distance, Orange – en tant qu’opérateur de réseau – a un certain avantage sur la plupart de ses concurrents dans le Cloud.

« Actif-Passif croisé »

Dans des projets de cloud privé, Orange a souvent mis en place des solutions de type actif-passif croisés, par exemple dans deux sites localisés dans des pays européens différents (Allemagne et Italie dans un grand projet récent). Contrairement aux solutions de type actif-actif, la « bascule » ne se fait pas automatiquement, mais de telles solutions peuvent assurer un bon temps de reprise et un très bon niveau de protection des données.

« SRM/SRA avancé »

Malgré la percée des solutions avec réplication au niveau hyperviseur comme Zerto, les architectures les plus récentes à base de SRM avec réplication baie à baie présentent des avantages pour des clients qui ne peuvent pas accepter la moindre perte des données. Pour répondre aux attentes de ces clients, Orange commence à mettre en place sur FCP des solutions de ce type, certes relativement complexes, mais qui répondent bien aux besoins d’un certain nombre d’applications particulières.

Conclusion

Avec le déploiement et le management des solutions PRA de Flexible Computing Premium, Orange répond - dans son domaine de responsabilité - à un besoin vital des entreprises : la continuité des services fournis aux métiers.

En matière de continuité dans le Cloud, l’ambition revendiquée des équipes d’Orange est de fournir la solution qui répond aux besoins spécifiques du client, quel que soit son niveau d’exigence. D’ailleurs, la diversité des solutions proposées est bien en phase avec la norme ISO 22301, qui ne dicte pas tel ou tel type de solution mais qui demande que la mesure de « traitement d’un risque » retenue par l’entreprise réponde aux « exigences » de ses métiers dans le PCA et qu’elle soit en ligne avec « la tolérance au risque » de sa direction.

Ce faisant, le groupe Orange tient potentiellement un véritable facteur de différenciation dans l’univers du Cloud. En effet, conjuguée avec son portefeuille de services managés et sa maîtrise du réseau, son offre de solutions PRA dans la gamme Flexible Computing Premium met la fiabilité de son service au premier rang de sa proposition de valeur.



Donald Callahan
Jeudi 12 Mai 2016

Home Home    Mail Mail    Print Print    Zoom + Zoom +    Zoom - Zoom -    Share Share


Dans la même rubrique :
< >

Mercredi 5 Octobre 2016 - 17:48 Attention : un SMCA n'est pas un PCA !


Duquesne Research Newsletter