Traiter des centres de données est un sujet plutôt critique, mais ô combien incompris au sein du monde des TI et de l’ingénierie des infrastructures électromécaniques.
En fait, un des aspects les plus ambigus de ces domaines semble définitivement être, lors de rencontres avec des clients, la définition de la classe d’un centre de données (Tier level, en anglais) qui peut osciller entre 1 et 4.
Originalement, la qualité du service livrable de l’industrie des TI n’étant gérée par aucune norme et aucun organisme, tout un chacun y allait de sa définition et de sa méthode de gestion du risque afin d’attirer de nouveaux clients. À vrai dire, rien n’était encore assez au point et reconnu pour valider ou invalider les infrastructures électromécaniques (ÉM), le tout étant alors sujet à interprétation.
Par contre, ces modèles portaient à interprétation. À titre d’exemple, si un site affichait une probabilité d’opération de 99,999 %, les gens du milieu disaient que le centre pouvait être à l’arrêt 8,75 heures par année, et ce, basé sur… 0,001 % de panne !
C’était l’époque de la confusion, un peu comme les expressions de type « qualité totale », avant que les normes ISO 2000 ou 6-Sygma ne s’imposent.
En bref, il était donc très difficile pour un client de déterminer si la salle informatique de la compagnie A était meilleure que celle de la compagnie B. Puisque les centres de données connaissaient (et connaissent toujours aujourd’hui) une croissance annuelle de l’ordre de 10 %; il devenait donc important de pouvoir les comparer sur une même base.
Définir une norme
Un groupe d’individus du Uptime Institute, un organisme fondé en 1993 qui fournit des services pour l’industrie des centres de données, a alors eu l’idée de mettre en place le principe des différentes classes pour les infrastructures électromécaniques. Ces classes, allant de I à IV (I étant le plus faible et IV, le plus élevé), décrivaient avec assez de précision les limites de chacun, leur mode de conception et le pourcentage de probabilité de panne de chacun. Par contre, cette probabilité n’avait que pour but de démontrer l’impossibilité d’un centre de données d’être « parfait ».
Aujourd’hui, les classes sont bien établies et acceptées par l’industrie, et même les gouvernements de tous les paliers les utilisent comme jalon de conception. Ces normes ont évolué avec le marché afin d’être toujours représentatives des besoins des usagers et du milieu.
Avec les années, l’Uptime Institute a su s’imposer presque comme une norme… et veut être reconnu comme tel. C’est pourquoi son mode décisionnel a pris une tout autre tangente. L’organisme est à présent composé de membres professionnels qui doivent être des opérateurs de centre de données ou des membres individuels, qui veulent bénéficier des dernières informations. On y retrouve notamment des compagnies comme CGI, BMO, RBC et Toyota. Seuls les membres professionnels peuvent se prononcer sur l’orientation des normes et leurs modifications.
Ainsi, ce n’est plus un petit groupe d’individus qui dicte comment les centres de données devraient êtres conçus et opérés, mais plus de 70 sociétés d’envergure qui forgent les normes selon les besoins réels en activité, selon les attentes de leur marché respectif.
Même si la quasi-totalité des membres de l’Institut est issue de grandes entreprises, les principes de la topologie de conception des classes sont applicables pour tous les types d’organisations, de la vente au détail à la gestion de portefeuille en passant par l’industrie du jeu en ligne, de la téléphonie et même de la télédiffusion.
Le monde d’aujourd’hui ne permet pas l’arrêt du traitement de l’information. Une perte de transmission de signal ou une interruption de service entraîne des pénalités monétaires et diminue conséquemment la crédibilité de l’opérateur du centre de données.
Naturellement, cette perte monétaire n’est pas la même selon le type de services rendus. Il est clair qu’un arrêt de quelques minutes du centre de traitement de la Banque Royale au centre-ville de Toronto, qui négocie des milliards de dollars par jour, peut engendrer des millions de dollars en pénalité.
Par contre, même si l’impact monétaire est moindre, l’impossibilité pour un caissier d’accéder à sa caisse enregistreuse, du fait que le centre de donnée principal est en panne, rendra nécessairement ses clients mécontents, ce qui pourrait éventuellement profiter aux concurrents immédiats.
Quelle classe de centre de données choisir ?
Certaines topologies, de classe 1 et 2, principalement, font en sorte qu’une partie ou la totalité du centre de données pourrait être mis hors tension lors de travaux d’urgence ou même lors d’un entretien planifié.
Si vous jugez que vos opérations sont critiques et que la perte d’opération puisse engendrer des pertes monétaires ou de clientèle considérable, il serait temps de revoir votre stratégie d’infrastructure électromécanique afin de l’adapter à la réalité de votre modèle d’affaires.
Ceci dit, quelle classe choisir ? Il s’agit de la grande question. Chaque sphère de marché possède ses critères afin de déterminer la classe appropriée. Il nous sera évidemment impossible de les couvrir de manière exhaustive.
D’abord, sachez qu’une telle décision ne se prend pas à la légère et que les équipes de direction (et mêmes les conseils d’administration) devraient être impliqués dans le processus de sélection de la classe de centre de données adaptée et acceptable pour l’entreprise. Une telle décision nécessite des budgets qui permettront de réaliser les objectifs selon un échéancier précis. Présentement, dans le marché du commerce de détail, la classe 1 (un UPS, une génératrice, une unité de climatisation) est la plus répandue.
Par contre, les grandes entreprises tendent vers le niveau 2 (redondance des équipements) et même vers la classe 3, qui se caractérise par une redondance concourante des équipements électromécaniques, mais également des chemins d’alimentation. Cette configuration porte le nom de « Concurrently Maintainable ».
Un centre de données de classe 3 vise à respecter la réglementation, laquelle est de plus en plus renforcée dans toutes les provinces canadiennes, qui interdit aux électriciens de faire des modifications sur de l’équipement sous tension. C’est-à-dire qu’un électricien peut refuser d’installer une nouvelle prise de courant si le panneau n’est pas mis hors tension. Si un seul panneau alimente le centre de données ou la salle des serveurs, cette situation deviendra nécessairement très difficile à gérer.
Les autres marchés, que ce soit au niveau bancaire, de l’impartition, de la colocation, des jeux en ligne… sont majoritairement, à ce jour, de classe 2. Par contre, pour les mêmes raisons relatives aux normes énumérées précédemment, la tendance est d’opter pour la classe 3. Afin de déterminer la classe de centre de données qui correspond le mieux à vos installations, vous pouvez mandater un ingénieur qualifié dans le domaine, lequel pourra vous guider dans vos choix et établir vos budgets selon vos attentes.
À mon humble avis, toute infrastructure de centre de données est vouée à connaître une panne un jour ou l’autre. Le fait de la concevoir, de l’opérer et de l’entretenir selon les règles de l’art et un processus rigoureux permettant de repousser cette éventualité année après année. Par contre, gardez à l’esprit qu’une panne majeure de centre de données est rarement causée par un événement isolé, mais plutôt par une série d’événements improbables !
Connaître ses infrastructures et instaurer les bonnes mesures de télésurveillance afin de prévenir et détecter les problématiques qui pourraient survenir est la clé du succès, et ce succès est le fruit d’un travail d’équipe qui saura réunir tous les intervenants impliqués de près ou de loin dans l’opération du centre de données.