Raisons menant à l’effondrement du centre de données

Raisons menant à l’effondrement du centre de données

Les opérateurs de données commettent parfois des erreurs pouvant entraîner la fermeture de l’ensemble du centre de données. Cependant, la plupart de ces problèmes peuvent être évités grâce à des mesures de maintenance, des procédures d'inspection et grâce au bon sens et à l'expérience des exploitants du système.

Une « panne imprévue du centre de données » est une façon polie de parler d'un centre de données rencontrant des problèmes entraînant un temps d'arrêt. Que la cause première soit une erreur matérielle, une erreur logicielle ou une erreur humaine, la plupart de ces erreurs peuvent et doivent être évitées à l’avance. Avec le niveau élevé de redondance des risques en place dans les centres de données d'aujourd'hui, il est tout à fait possible de prévenir les incidents à l'avance.

Une chose intéressante est que des erreurs, grandes et petites, peuvent encore se produire à tout moment dans un centre de données, et les dommages causés lorsque les centres de données cessent de fonctionner ne sont pas minimes, même pour une courte minute. Selon une étude réalisée par Data Center Knowledge, les temps d'arrêt des centres de données peuvent coûter aux entreprises environ 7 900 dollars par minute. En fait, 93 % des entreprises dont les centres de données sont indisponibles pendant 10 jours ou plus ont fait faillite en un an, et 40 % se sont effondrées immédiatement. Et une autre étude portant sur 41 centres de données évalués a révélé que le coût moyen des pannes imprévues comprenait plus de 179 000 dollars en interruption d'activité, environ 118 000 dollars en perte de revenus et environ 42 000 dollars en productivité. Si les gestionnaires de centres de données se concentraient simplement davantage sur la recherche et la correction des principales causes des erreurs courantes, ils réduiraient considérablement les risques potentiels.

Raisons menant à l’effondrement du centre de données

Le problème est que de nombreux opérateurs et opérateurs de centres de données se concentrent souvent davantage sur la croissance et les revenus au lieu de maintenir et de renforcer ce qui existe déjà. Si vous prêtez attention aux administrateurs de nombreux centres de données publics et privés aujourd'hui, vous verrez qu'ils se préoccupent presque exclusivement de l'augmentation de la capacité de stockage, de l'augmentation de la densité des serveurs et de l'augmentation de la densité des serveurs. systèmes de refroidissement, par exemple. Bien que tout cela soit formidable, indispensable et témoigne d’une croissance incroyable dans le secteur du stockage de données, cela montre également pourquoi les centres de données tombent en panne, ce qui se produit de plus en plus fréquemment.

Dans cet article, nous explorerons les raisons courantes pour lesquelles les centres de données sont désactivés et mettrons en évidence ce que les administrateurs peuvent faire pour les minimiser, voire les éliminer, résoudre complètement ces problèmes, ainsi qu'améliorer la stabilité de votre système.

Raisons menant à l’effondrement du centre de données

Erreur causée par les humains

Ce sont les causes les plus simples et aussi les plus difficiles à éviter. Autrement dit, tout le monde peut faire des erreurs. Avec 22 % des pannes causées par une erreur humaine, cette cause mérite d’être examinée attentivement et, surtout, peut être évitée relativement facilement.

Autorisation système incorrecte

Raisons menant à l’effondrement du centre de données

En réalité, très peu d’administrateurs disposent d’un accès complet et illimité à tous les systèmes d’un centre de données. Au lieu d’accorder cette autorisation à davantage de personnes, l’accès doit être étroitement géré. Sinon, il est tout à fait possible qu’une erreur grave se produise dans le système. Par exemple, lors de l'incident de Joyent en 2014, un administrateur expérimenté a accidentellement redémarré toutes les machines virtuelles du centre de données est de l'entreprise en quelques clics seulement.

Mauvaises procédures de sauvegarde

Raisons menant à l’effondrement du centre de données

Lors de la planification des tâches de maintenance, une étape importante mais souvent oubliée est le processus de sauvegarde. Souvent, les processus sont documentés mais ne sont pas examinés de manière approfondie, et il arrive souvent que les éléments ne soient pas complètement restaurés dans leur forme d'origine après la maintenance.

Faire trop de changements

Raisons menant à l’effondrement du centre de données

Lors de la maintenance, si un administrateur tente d'effectuer trop de modifications à la fois, cela peut entraîner des problèmes. Premièrement, les administrateurs ont souvent une mentalité précipitée car ils doivent accomplir un grand nombre de tâches dans un court laps de temps, ce qui conduit souvent à des erreurs. Deuxièmement, étant donné que de nombreux changements se produisent dans le même laps de temps, le dépannage après changement est une tâche beaucoup plus difficile.

Laxisme dans la gestion des ressources humaines

Raisons menant à l’effondrement du centre de données

Cela semble un peu dur, mais les employés doivent savoir suivre strictement les règles du centre et doivent être sévèrement disciplinés s'ils les violent. Par exemple, aucun centre de données ne permet aux employés de manger ou de boire pendant qu'ils sont au travail, et les interrupteurs d'urgence doivent être clairement étiquetés et sécurisés. Ces choses peuvent paraître minimes mais peuvent conduire à des incidents majeurs, alors assurez-vous que les règles sont toujours strictement respectées.

Erreur système

L'alimentation de secours n'est pas garantie, l'équipement est ancien ou mal configuré.

Raisons menant à l’effondrement du centre de données

La raison la plus courante pour laquelle un centre de données tombe en panne est une panne de courant. Des pannes de courant peuvent survenir à tout moment. Par conséquent, les centres de données sont conçus avec des sources d’alimentation de secours en cas de panne de courant principale. Des batteries ou des systèmes générateurs sont souvent utilisés comme alimentation de secours. Le problème est que la batterie peut ne pas être remplacée à temps, le générateur peut ne pas être inspecté et entretenu, ce qui entraîne des problèmes en cas de panne de courant. Tout cela signifie que vos capacités de sauvegarde peuvent ne pas être disponibles lorsque vous en avez le plus besoin.

En cas de panne de courant, les systèmes UPS utilisent des batteries comme alimentation de secours, ce qui en fait un élément essentiel pour maintenir la disponibilité des centres de données. Cependant, la batterie ne fonctionne pas toujours bien. Effectuez l’entretien recommandé par les fabricants eux-mêmes pour vérifier l’état de la batterie. Au moins une fois par trimestre, les batteries doivent être inspectées pour vérifier qu'elles sont correctement installées, déchargées et chargées. Cela comprend des inspections visuelles, des contrôles de capacité et une surveillance régulière via un logiciel ou le fournisseur UPS lui-même.

De plus, les températures élevées peuvent réduire la durée de vie de la batterie du système. La construction d'une salle UPS dédiée peut contribuer à réduire l'usure de la durée de vie de la batterie. Vous devez également éviter de décharger fréquemment la batterie et faire attention aux connexions desserrées ou aux connecteurs usés. En bref, UPS est un système particulièrement important, il nécessite une conception raisonnable, une utilisation appropriée et un entretien strict.

Dysfonctionnement dans le système de refroidissement

Raisons menant à l’effondrement du centre de données

Les systèmes mécaniques d'un centre de données consomment beaucoup d'électricité, ce qui signifie qu'ils émettent une grande quantité de chaleur lorsqu'ils fonctionnent. Un data center peut devenir un crématorium après une minute de fonctionnement. C'est pourquoi le système de refroidissement est si important. Et même si vous avez des relevés de capteurs de température et des alertes envoyées aux administrateurs, vous devez vous assurer d'avoir suffisamment de temps pour mettre en œuvre les procédures de refroidissement de secours du centre avant que tout ne fonde".

De plus, de nombreux systèmes de refroidissement ne sont pas vraiment conçus pour faire face aux niveaux de chaleur accrus dans un centre de données moderne de grande capacité. Encore une fois, cartographier les situations dans lesquelles votre centre de données fonctionne à 100 % de sa capacité peut vous aider à planifier de meilleurs systèmes de refroidissement à l'avenir. La mise en place de systèmes d'alerte pour les fluctuations de température du système est également nécessaire. Vous pouvez utiliser certains logiciels de modélisation thermique et certains systèmes DCIM. De plus, les réfrigérants chimiques constituent un meilleur choix que les systèmes à base d’eau.

Le processus de conversion automatique ne fonctionne pas correctement

Raisons menant à l’effondrement du centre de données

La plupart des fournisseurs de services, des organisations et des entreprises disposent de centres de données de sauvegarde utilisés pour les centres de données de production. En cas de panne de courant au niveau du centre de données principal, le centre de données de sauvegarde sera automatiquement démarré et tout le trafic sera acheminé vers cette installation de sauvegarde. S’il est effectué correctement, le processus devrait être transparent jusqu’à l’utilisateur final. Malheureusement, les basculements automatiques ne fonctionnent souvent pas comme prévu. La cause habituelle de ce problème est le manque de tests réguliers. Même de petits changements dans l'infrastructure de production peuvent avoir un impact important sur le basculement automatisé. Par conséquent, lors de modifications apportées à l’infrastructure, les procédures de basculement automatisées devront être testées pour s’assurer que rien n’a dévié du processus.

Matériel obsolète

Raisons menant à l’effondrement du centre de données

Tout le matériel de chaque système a une certaine durée de vie. Et plus vous utilisez un matériel longtemps, plus vous risquez de rencontrer des problèmes. Tout le monde le sait, mais il est courant qu'une application importante plante simplement parce qu'elle fonctionne sur du matériel vieux de 10 ans. Ces problèmes surviennent souvent en raison du manque de plans complets de remplacement et de mise à niveau des nouvelles plates-formes matérielles ou logicielles, ou du manque de budget. Si c'est une question d'argent, vous ne pouvez rien faire. Mais si vous essayez simplement d’en profiter le plus longtemps possible, un problème peut survenir à tout moment, et lorsque cela se produit, les dégâts causés par le problème peuvent être bien plus importants.

Le système d'extinction d'incendie a un problème de fuite d'eau

Raisons menant à l’effondrement du centre de données

La plupart des centres de données modernes utilisent des systèmes de protection incendie sans eau afin de ne pas endommager les équipements s'ils sont activés volontairement ou accidentellement. Mais de nombreuses installations plus anciennes utilisent encore des systèmes de protection incendie traditionnels dans leurs centres de données. De nombreuses fuites d'eau ont provoqué des pannes importantes.

L'arrêt d'urgence est activé accidentellement

Raisons menant à l’effondrement du centre de données

Le haut niveau de sécurité physique mis en place dans la plupart des centres de données ne dissuade pas simplement les voleurs. Ils sont également mis en place pour éviter les employés qui ne comprennent pas le fonctionnement d’un data center. Par exemple, un administrateur d'application entre dans le centre de données et déclenche accidentellement une mise hors tension d'urgence (EPO). L'EPO est un gros bouton rouge, chargé de couper l'alimentation de l'ensemble du système. Et évidemment, pour ceux qui ne comprennent pas ou n’ont aucune expertise, une telle confusion est tout à fait possible.

Sous cyberattaque, ddos

Raisons menant à l’effondrement du centre de données

Au fil des années, les cyberattaques sont devenues l'une des principales causes de pannes des centres de données, passant de seulement 2 % en 2010 à 22 % en 2016. Les opérateurs des centres de données doivent prendre des mesures pour établir des systèmes permettant de détecter et d'atténuer rapidement les risques d'attaques.

Les centres de données sont difficiles à défendre contre une attaque DDoS à grande échelle . La plupart des FAI offrent une certaine protection aux couches 3 et 4 du réseau, mais vos services ont besoin d'une protection supplémentaire au niveau de la couche 7, qui peut être spécifiquement ciblée via HTTP GET ou des appels d'attaque similaire. Les services d'atténuation tels que les pare-feu, IPS/IDS et DDoS peuvent être combinés pour rediriger le trafic.

Catastrophe naturelle

La récente augmentation des tempêtes et des inondations peut entraîner des perturbations importantes dans les centres de données. Plus de 250 catastrophes naturelles se sont produites en 2010 aux États-Unis. Selon les statistiques, l'État du New Jersey, aux États-Unis, a subi 63,9 milliards de dollars de pertes dues à l'interruption de ses activités causée par la tempête Sandy en 2012.

Mesures pour limiter les dommages causés par les incidents d'« effondrement » des centres de données

Si les temps d'arrêt pour la maintenance de routine sont soigneusement planifiés et que les clients sont avertis à l'avance des temps d'arrêt du centre, en particulier pendant une période de faible trafic, les clients seront plus compréhensifs et les dommages seront considérablement réduits. Les dommages les plus importants surviennent lorsqu'ils surviennent de manière inattendue, et surtout lorsqu'ils durent longtemps, et que des problèmes supplémentaires surviennent. Maintenez la stabilité du système de ressources de l'ensemble de l'entreprise afin que les employés puissent faire leur travail efficacement, réduisant ainsi la charge des services informatiques.

Spécifiquement:

  • Sauvegardez vos données : en cas de panne de votre centre de données, vos données (et plus important encore, celles de vos clients) devraient être prêtes lorsque vous démarrez. Commencez le dépannage et relancez l'exécution. Effectuer des sauvegardes régulières limite le risque d’un véritable effondrement. Si votre entreprise peut se le permettre, certains produits comme la gamme de produits VPLEX d'EMC ou le logiciel de sauvegarde et de réplication de VEEAM peuvent aider à minimiser les temps d'arrêt en basculant automatiquement vers un emplacement de sauvegarde.
  • Maintenir une surveillance régulière du système serveur : La surveillance est un service que vous pouvez effectuer régulièrement et qui ne coûte généralement pas trop cher. Un service de surveillance tiers vous informe des temps d'arrêt potentiels du serveur afin que vous puissiez résoudre le problème immédiatement.
  • Minimisez les erreurs humaines : soyez prudent lorsque vous travaillez ou vous promenez autour des systèmes de serveurs ou des câbles électriques pour éviter de les endommager accidentellement, ou ne touchez tout simplement pas de mystérieux commutateurs sans votre expertise. Gardez les liquides à l'écart des systèmes mécaniques. Appelez un spécialiste de la protection des données chaque fois qu'un serveur a besoin d'une mise à niveau ou d'une maintenance, et respectez les règles du centre.

Chaque centre de données, des petits centres aux installations et fournisseurs de services à l'échelle de l'entreprise, doit s'efforcer à 100 % de fournir des services fiables aux utilisateurs. En prenant le temps de planifier l'avenir, en suivant les principes de maintenance et de facteurs humains, votre centre de données peut éviter certaines des causes de panne les plus courantes.

voir plus


Comment lancer des applications instantanément avec Wox sous Windows

Comment lancer des applications instantanément avec Wox sous Windows

Découvrez comment utiliser Wox pour lancer vos applications, exécuter des commandes et plus encore, instantanément.

Comment créer un cercle jaune autour du pointeur de la souris sous Windows

Comment créer un cercle jaune autour du pointeur de la souris sous Windows

Découvrez comment créer un cercle jaune autour du pointeur de la souris pour le mettre en surbrillance sur Windows 10. Suivez ces étapes faciles pour améliorer votre expérience utilisateur.

Pourquoi ladresse IP de Localhost est-elle 127.0.0.1 ?

Pourquoi ladresse IP de Localhost est-elle 127.0.0.1 ?

Découvrez pourquoi l

Comment ajouter des raccourcis de dossiers au menu Démarrer sous Windows 11

Comment ajouter des raccourcis de dossiers au menu Démarrer sous Windows 11

Sous Windows 11, configurez facilement des raccourcis pour accéder rapidement à des dossiers spéciaux dans votre menu Démarrer.

8 façons de corriger lerreur Il ny a aucun élément de démarrage à afficher dans le Gestionnaire des tâches sous Windows

8 façons de corriger lerreur Il ny a aucun élément de démarrage à afficher dans le Gestionnaire des tâches sous Windows

Découvrez comment résoudre l

Comment utiliser un disque dur externe avec un Chromebook

Comment utiliser un disque dur externe avec un Chromebook

Découvrez comment utiliser un disque dur externe avec un Chromebook pour transférer et stocker vos fichiers en toute sécurité. Suivez nos étapes pour un usage optimal.

Comment activer une adresse MAC aléatoire pour le réseau WiFi sous Windows 10

Comment activer une adresse MAC aléatoire pour le réseau WiFi sous Windows 10

Dans ce guide, vous apprendrez les étapes pour toujours utiliser une adresse MAC aléatoire pour votre adaptateur WiFi sous Windows 10. Optimisez votre sécurité en ligne!

Instructions pour désinstaller Internet Explorer sous Windows 10

Instructions pour désinstaller Internet Explorer sous Windows 10

Découvrez comment désinstaller Internet Explorer 11 sur Windows 10 pour optimiser l'espace de votre disque dur.

Comment utiliser Smart Defrag pour défragmenter efficacement les disques durs

Comment utiliser Smart Defrag pour défragmenter efficacement les disques durs

Découvrez comment utiliser Smart Defrag, un logiciel de défragmentation de disque dur gratuit et efficace, pour améliorer les performances de votre ordinateur.

Comment partager un VPN via un point daccès WiFi depuis un ordinateur portable

Comment partager un VPN via un point daccès WiFi depuis un ordinateur portable

Le moyen le plus simple de déverrouiller du contenu et de protéger tous les appareils avec un VPN crypté est de partager la connexion VPN via un point d