Rechenzentrum down

10 Fakten zu Datacenter-Ausfällen

02.05.2023 von Ann Bednarz
Eine aktuelle Analyse gibt Aufschluss über die Frequenz und Schwere von Rechenzentrumsausfällen sowie deren finanzielle Konsequenzen.
Der Worst Case muss nicht unbedingt eintreten, wird aber wahrscheinlicher. Lesen Sie, woran das liegt.
Foto: Hadrian - shutterstock.com

Das Uptime Institute untersucht in seiner "Annual Outages Analysis" jährlich den Outage-Status-Quo - so auch im Jahr 2023. Auf dieser Grundlage haben wir in diesem Artikel die zehn wichtigsten, aktuellen Fakten zu (Rechenzentrums-)Ausfällen für Sie zusammengefasst.

1. Unzuverlässige Daten bleiben ein Problem

Zunächst mahnt das Uptime Institute, dass die Daten in Zusammenhang mit Outages angesichts mangelnder Transparenz bei einigen Betroffenen sowie qualitativ unzureichender Meldemechanismen mit Skepsis betrachtet werden sollten: "Während in einigen Branchen wie beispielsweise der Luftfahrt eine Meldepflicht besteht, fällt das Reporting in anderen Sektoren eher begrenzt aus", erklärt Andy Lawrence, Executive Director of Research beim Uptime Institute und fügt hinzu: "Wir müssen uns also auf unsere eigenen Mittel und Methoden verlassen, um an die Daten zu kommen. Und wir alle wissen, dass nicht jeder bereit ist, Informationen über Ausfälle zu teilen - aus den unterschiedlichsten Gründen. Manchmal erhält man eine sehr detaillierte Root Cause Analysis, manchmal erfährt man so gut wie nichts."

Für seine Analyse hat das Uptime Institute Daten aus drei Hauptquellen herangezogen:

2. Die Ausfallraten sinken (leicht)

Laut Uptime sind die Ausfallraten in den letzten Jahren generell eher gesunken. Das bedeutet jedoch nicht, dass die Gesamtzahl der Ausfälle sinkt. Im Gegenteil: Die Zahl der Ausfälle nimmt weltweit jedes Jahr zu, weil die Rechenzentrumsbranche expandiert. Hier könne leicht ein falscher Eindruck entstehen, wie Uptime warnt: "Die Häufigkeit der Ausfälle nimmt nicht so schnell zu wie das Wachstum der IT oder der globalen Rechenzentrumsfläche."

Insgesamt hat Uptime jedoch einen langsamen, aber stetigen Rückgang der Ausfallrate pro Standort beobachtet, wie aus vier eigenen Umfragen unter Rechenzentrumsleitern und -betreibern hervorgeht, die zwischen 2020 und 2022 durchgeführt wurden.

3. Ausfälle sind weniger schwerwiegend…

Obwohl 60 Prozent der Rechenzentrumsstandorte in den letzten drei Jahren von einem Ausfall betroffen waren, wurde nur ein kleiner Anteil der Outages als ernst oder schwerwiegend eingestuft.

Uptime misst die Schwere von Ausfällen auf einer Skala von 1 bis 5. Schwerwiegende Ausfälle (Stufe 4 und 5) machten in der Vergangenheit etwa 20 Prozent aller Outages aus. Im Jahr 2022 sank dieser Anteil auf 14 Prozent. Laut Chris Brown, Chief Technical Officer bei Uptime, ist der Hauptgrund dafür, dass die Betreiber von Rechenzentren besser auf unerwartete Ereignisse vorbereitet sind: "Wir sind inzwischen viel besser in der Lage, Systeme zu entwerfen und den Betrieb so zu steuern, dass ein einzelner Fehler oder Ausfall nicht unbedingt zu einem schweren oder schwerwiegenden Ausfall führt."

Heutige Systeme seien redundant ausgelegt und die Betreiber disziplinierter bei der Sache, wenn es darum gehe, Systeme zu entwickeln, die in der Lage seien, auf ungewöhnliche Ereignisse zu reagieren, so der CTO.

4. …doch der finanzielle Aufwand steigt

Wenn es zu Outages kommt, werden sie allerdings immer teurer - ein Trend, der sich mit der wachsenden Abhängigkeit von digitalen Services wahrscheinlich noch verstärken wird. Ein Blick auf die (eigenen) Umfragedaten von Uptime der letzten vier Jahre zeigt, dass der Anteil der größeren Ausfälle (mehr als 100.000 Dollar an direkten und indirekten Kosten) steigt:

Die Inflation ist dafür laut CTO Brown nur teilweise ursächlich - auch die Kosten für Ersatzkomponenten und Arbeitskräfte seien gestiegen. Der Manager ergänzt: "Noch wichtiger ist jedoch, dass Unternehmen bei der Abwicklung ihrer Geschäfte in hohem Maße von digitalen Services abhängig sind. Der Ausfall eines kritischen IT-Dienstes kann direkt mit Geschäftsunterbrechungen und Umsatzeinbußen verbunden sein."

5. Drittanbieter sorgen für Schlagzeilen

Da immer mehr Workloads an externe Dienstleister ausgelagert werden, wird auch die Zuverlässigkeit ihrer digitalen Infrastrukturen für Unternehmenskunden immer wichtiger. Dabei sind Drittanbieter für die meisten öffentlichkeitswirksamen Outages verantwortlich - wie die Daten von Uptime zeigen.

Demnach waren kommerzielle Drittanbieter von IT- und Rechenzentren (Cloud-Anbieter, Service Provider und Telekommunikationsanbieter) für 66 Prozent aller öffentlichkeitswirksamen Ausfälle seit dem Jahr 2016 verantwortlich. Der Anteil ist dabei von Jahr zu Jahr kontinuierlich gestiegen: Im Jahr 2021 lag der Anteil der durch Cloud-, Colocation-, Telekommunikations- und Hosting-Unternehmen verursachten Ausfälle bei 70 Prozent - im Jahr 2022 stieg er auf 81 Prozent.

"Je mehr Unternehmen ihre IT-Dienste auslagern, desto mehr müssen sie ihrer Sorgfaltspflicht nachkommen - und dies auch nach Abschluss des Geschäfts", warnt Brown.

6. Menschliches Versagen treibt Outages

Obwohl menschliches Versagen selten die einzige (oder die maßgebliche) Ursache für einen Ausfall ist, spielt dieser Faktor in 66 Prozent bis 80 Prozent aller Outages eine Rolle - schätzt das Uptime Institute und beruft sich dabei auf Daten aus den vergangenen 25 Jahren. Allerdings ist es herausfordernd, menschliches Versagen zu analysieren: Unzulänglichkeiten wie unsachgemäße Schulung, Ermüdung des Bedienpersonals und fehlende Ressourcen lassen sich nur schwer ausfindig machen.

Laut Uptime sind die Ausfälle, die mit menschlichem Versagen in Zusammenhang stehen, in den meisten Fällen entweder darauf zurückzuführen, dass die Mitarbeiter die Prozesse nicht befolgen (47 Prozent) oder dass die Prozesse selbst fehlerbehaftet sind (40 Prozent). Weitere häufige Ursachen sind:

"Um diese Probleme zu lösen, braucht man kein Geld", kommentiert Lawrence. "Die Leute müssen sich die Mühe machen, Prozesse zu entwickeln, sie zu testen, sicherzustellen, dass sie korrekt sind, ihre Mitarbeiter zu schulen, damit sie sie befolgen - und das im Anschluss auch überprüfen. Das ist die 'low hanging fruit', um Ausfälle zu verhindern."

7. Energieprobleme weiterhin ein Thema

Laut Uptime sind Probleme mit der lokalen Stromversorgung nach wie vor mit großem Abstand die Hauptursache für erhebliche Standortausfälle. Und das trotz der Tatsache, dass die meisten Outages multiple Gründe aufweisen und die Qualität der Berichterstattung variiert.

Im Jahr 2022 gaben 44 Prozent der Befragten an, dass die Stromversorgung die Hauptursache für ihren letzten schwerwiegenden Vorfall oder Ausfall war. Im Vergleich zu den Jahren 2021 (43 Prozent) und 2020 (37 Prozent) hat sich hier nicht viel getan.

8. Komplexe Netzwerke, mehr Ausfälle

Die beiden häufigsten Ursachen für netzwerk- und konnektivitätsbedingte Ausfälle sind laut Uptime Fehler bei der Konfiguration oder dem Change Management (45 Prozent) sowie das Versagen eines externen Netzwerkanbieters (39 Prozent).

Uptime führt diesen Trend auf die Komplexität heutiger Netzwerke zurück: "In modernen, dynamischen und softwaredefinierten Umgebungen werden Programme, um Netzwerke zu managen und zu optimieren, ständig überarbeitet oder neu konfiguriert. In einer derart komplexen und durchsatzstarken Umgebung können sich kleine Fehler häufig über das gesamte Netzwerk ausbreiten und zu kaskadenartigen Ausfällen führen, die schwer zu stoppen, zu diagnostizieren und zu beheben sind."

Andere häufige Ursachen für größere netzwerkbedingte Ausfälle:

9. Die häufigsten Ursachen für IT-Ausfälle

Die häufigsten Ursachen für Ausfälle im Zusammenhang mit IT-Systemen und Software sind:

10. Brände sind selten, aber verheerend

Feuer ist eine Ursache, die bei den öffentlich gemeldeten Ausfällen auftaucht, bei den IT-bezogenen Quellen aber keinen hohen Stellenwert einnimmt. Laut Uptime stehen 7 Prozent der öffentlich gemeldeten Ausfälle in Rechenzentren mit Bränden in Zusammenhang. Das könnte laut den Forschern an der zunehmenden Verwendung von Lithium-Ionen-Batterien liegen.

Die haben im Vergleich zu Bleisäure-Batterien einen geringeren Platzbedarf, sind einfacher zu warten und weisen eine längere Lebensdauer auf. Sie stellen jedoch auch ein größeres Brandrisiko dar, wie Lawrence anhand eines Beispiels verdeutlicht: "In einem Maxnod-Rechenzentrum in Frankreich kam es am 28. März 2023 zu einem verheerenden Brand und wir glauben, dass er durch eine Lithium-Ionen-Batterie verursacht wurde." (fm)

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation Network World.