Automatisierung der IT

Wie Datenmodelle die IT-Resilienz erhöhen

Michael Möhring ist Wissenschaftlicher Projektleiter an der Hochschule München.
Ob Banken oder Flughäfen - IT-Ausfälle haben in Unternehmen böse Auswirkungen. Eine dreistufige Analyse beugt vor.
Eine genaue Analyse des IT-Bedarfs ist der erste Schritt zu mehr Resilienz.
Eine genaue Analyse des IT-Bedarfs ist der erste Schritt zu mehr Resilienz.
Foto: BEST-BACKGROUNDS - shutterstock.com

Ob Sales-, HR oder Financedepartment - ohne funktionierende IT-Services sind viele Funktionsbereiche eines Unternehmens arbeitsunfähig. Im schlimmsten Fall kann fehlende Verfügbarkeit von IT-Services und der darunterliegenden Systeme zum kompletten Stillstand führen.

Die Resilienz zu steigern ist für die IT-Abteilung allerdings kein einfacher Job. Heterogene sowie groß gewachsene IT-Infrastrukturen machen eine einfache, manuelle Überprüfung und vorbeugende Wartung fast unmöglich.

Datengetriebene Lösungsansätze können dabei helfen, schweißtreibende Reparaturarbeiten und unzufriedene Kunden zu reduzieren oder sogar zu vermeiden. Wertvolle Ressourcen können so in neue IT-Projekte gestecket werden. Einblicke, wie ein datengetriebenes System entwickelt und eingesetzt werden kann, geben aktuelle Forschungsergebnisse der Hochschule München. Wie Ansätze zur Steigerung der Ausfallsicherheit umgesetzt werden können, fassen die Forscher in drei wesentlichen Schritten zusammen:

1. Einflussfaktoren ermitteln

Bevor Prognosen über den Ausfall eines IT-Service getroffen werden können, müssen im ersten Schritt die richtigen Einflussfaktoren ermittelt werden. Dazu werden historische Daten aus IT-Dokumentationssystemen (wie zum Beispiel einer CMDB) und verbundenen Monitoring-Systemen extrahiert. Im nächsten Schritt sollte man diese auf statistische Zusammenhänge (beispielsweise, ob der IT-Serviceausfall mit dem Anstieg der CPU-Auslastung in der virtuellen Maschine "XYZ42" zusammenhängt) überprüft werden. Die Implementierung dieser Ermittlung kann relativ zeitnah mit gängigen Machine LearningMachine Learning und Statistikumgebungen wie R Project, Python oder auch RapidMiner erfolgen. Alles zu Machine Learning auf CIO.de

In der Praxis zeigt sich hierbei oft die Herausforderung, die Daten in einer konsistenten und verarbeitbaren Qualität zu erhalten. Viele Unternehmen müssen im Themenbereich Datenqualität noch ihre Hausaufgaben machen, um derartige Analysen schneller durchzuführen.

2. Resilienz-Prognosemodell entwickeln

Basierend auf den identifizierten Einflussfaktoren werden diese nun genutzt, um ein Prognosemodell für die Resilienz zu ermitteln. Je nach statistichen Zusammenhängen (linear oder nicht-linear) werden unterschiedliche Modelle wie beispielsweise Regressionsmodelle oder künstliche Neuronale Netze / Deep Learning entwickelt. Die Implementierung kann wiederum mit standardisierten Tools wie R Project, Python oder RapidMiner unter Einbezug etablierter Bibliotheken wie beispielsweise Tensorflow von Google erfolgen. Final sollte ein Prognosemodell zur Verfügung stehen, welche die Resilienz von IT-Services in einer angemessenen Zeit prognostizieren kann.

Auch hier herrscht oft Uneinigkeit über die IT-Infrastruktur, die für die Analysen eingesetzt werden sollte. Der Weg in die Public-Cloud (wie Amazons AWS oder Microsoft Azure) erleichtert derzeit vielen Unternehmen die interne starre, meist wenig agile IT-Infrastruktur.

3. Resilienzprognose durchführen

Das in Schritt 2 entwickelte Prognosemodell wird nun kontinuierlich, je nach Businessanforderung zum Beispiel minütlich oder im Mehrere-Sekunden-Intervall ausgeführt. Basierend auf den Prognoseergebnissen kann nun identifiziert werden, wann und mit welcher Wahrscheinlichkeit ein IT-Service mit den zugrundeliegenden IT-Infrastrukturkomponenten ausgeführt werden kann. Dies sollte nun genutzt werden, um automatische Workflows zu etablieren, die sicherstellen, dass die Resilienz gewährleistet wird. Ist beispielsweise eine virtuelle Machine immer montags wegen erhöhten Transaktionen (wie etwa Zeitbuchuchungen im HR-System) überlastet, so werden automatisch die IT-Ressourcen erhöht, um einen Ausfall des Systems vorzubeugen.

Fazit

Im Ergebnis können die Forschungsergebnisse der Münchner Forscher genutzt werden, um durch die Implementierung eines Verfahrens nach diesem Ansatz Stillstände von IT-Services zu vermeiden und die Kundenzufriedenheit der IT-Kunden zu erhöhen. Die Umsetzung ist für geschulte Data-Scientists mit Hintegrundwissen im IT-Service mit gängigen Tools und Umgebungen wie unter anderem R oder Python gut umsetzbar. Die Prognosemodelle bedürfen jedoch einer fortlaufenden Überprüfung und Ressourcenanpassung hinsichtlich Größen wie CPU, RAM und Database. Die vorhandene Datenqualität und starre interne IT-Prozesse können derartige Ansätze jedoch zeitlich enorm beeinflussen.

Mehr zu diesem Thema finden Sie in diesem Buch.

Zur Startseite