Strategien


Komplexe Überwachung

Was in einen Business-Continuity-Plan gehört

23.06.2015


Don Jacob ist Head Geek bei Solarwinds.

Im Bereich der Überwachung sind Router, Switch, Hypervisor, VM, Speicher-Array, Anwendung usw. Bestandteil eines Netzes von miteinander verwobenen Interaktionen und Abhängigkeiten. Wo auch immer es eine Überschneidung gibt, muss die Überwachung sie berücksichtigen.

Andernfalls könnte ein wichtiger Dienst als nicht verfügbar erscheinen und mehrere Teams unnötig in Aufruhr versetzen. Werden umgekehrt wichtige Abhängigkeiten ignoriert, könnte ein scheinbar geringfügiger Fehler mit geringer (oder ohne) Vorwarnung zu einer Kettenreaktion und einem erheblichen Ausfall führen.

Überwachungskandidaten

Welche Bereiche Ihrer Umgebung sollte man überwachen? Und wie gelangt man an alle nötigen Informationen? Einige Überwachungskandidaten sind offensichtlich: zum Beispiel Router, Switches, Firewalls, Server und Speichersysteme - und die zugehörigen Messgrößen für die Hardwareleistung, also Geräteintegrität, CPU- und RAM-Auslastung sowie die Funktion der Lüfter und Netzteile.

Andere sind weniger offensichtlich, aber möglicherweise wichtiger: zum Beispiel die verfügbare Bandbreite, der Ressourcen-Pool für den Lastausgleich, Syslog-Meldungen der Firewall oder die Gesamt-Paketverluste und -Latenz im Netzwerk.

Sogar die Überwachung des Status von Routing-Protokollen (OSPF, EIGRP und auch BGP) und die Überwachung von Route Flapping, IP-Konflikten sowie der DHCP- und DNS-Leistung können die nötigen Einblicke liefern, um die Reaktion bei einem Ausfall signifikant zu beschleunigen.

Wie zu überwachen ist

Sind die Überwachungsziele erst einmal festgelegt, heißt es, sich um das "Wie" zu kümmern. Da ist es praktisch, dass sich die meisten Überwachungstechniken bereits seit Jahrzehnten bewähren. Mit dem bekannten Ping-Protokoll lassen sich die Erreichbarkeit und Reaktionszeit eines Geräts sowie die Anzahl an unterwegs verlorenen Paketen überprüfen.

SNMP (Simple Network Management Protocol) ist das beliebteste, am häufigsten unterstützte Überwachungsprotokoll für Netzwerkgeräte. Es erfasst Gerätedaten entweder zu vorab festgelegten Abfrageintervallen (Polling) oder nur bei Überschreitung bestimmter Schwellenwerte (Traps).

Informationen über die Anwendungsleistung können aus Syslog- und Ereignisprotokoll-Meldungen von Servern und Anwendungen gewonnen werden. Darüber hinaus sind auch NetFlow, die Paketanalyse, die Windows-Verwaltungsinstrumentation (WMI) und Leistungszähler bei der Überwachung von Vorteil und sollten daher bei der Planung berücksichtigt werden.

Komplexe IT-Umgebungen brauchen komplexe Überwachung

Neben diesen grundlegenden Werkzeugen und Maßnahmen, die seit langem ausgereift, zuverlässig und gut dokumentiert sind, gibt es natürlich noch weitere Möglichkeiten, die hier aber nicht behandelt werden können. Komplexe IT-Umgebungen bedingen also eine mindestens genauso komplexe Überwachung. Doch die gute Nachricht ist: Es gibt Tools und Verfahren, um diese Aufgabe zu bewältigen.

Zur Startseite