Europäische Südsternwarte

Informationstechnologie am Ende der Welt

19.06.2015 von Dirk Stähler  
Der Autor hat Andrew Wright, IT-Leiter der Europäischen Südsternwarte in Chile, einen Besuch abgestattet. Dieser erläutert aktuelle Herausforderungen der astronomischen Datenverarbeitung, Probleme mit Hardwareherstellern, pragmatische Ansätze beim IT-Betrieb in der Wüste und seine Begeisterung für ein außergewöhnliches Arbeitsumfeld.

Zweieinhalb Autostunden von der Hafenstadt Antofagasta entfernt befindet sich 2635 Meter über dem Meeresspiegel das Paranal Observatorium der Europäischen Südsternwarte ESO. Mitten in den chilenischen Anden haben Astronomen einen idealen Ort für die Beobachtung des südlichen Sternenhimmels gefunden. Fernab von jeder Zivilisation erlaubt die klare Höhenluft einen perfekten Blick auf den nächtlichen Sternenhimmel ohne störende Lichtverschmutzung.

Die Teleskope des VLT
Foto: ESO Paranal

Die vier Teleskope des Very Large Telescope (VLT) und ihre jeweils aus einem Stück gefertigten 8,2 Meter Spiegel gehören zu den höchstentwickelten optischen Instrumenten der Welt. Aber die Zeit in der Astronomen durch ein Fernrohr auf die Sterne blickten ist längst vorbei. Heute liefern die Instrumente an den Anlagen einen konstanten Strom digitaler Daten, der erst zu einem späteren Zeitpunkt zusammengesetzt und ausgewertet wird.

Die Beobachtungen werden von dem Team in Chile meistens im sogenannten Service-Mode durchgeführt. Das bedeutet, dass die forschenden Astronomen bei der Durchführung ihrer Beobachtung nicht vor Ort anwesend sind. Mitarbeiter der ESO in Paranal führen die Arbeiten im Auftrag zu den bestmöglichen Bedingungen durch. Die gesammelten Daten erhalten die Astronomen digital von der ESO. Ohne moderne Computertechnik wäre diese Form arbeitsteiliger Experimente nicht denkbar. Eine große Verantwortung für den Betrieb der Teleskope liegt deshalb auch bei der ESO IT, die für den reibungslosen Datentransport verantwortlich ist. Im Paranal Observatory hatte ich die Gelegenheit mit Andrew Wright, Leiter der ESO IT in Chile, zu sprechen.

Dirk Stähler: Herr Wright, welche Herausforderungen beschäftigen die ESO IT in Chile gerade besonders?

Andrew Wright: Aktuell ist der kontinuierliche Anstieg des Datenvolumens unsere größte Herausforderung. Die Instrumente unserer Teleskope liefern immer mehr digitale Daten. Bis zum Jahr 2011 bewegten wir uns bei den Datenmengen lange Zeit auf einem Plateau. Es gab keine dramatischen Steigerungen. Die Situation hat sich komplett verändert.

Was war Auslöser des Anstiegs bei den Datenmengen?

Andrew Wright: Im Jahr 2011 haben wir die Glasfaserverbindung zwischen unserem Standort Paranal in der Gebirgsregion der Atacama Wüste und der Hafenstadt Antofagasta in den Produktivbetrieb genommen. Bis dahin existierte nur eine Richtfunkstrecke für die Datenübertragung nach Santiago de Chile. Größere Datenmengen wurden per Festplatte transportiert. Der Anstieg der Datenmenge korreliert mit der Verfügbarkeit der Glasfaserleitung. Man kann es als Anstoßeffekt durch den technologischen Fortschritt bezeichnen. Was verfügbar ist wird auch genutzt. In der Folge lieferte die neue Generation von Instrumenten an den Teleskopen deutlich mehr Daten die wir übertragen müssen.

Wohin werden die Daten übertragen?

Andrew Wright: Alle an den Teleskopen gesammelten Daten werden innerhalb von 24 Stunden in das ESO Hauptquartier in Garching bei München überführt. Dort werden sie in einem primären Speichersystem gesichert und zusätzlich in ein sekundäres Speichersystem repliziert. Sobald die Daten im sekundären Speichersystem angekommen sind löschen wir unseren lokalen Speicher. Der gesamte Prozess ist vollständig automatisiert. Das schließt auch die Löschung der Rohdaten in Paranal ein, immer vorausgesetzt natürlich alles läuft wie geplant. Normalerweise müssen wir in diesen Prozess nicht eingreifen.

Über welche Datenvolumen sprechen wir hier?

Andrew Wright: Wir produzieren aktuell rund ein halbes Petabyte pro Jahr. Der gesamte Standort Paranal verfügt über eine Speicherkapazität von 150 Terrabyte, die wir bis Ende 2015 auf 300 Terrabyte erhöhen werden um für die Teleskope der nächsten Generation gerüstet zu sein. Sollten wir einmal Probleme mit der Glasfaserverbindung haben und wieder auf das Versenden von Speichermedien zurückgreifen müssen, haben wir genug lokalen Speicherplatz, um die Daten in das zentrale Archiv in Garching zu bekommen, bevor wir sie in Paranal löschen müssen um Platz für neue Daten zu schaffen. Im Schnitt sind die Daten in Chile zwei Wochen gespeichert. Nur in Deutschland werden alle Daten langfristig vorgehalten.

Das Hauptquartier der Europäischen Südsternwarte liegt in Garching bei München. Alle Teleskope befinden sich auf der Südhalbkugel in der chilenischen Atacamawüste. Dort herrschen ausgezeichnete klimatische Bedingungen für astronomische Beobachtungen, im Besonderen eine trockene Atmosphäre und geringe Luftturbulenzen. Aber dieser exklusive Platz hat seinen Preis. Die Observatorien sind weit ab von allen Versorgungsleitungen. Verbrauchsgüter wie Wasser, Lebensmittel und Treibstoff zur Energiegewinnung müssen mit Lastzügen angeliefert werden. Temperaturen zwischen minus 8 Grad in der Nacht und 25 Grad am Tag, eine Luftfeuchtigkeit unter 10% und die hohe UV-Strahlung belasten Menschen und Material.

Blick von den Teleskopen über das Kontrollzentrum zum 12 km entfernten Pazifik.
Foto: ESO Paranal

Die Herausforderungen

Sie betreiben in dieser abgelegenen Gegend auf fast 3000 Meter Höhe ein hochmodernes Rechenzentrum. Welche Besonderheiten ergeben sich daraus?

Andrew Wright: Aus meiner Sicht sind die Anforderungen in Paranal normal und bewegen sich im gewöhnlichen Rahmen. Es handelt sich nur um eine ungewöhnliche Umgebung. In unserem Rechenzentrum verwenden wir Standardkomponenten, wie zum Beispiel Blade-Server mit Multi-Core Prozessoren von Dell. Der Standort in der Atacama-Wüste und die Datensätze sind etwas besonders, aber die Hardware ist Standard. Die Überführung von der Entwicklung in Deutschland in den Betrieb in Chile ist deshalb auf Hardwareseite in der Regel kein Problem. Ein viel ernsteres Problem entsteht für uns durch die beschleunigten Produktentwicklungszyklen der Hersteller.

Welche Schwierigkeiten entstehen bei der ESO durch die immer kürzeren Produktentwicklungszyklen der Hardwarehersteller?

Andrew Wright: Um unsere Software zu aktualisieren benötigen wir in der Regel einiges an Zeit. Das bedeutet, die Softwareentwicklung erfolgt in langen Zyklen. Als wir begannen Dell Server einzusetzen, waren die einzelnen Typen viele Jahre lieferbar. Heute werden in immer kürzeren Abständen neue Servertypen auf den Markt gebracht. Blades die wir vor drei Jahren gekauft haben nähern sich jetzt bereits dem Ende ihres Verkaufszyklus. Unsere Zeitplanung ist viel länger. Wir haben natürlich mit Dell gesprochen was die Motivation hinter dieser Entwicklung ist. Die Aussage war, dass es darum geht Boxen zu verkaufen. Wenn HP alle sechs Monate eine neue Hardware zum Verkauf anbietet muss Dell das auch machen. Alles was sie wollen sind Marktanteile. Für uns ist das eine Herausforderung.

Profitieren Forschungsorganisation nicht von der leistungsfähigeren Hardware einer neuen Generation?

Andrew Wright: Meiner Meinung nach ist es abhängig von der zugrundliegenden Software. Wer auf seiner IT-Infrastruktur Off-the Shelf Software betreibt, für den stellen neue Hardwaregenerationen in der Regel kein großes Problem dar. Aber einer Organisation wie der ESO, die viele individuell entwickelte und spezialisierte Softwarelösungen verwendet, verursacht es Kopfschmerzen. Brauchen wir wirklich die fünfte Generation des i7 Prozessors? Was war schlecht an der vierten Generation?

Wir als IT Abteilung sind mittlerweile in der Situation, dass wir mehr den Herstellern hinterher laufen als unsere Nutzer mit stabilen und guten Lösungen zu versorgen. Vielleicht haben andere Anwender eine andere Sicht. Wer zum Beispiel eine hohe Anzahl von Transaktionen in kurzer Zeit verarbeiten muss bei dem sehe ich den Nutzen. Aber für unseren Anwendungsfall nicht. Es verursacht nur Probleme. Nehmen wir das PowerEdge M620 Blade von Dell als Beispiel.

Diese Hardware bewegt sich gerade auf ihren End-of-Sales Punkt zu. Jetzt müssen wir das M630 kaufen und alle Spezifikationen sind leicht anders. Das bedeutet, wir beschaffen jetzt erst mal eine Einheit um herauszufinden ob wir diese überhaupt als Ersatz nutzen können. Wenn ein M620 stirbt, können wir dann einfach ein M630 nehmen? Wir wissen es nicht und Dell kann es uns auch nicht sagen. Mit unseren begrenzten Ressourcen können wir so schnell wie es erforderlich wäre nicht mehr folgen. Die Tests in der Entwicklung und Produktionsumgebung brauchen einfach mehr Zeit.

Zwei der vier VLT Einheiten beim Sonnenuntergang.
Foto: ESO Paranal

Wie begegnen Sie den immer schnelleren Lebenszyklen bei der Hardware?

Andrew Wright: Pragmatisch. Wir kaufen gerade den erwarteten Bedarf an M620 für das ganze Jahr auf Vorrat um diesem Problem aus dem Weg zu gehen. In Kürze veröffentlichen wir eine neue Version der ESO Software. Wenn wir gleichzeitig gezwungen wären auf einen neuen Servertyp umzustellen, müssten wir alles neu testen. Wir hoffen die Problematik dadurch etwas abzuschwächen.

Ob uns das auf Dauer gelingt weis ich noch nicht. Die Hersteller haben ihre eigene Planung und die fokussiert primär darauf Einheiten zu verkaufen. Die hohe Entwicklungsgeschwindigkeit bei neuer Hardware ist für die ESO definitiv nicht hilfreich. Die Leistungsfähigkeit die wir mit unseren Systemen erreicht haben ist aktuell bei weitem ausreichend. Wir brauchen nicht jedes Jahr neue Hardware. Mit dem E-ELT wird sich das sicher ändern, aber da sprechen wir über Zeiträume von mehreren Jahren.

Aktuell errichtet die ESO auf dem 20 Kilometer von Paranal entfernten Berg Armazones das European Extremely Large Telescope (E-ELT). Mit einem Hauptspiegel von 39 Metern Durchmesser aus 798 sechseckigen Spiegelelementen wird es das weltweit größte optische Teleskop. Seine Instrumente werden um Größenordnungen leistungsfähiger sein, als die aller bisherigen Teleskope. Doch nicht nur für die Astronomen nähert sich das neue Teleskop physikalischen Grenzen. Auch die zugehörige Informationstechnologie steht vor großen Herausforderungen und Unbekannten. Im Jahr 2024 soll das neue E-ELT in die Infrastruktur des Paranal Observatoriums integriert sein und den Regelbetrieb aufnehmen.

Blick zur E-ELT Baustelle auf dem 20 km entfernten Berg Armazones.
Foto: ESO Paranal

Lässt sich die Zukunft planen?

Was ist bei der Planung der IT-Infrastruktur für das E-ELT besonders anspruchsvoll?

Andrew Wright: Das E-ELT wird noch mal eine größere Datenmenge liefern. Wir haben aktuell keine Instrumente mit ähnlichen Kapazitäten, so dass uns die Vergleichsmöglichkeiten fehlen. Wir kennen ungefähr die erforderliche Rechenleistung der zugehörigen Infrastruktur. Diese wird rund zwei bis dreimal so groß sein wie die heute in Paranal verfügbare Leistung. Aber wir wissen nicht, wie groß die zu erwartenden Datenmengen sind und in welchen Zeiträumen sie zur Verfügung stehen.

Aktuell müssen Daten innerhalb von 24 Stunden in Deutschland verfügbar sein. Vielleicht werden wir diese Anforderungen ändern müssen, da die Datensätze zu groß werden. Das Projekt ist aus Sicht der IT noch weit in der Zukunft und die Technologie verändert sich so schnell. Ich arbeite gerade an der IT-Architektur für das E-ELT, aber seit dem Start des Projektes habe ich sie bereits drei oder viel mal überarbeitet. Wir sind von zwei Seiten unter Druck. Technologische Entwicklungen auf der einen und neue Anforderungen der Wissenschaftler auf der anderen Seite zwingen uns immer wieder zur Überarbeitung des Designs. Man jagt einem beweglichen Ziel hinterher. Unser Architekturentwurf ist deshalb ein lebendes Dokument, das sich immer wieder aktualisiert.

Haben Sie ein Beispiel für uns?

Andrew Wright: Betrachten wir die Netzwerkplanung. Es gibt entweder 10, 40 oder 100 Gigabit Uplinks. Aktuell basiert die Planung für das E-ELT bereits auf 40 oder 100 Gigabit. Vor fünf Jahren dachten wir noch 10 Gigabit wären ausreichend. Jetzt haben wir das Design schon ändern müssen. Ich denke oft über die Frage nach, wie wir die Daten vom E-ELT nach Deutschland bekommen. Aber Vorhersagen über die technischen Möglichkeiten in 10 Jahren zu treffen ist schwer. Die Kapazitäten hängen nicht alleine von unserer Infrastruktur ab. Die verfügbare Bandbreite in Chile ist immer noch limitiert. Wir müssen schauen wie sich der Markt entwickelt.

Es gibt aktuell nur wenige 10 Gigabit Back-Bones. Das ist überhaupt nicht mit Europa vergleichbar. Wegen der geographischen Gegebenheiten ist Chile zwar gut mit Glasfaserkabeln erschlossen, da Glasfaser bei der Ausdehnung des Landes von Norden nach Süden die einzige Option ist. Aber die Infrastruktur entwickelt sich immer noch. Das E-ELT wird nach aktueller Planung mit mindestens 10 Gigabit ans Netz angeschlossen. Aber in dem Moment an dem wir die Technik tatsächlich bestellen, kann sich das auf 2 x 10, 2 x 40 oder vielleicht auch 100 Gigabit verändert haben. Das hängt auch von der Entwicklung der Infrastruktur in Chile ab. Vielleicht muss auch die ESO ihre Datentransferpläne ändern. Aktuell haben wir einfach nicht genug Informationen um eine verbindliche Vorhersage zu treffen.

Da kommt eine Menge Arbeit auf die ESO IT in Chile zu. Wie organisieren Sie Ihr Team?

Andrew Wright: Aktuell haben wir in Paranal ein Team von 4 bis 5 Mitarbeitern. Die Besetzung ist für die Arbeiten die zu erledigen sind am Limit. Hauptaufgaben über den Tag sind vorbeugende Wartungsarbeiten um lange Ausfallzeiten zu vermeiden. Wir sind fern von jeder Zivilisation und müssen unseren Strom selber erzeugen. Dennoch kommt es manchmal zu Ausfällen. Man kann sich vorstellen, wenn die Systeme mehrere Monate nicht neu gestartet wurden dauert es lange bis die File System Checks durchgelaufen sind. In der Zeit steht die gesamte Anlage. Ausfallzeiten müssen wir soweit wie möglich reduzieren.

Weiterhin sind wir verantwortlich dafür, dass die Netzverfügbarkeit für alle Instrumente an den Teleskopen sichergestellt ist. In Paranal haben wir über 5000 Glasfaser Kerne. Das erfordert eine Menge Wartungsarbeiten. Das gesamte Netz verwendet keine Kupferkabel um das Risiko von Blitzschlägen zu reduzieren. Im La-Silla-Observatorium hatten wir in den 80er Jahren einen Blitzschlag. Der komplette Standort wurde lahmgelegt. Deshalb setzen wir heute nur noch auf Glasfaserkabel. Zusätzlich haben wir noch die Standardarbeiten einer IT Abteilung zu leisten. Neben der komplexen Teleskop IT bedeutet das die Betreuung der Laptops von Wissenschaftlern, Druckern und allen sonstigen Routineaufgaben einer IT Abteilung.

Standards oder Pragmatismus?

Arbeiten Sie nach IT-Service Management Standards?

Andrew Wright: Alle Mitarbeiter in unserem Team und auch unsere Dienstleister sind ITIL zertifiziert. Wir arbeiten unter ITIL Guidelines. ITIL sollte aber nicht eins zu eins aus dem Handbuch übernommen werden. Aus meiner Sicht sind Standards wie ITIL sehr hilfreich, aber man muss die Frameworks anpassen. Wer das nicht macht endet an einem Punkt wo es einschränkend wirkt. Betrachten wir zum Beispiel das Change Management.

Wenn eine kleine IT-Organisation alle ITIL Vorgaben vollständig übernimmt, wird sie in der Regel nicht genug Mitarbeiter haben um alle Rollen zu besetzten. Werden dann mehrere Rollen auf einen Mitarbeiter verteilt, wird mitunter das System kompromittiert. Ohne Anpassung funktioniert es also nicht. Nur wer ITIL an seine Umgebung anpasst wird Erfolg haben.

Ist der Standort Paranal zertifiziert?

Andrew Wright: Nein. Im La-Silla-Observatorium haben wir den Prozess einmal durchlaufen und dort sind die Prozeduren auch noch aktiv. Aber wir sehen keine Notwendigkeit mehr einen offiziellen Stempel der Zertifizierung zu haben. Der Nutzen ist nicht erkennbar. Das soll aber bitte nicht falsch verstanden werden. Die grundsätzliche Idee dahinter ist gut.

Für große Organisationen mag es auch sinnvoll sein sich zu zertifizieren. Für uns nicht. Wir verfolgen einen sehr pragmatischen Ansatz. Wenn zum Beispiel in einer Beobachtungsnacht ein System ausfällt und wir uns erst durch viele Prozeduren arbeiten müssen bevor wir ein System anfassen ist das nicht sinnvoll. Unser Ansatz ist es, die wenigen Kontrollen die in den Prozessen bestehen so effizient wie möglich durchzuführen.

Bei einer vollständigen Anwendung von ITIL besteht die Gefahr, dass es zu bürokratisch wird. Es ist gut bis zu einem gewissen Grad Regeln zu besitzen, aber in unserem Umfeld darf es nicht übertrieben werden. Ich möchte niemanden angreifen. In der Standard Büro IT sind starre Regeln sicher gut. Bei uns würde das nicht funktionieren.

Hat diese Flexibilität auch Nachteile?

Andrew Wright: Unsere Anwender planen die Flexibilität in ihr Kalkül ein. Das führt dazu, dass oft kurzfristig Änderungen gefordert werden. Die Erwartungshaltung ist, dass wir es leisten können - egal was es kostet. Es ist recht aufwändig alles auf Kurs zu halten. Durch die permanenten Änderungen in Plan müssen wir sehr darauf achten immer den Überblick zu behalten.

Mehr Nachteile fallen mir nicht ein. Ich arbeite gerne mit einer Struktur, aber es ist wichtig aufzupassen, dass es nicht zu bürokratisch wird. Besonders wenn nur begrenzte Ressourcen zur Verfügung stehen. Hier ist ein Beispiel: Windows XP. Microsoft hat den Support eingestellt und eigentlich müssten alle XP-Systeme deaktiviert werden. Wir haben einige Systeme unter XP, deren Hersteller keine neuen Treiber für ihre Hardware bereitstellen.

Besonders betroffen sind speicherprogrammierbare PLC-5 Steuerungen. Alle Systeme zu ersetzen wäre sehr teuer. Am Ende haben wir uns entschieden bei den XP-Systemen die Netzwerk Interfaces zu deaktivieren. Die Systeme können nur noch mit ihrer eigenen Elektronik sprechen, aber nicht mehr im Netzwerk kommunizieren. Das war der pragmatische Weg um XP vom Netz zu nehmen.

Auch einige Oszilloskope verwenden noch XP als Betriebssystem. Was soll man mit denen machen? Den Mitarbeitern sagen du kannst tausende von Euro an Laborequipment wegwerfen oder mit diesen Geräten nicht mehr im Netzwerk arbeiten? Daten von XP Systemen müssen jetzt mit einem USB Stick transportiert werden. Die Geräte selbst sind nicht mehr im Netz.

Das sind für mich pragmatische Lösungen. Hätten wir die Geräte aktualisiert, wäre es ein Projekt auf Jahre gewesen. Ich bin mir bewusst, es ist immer noch ein Sicherheitsrisiko. Aber es kann minimiert und kontrolliert werden. Das ist besser als externe Dienstleister zu beschäftigen für viel Geld unsere Systeme zu aktualisieren.

Das klingt nach einem Arbeitsumfeld in dem häufig flexible Lösungen für neue Herausforderungen gefunden werden müssen. Was macht den Reiz der Tätigkeit bei der ESO IT für Sie aus?

Andrew Wright: Für mich ist diese Arbeitsumgebung sehr herausfordernd und es macht Spaß. Wenn ich daran denke, wie ich angefangen habe Büro IT in einem Unternehmen in England zu betreuen bin ich mir nicht sicher, ob ich immer noch in diesem Job wäre wenn es so weitergegangen wäre. Der Betriebsaspekt in Paranal macht es spannend. Wir bekommen Instrumente an den Teleskopen aus unterschiedlichen Ländern und es macht Spaß zu sehen, wie diese Systeme in die komplexe Teleskoplandschaft integriert werden und Daten liefern.

Manchmal werde ich schräg angesehen wenn ich sage, das hier ist wie eine Produktionsstraße. Aber genau so ist es. Es ist eine Produktionsstraße für astronomische Daten. Und ich bin in der glücklichen Situation ein hoch motiviertes Team zu haben. Und unsere Kunden sind mit unseren Leistungen sehr zufrieden. Ich denke es ist gut so.

Andrew Wright (links) und sein Mitarbeiter Marcus Pavez bei der Arbeit im Kontrollzentrum der Teleskope.
Foto: ESO Paranal

Schauen wir zum Abschluss über Paranal hinaus. Wohin geht aus Ihrer Sicht die Entwicklung bei der wissenschaftlichen Datenverarbeitung in den nächsten Jahren?

Andrew Wright: Ich bin überzeugt, neue Hardwaretechnologie wird einige Türen öffnen. Durch die enormen Leistungssteigerungen bei der Hardware können wir mit unseren wissenschaftlichen Instrumenten heute Fragestellungen lösen, die noch vor wenigen Jahren durch die Rechenleistung begrenzt waren.
Die größte Herausforderung der Zukunft wird das Management der enormen Datenmengen die wir erwarten. Die Frage ist, ob das Internet bereits fähig ist den steigenden Anforderungen gerecht zu werden. In Europa ist die erforderliche Infrastruktur bereits gut entwickelt. Aber hier in Lateinamerika sind noch einige Probleme zu lösen.