Aus Schaden klug werden

Die größten IT-Disaster 2021

21.01.2022 von Josh Fruhlinger und Moritz Iversen
Lernen aus den Fehlern anderer, von Security bis Software-Engineering: Diese IT-Katastrophen haben 2021 in der Welt nachhaltigen Eindruck hinterlassen.
Große und kleine IT-Katastrophen gab es reichlich im Jahr 2021. Was können IT-Chefs daraus lernen?
Foto: conrado - shutterstock.com

Die Enterprise-IT ist ein Synonym für den "laufenden Geschäftsbetrieb". Wenn also die Technik ausfällt, kann die Organisation Schaden nehmen oder sogar untergehen. IT-Ausfälle, egal ob es sich um ein komplexes System oder ein Projekt handelt, rücken zunehmend in die Schlagzeilen der Wirtschaftsnachrichten, wo ihre Auswirkungen noch nachteiliger - und peinlicher für alle Beteiligten - werden können. 2021 gab es wieder einmal gute Beispiele dafür.

Warum einfach, wenn es auch kompliziert geht?

Viele Unternehmen neigen dazu, ihre IT-Tools nach dem Motto "Wenn es nicht kaputt ist, repariere es nicht" zu behandeln. Wer schon einmal an einem verpfuschten Upgrade oder Rollout beteiligt war, weiß warum. Die an sich verständliche Einstellung kann jedoch dazu führen, dass einige wirklich veraltete Systeme mit Benutzeroberflächen aus den Anfängen der Softwareindustrie noch heute produktiv eingesetzt werden - was wiederum zu Problemen bei der Benutzerfreundlichkeit mit unschönen Folgen führen kann.

Eines der Backend-Systeme der Citibank war ein gutes Beispiel für diesen Trend und eine der Hauptursachen für ein Problem in der Größenordnung von rund einer halben Milliarde Dollar. Eines Tages versuchte das Geldhaus, eine Zinszahlung in Höhe von 7,8 Millionen Dollar im Namen von Revlon, einem ihrer Kunden, an mehrere Gläubiger von Revlon zu überweisen.

Mit Flexcube, einer uralten Citibank-Software, war dies ein besonders schwerfälliger Prozess: Die Citibank-Mitarbeiter mussten eine Transaktion so aufsetzen, als würden sie den gesamten Kredit abzahlen, damit die Zinsen korrekt berechnet werden konnten. Dann mussten sie mehrere Kästchen ankreuzen, um den Großteil der Zahlung auf ein internes Citibank-Konto zu überweisen, während nur der Zinsanteil an die Gläubiger ging - oder zumindest gehen sollte.

Obwohl drei Personen diese Transaktion für Revlon abzeichneten, wurde sie durchgeführt, ohne dass alle ordnungsgemäßen Kästchen angekreuzt waren. Rund 900 Millionen Dollar, von denen der größte Teil erst im Jahr 2023 an die Gläubiger fällig war, wurden überwiesen. Normalerweise würde die begünstigte Partei das irrtümlich überwiesene Geld zurückerstatten.

Aber dieses Mal lief es anders: Mehr als die Hälfte des Geldes ging an verschiedene Hedgefonds, die nicht zufrieden damit waren, dass die Darlehensbedingungen zuvor zu Revlons Gunsten neu ausgehandelt worden waren. Sie erklärten, dass sie das Geld als vorzeitige Zahlung der ihnen geschuldeten Beträge betrachteten, und 2021 entschied tatsächlich ein Richter, dass sie das Geld nicht zurückgeben mussten.

Sacre bleu! Pas mon Bankkonto

Kunden der französischen Bank LCL meldeten sich am 23. Februar 2021 bei ihrer Banking-App an und mussten feststellen, dass sie Daten anderer Nutzer sehen konnten. Die Nachricht verbreitete sich schnell auf Twitter, und viele spekulierten, dass dies die Folge eines Cyberangriffs gewesen sein könnte. Nach Angaben der Bank selbst handelte es sich jedoch um einen Softwarefehler, der innerhalb eines Tages korrigiert wurde.

Es folgte der typische Ritus bei dieser Art von Fehlern, indem das schuldige Unternehmen die Sache herunterspielte: LCL erklärte, es seien keine persönlichen Daten offengelegt worden, und Kunden könnten nur die Konten anderer Kunden einsehen, aber keine Überweisungen tätigen.

Auch seien vielleicht nur ein paar hundert Kunden betroffen. Andere wiesen jedoch darauf hin, dass die Transaktionsdaten dazu hätten verwendet werden können, die Identität der Kunden herauszufinden, und dass sich möglicherweise Zehntausende von Nutzern eingeloggt hätten, während der Fehler im Live-Code passierte. Am Ende musste sich LCL anstrengen, um eine hohe Geldstrafe von den europäischen Datenschutzbehörden zu vermeiden.

Stay a little bit longer!

2019 verabschiedete die Legislative von Arizona ein neues Gesetz. Dies ermöglichte es bestimmten Gefängnisinsassen, die wegen gewaltfreier Straftaten verurteilt wurden, in staatlichen Gefängnissen ein Programm zu absolvieren, das ihre Entlassung beschleunigt. Doch Whistleblower deckten im Februar auf, dass mehr als ein Jahr später die Software, mit der die Entlassungsberechtigung von Gefangenen erstellt wird, immer noch nicht aktualisiert wurde, um das neue Gesetz zu berücksichtigen.

Während der Staat darauf bestand, dass berechtigte Gefangene ihre Strafminderung nur per Antrag neu berechnen lassen, schienen viele Insassen einfach nicht zu wissen, dass sie für eine vorzeitige Entlassung überhaupt in Frage kommen. Oder sie hatten keine Anwälte, um ihren Fall voranzutreiben. So blieben viele im Gefängnis, obwohl sie laut Gesetz das Recht hätten, freizukommen.

In diesem Fall finden sich mehrere Learnings für die IT: Einerseits ist es wichtig, Flexibilität und Erweiterbarkeit in jedes IT-System einzubauen; andererseits zeigt sich, dass Software nicht einfach nur Software ist, denn sie hat reale und tiefgreifende Auswirkungen auf das Leben der Menschen. Und schließlich stellt sich die Frage, wie das Recht in Form von Code umgesetzt werden kann - und ob Algorithmen zur Durchsetzung des Rechts nicht schon während des Gesetzgebungsverfahrens entwickelt werden sollten, anstatt sie erst zu schreiben, nachdem das Gesetz bereits in Kraft getreten ist.

Software für die Ewigkeit

Die Personal- und Lohnbuchhaltung des US-Bundesstaates Maine wird, wie der "Portland Press Herald" schrieb, von einem "40 Jahre alten IT-System angetrieben, das in einer veralteten Sprache programmiert ist, mit der nur ein einziger Staatsbediensteter etwas anfangen kann." Die Software hatte bereits einen 2016 unternommenen Versuch, sie zu ersetzen, überlebt; ein weiterer Vorstoß, der 2020 abgeschlossen werden sollte, implodierte im vergangenen März im gegenseitigen Streit: Workday, das Unternehmen, das mit der Einführung eines neuen cloudbasierten Systems für Maine beauftragt war, gab das Projekt auf.

Die Einführung von ERP-Systemen und ähnlichen Plattformen ist bekanntermaßen katastrophenanfällig, und die Gehaltsabrechnungen in Maine sind teuflisch komplex. Beispielsweise erhalten die Polizisten des Bundesstaates unterschiedliche Stundensätze, wenn sie zum Beispiel eine Waffe bei sich führen, mit einem Hund arbeiten oder eine Tauchausrüstung tragen.

Der Kern des Streits ist eine Geschichte, die jedem bekannt vorkommen dürfte, der schon einmal an einem großen IT-Projekt beteiligt war: Maine behauptet, das neue System sei mit einer Fehlerquote von 50 Prozent online gegangen, während Workday zu Protokoll gab, dass die in das System importierten Daten von Maine hoffnungslos fehlerbehaftet gewesen waren.

Grundsätzlich scheint es so zu sein, dass Maine Mitarbeiter für das Projekt einstellte, die nicht über die erforderlichen Fähigkeiten verfügten, und dass der Staat nicht bereit war, genug zu zahlen, um Mitarbeiter zu finden, die die Anforderungen erfüllen konnten. Wenn man dann noch die erhobenen Vorwürfe der Vetternwirtschaft und der sexuellen Belästigung hinzufügt, hat man ein echtes IT-Management-Problem. Maine verwendet übrigens immer noch sein 40 Jahre altes HR-System.

Urlaub am Amazonas

Wenn Sie aus den beiden vorangegangenen Berichten den Schluss ziehen, dass die öffentliche Hand nicht in der Lage ist, IT-Projekte kompetent zu managen, müssen wir leider mitteilen, dass 2021 eine nicht unähnliche Krise in einem Unternehmen des privaten Sektors ans Licht kam - und zwar nicht in irgendeinem Unternehmen, sondern bei Amazon, dem Prototypen der hypereffizienten neuen Plattformökonomie, die erst durch IT und das Internet ermöglicht wurde.

Eine Untersuchung der "New York Times" ergab, dass Amazons interne Verfahren für die Gewährung verschiedener Arten von Urlaub an seine Mitarbeiter reichlich fehlerhaft sind. Dies hat zu einer ganzen Reihe von Horrorgeschichten geführt, die sowohl Angestellte als auch Arbeiter betreffen. Dazu zählen Menschen, die gefeuert wurden, weil sie nicht zur Arbeit erschienen, obwohl sie sich im genehmigten Urlaub befanden, aber auch Frauen im Mutterschaftsurlaub, die mysteriöse Kürzungen ihres Gehaltsschecks hinnehmen mussten, sowie ein verletzter Arbeiter, der wegen Arbeitsunfähigkeit gezwungen war, seinen Ehering gegen Bargeld zu verkaufen, weil seine Schecks einfach nicht mehr eintrafen.

Wie sich herausstellte, verwaltet Amazon sein Urlaubssystem mit mehreren Softwareprodukten verschiedener Anbieter - ein Erbe seines raschen Wachstums in den Anfangstagen. Die Lehre daraus ist, dass die Entscheidungen, die man zu Beginn der Unternehmensgeschichte trifft, noch Jahre oder sogar Jahrzehnte nachwirken können. Wie das Gefängnissystem in Arizona versuchte auch Amazon, IT-Dysfunktionalität durch menschliche Arbeit auszugleichen: 67 Vollzeitmitarbeiter sind angeblich mit der Eingabe von Daten zum Urlaub der Mitarbeiter beschäftigt - eine Arbeit, die so stressig ist, dass viele von ihnen am Ende selbst Urlaub nehmen müssen.

Plan B ist Pflicht

Am 4. Oktober 2021 konnten Menschen auf der ganzen Welt nicht auf Facebook, Instagram oder WhatsApp zugreifen, da die Services des inzwischen umbenannten Unternehmens Meta vom Internet abgeschnitten waren. Wir wollen nicht zu sehr auf die eigentliche Ursache der Krise eingehen, bei der es sich um einen Fehler im Border Gateway Protocol handelte, der die Dienste vom restlichen DNS-System des Internets abtrennte. Stattdessen wollen wir uns auf ein Detail konzentrieren, das für jeden IT-Betrieb von Bedeutung sein könnte - selbst für solche, die nicht zu einem der größten Technologieunternehmen der Welt gehören.

Zu Beginn des Ausfalls berichtete die Tech-Reporterin der "New York Times", Sheera Frenkel, dass Facebook-Mitarbeiter die Unternehmenszentrale nicht betreten konnten, weil ihre Ausweise die Türen nicht mehr öffneten. Dies wiederum hinderte die Techniker daran, Zugang zu den Servern zu erhalten, auf die sie für die Behebung des Gesamtproblems zugreifen mussten.

Unwahrscheinlich ist, dass die elektronischen Türschlösser von Facebook auch von Facebook betrieben wurden. Es scheint aber so, dass der Konzern die Strategie verfolgt hat, alle internen Systeme auf der eigenen Infrastruktur laufen zu lassen. Mit der Folge, dass die internen Kommunikationssysteme ebenfalls ausfielen, was nicht gerade dazu beigetragen hat, die Krise schnell zu bewältigen. Der Fachausdruck für ein Unternehmen, das so handelt, lautet: "sein eigenes Hundefutter essen". Dies wird im Allgemeinen als Vertrauensbeweis für die eigenen Services angesehen. Der Totalausfall von Facebook erinnert jedoch daran, dass man auch als Vollprofi immer einen Plan B in der Hinterhand haben sollte.

Ein geduldiger Fehler

Am 8. Juni sahen sich Millionen von Internetnutzern, die versuchten, auf Websites von Reddit bis hin zu wichtigen britischen Regierungsstellen zuzugreifen, mit 503-Fehlercodes konfrontiert. Diese zeigen an, dass der Server, auf dem die Website gehostet wird, die Anfrage nicht bearbeiten kann (Twitter funktionierte zwar noch, konnte aber tragischerweise keine Emojis mehr anzeigen). Wie konnten so viele verschiedene Websites auf einmal offline gehen?

Wie sich herausstellte, hängt die Antwort mit dem Aufkommen von Content Delivery Networks (CDN) zusammen, die Unternehmen an strategischen Punkten im Internet Proxy-Server für ihre Kunden einrichten, um superkurze Ladezeiten zu gewährleisten. Fast jede große Website nutzt heutzutage CDNs, und es gibt nicht viele Anbieter in diesem Bereich, so dass der Ausfall eines CDNs dazu führen kann, dass ein großer Teil des Internets ausfällt.

In diesem Fall war Fastly, ein Edge-Computing-Anbieter mit einem florierenden CDN-Geschäft, die Schwachstelle. Das Unternehmen brachte am 12. Mai 2021 ein Software-Update auf den Markt, das einen Fehler enthielt, der unter den passenden Bedingungen durch eine bestimmte Kundenkonfiguration ausgelöst werden konnte. Am 8. Juni schließlich aktualisierte ein Kunde unwissentlich seine Konfiguration und löste damit eine Krise aus.

Boten hassen diesen Trick

Im Oktober entdeckte ein Reporter des "St. Louis Post-Dispatch" in Zusammenarbeit mit dem Sicherheitsexperten Shaji Khan eine fehlerhafte Website. Diese ermöglichte es der Öffentlichkeit, nach der Zertifizierung und den Zeugnissen von Lehrern zu suchen. Allerdings gab sie versehentlich auch die Sozialversicherungsnummern dieser Lehrer preis.

Die Nummern wurden zwar nicht auf der Seite mit den Suchergebnissen selbst angezeigt, aber sie waren im HTML-Code der Seite als Klartext enthalten, so dass sie leicht zu finden waren. Die Zeitung informierte das staatliche Bildungsministerium über den Fehler, bevor die Geschichte veröffentlicht wurde, und gab der Behörde Zeit, ihn zu korrigieren. Wenn sich alle normal verhalten hätten, würden Sie jetzt nichts über diese Geschichte lesen.

Zuerst begann ein Sprecher des Bildungsministeriums damit, eine (nie abgeschickte) Erklärung zu verfassen, in der er den Medien dafür dankte, dass sie ihn auf die Angelegenheit aufmerksam gemacht hatten. Zwei Tage später beschuldigte der Gouverneur die Zeitung öffentlich, "Hacker" angeheuert zu haben, um ihn und die Verwaltung in Verlegenheit zu bringen. Er versprach, eine strafrechtliche Untersuchung einzuleiten. Nach diesen Vorwürfen sah er sich mit Gegenreaktionen und Spott konfrontiert, darunter auch von Mitgliedern seiner eigenen Partei. Die Lehre daraus ist, dass die Art und Weise, wie man mit den Folgen einer IT-Katastrophe umgeht, fast genauso wichtig ist wie die Fehler, die zur Katastrophe geführt haben.