KI und Analytics Fails

Wenn datengetrieben im Debakel endet

19.02.2021

Von

Thor Olavsrud ist Senior Writer bei CIO.com und beschäftigt sich mit IT-Security, Big Data, Open-Source-Technologie sowie Microsoft-Tools und -Server-Systemen. Er lebt in New York.

COVID-19 vs. Excel

Im Oktober 2020 musste Public Health England (PHE) - die Behörde, die in Großbritannien für die Erfassung neuer Coronavirus-Infektionen zuständig ist - eingestehen, dass knapp 16.000 Infektionsfälle unter den Tisch gefallen sind. Der Grund: die Datenlimitierungen von Excel.

Um positive COVID-19-Testergebnisse zu erfassen, verlässt sich PHE auf ein automatisiertes Verfahren, bei dem .csv-Dateien in Excel-Templates übertragen werden. Allerdings kann ein solches Excel Spreadsheet maximal 1.048.576 Zeilen und 16.384 Spalten aufnehmen. Als dieses Limit erreicht war, ließ die Software 15.841 positive Fälle unter den Tisch fallen.

Zwar erhielten die betroffenen Personen wie gewohnt ihre Testergebnisse, allerdings wurde die Nachverfolgung von Kontakten dadurch wesentlich erschwert. Der Fehler wurde laut PHE schnell behoben und alle ausstehenden Fälle nachgereicht. Inzwischen hat die Behörde nach eigener Aussage auch Maßnahmen getroffen, um ähnliche Vorfälle in der Zukunft zu verhindern.

Healthcare Bias

Im Jahr 2019 deckte eine wissenschaftliche Studie auf, dass ein von Krankenhäusern und Versicherungen in den USA eingesetzter Algorithmus hellhäutige Patienten begünstigte. Der prädiktive Algorithmus wurde verwendet, um Patienten zu identifizieren, die ein "high-risk care management" benötigen.

Anhand dieser Identifikation können Klinikangestellte oder Ersthelfer chronisch kranke Patienten erkennen, um ernsthafte Komplikationen bei der Behandlung möglichst auszuschließen. Schwarze Patienten wurden von diesem Algorithmus allerdings nur sehr selten in diese Kategorie eingestuft.

Wie die Studie zeigte, nutzte der Algorithmus Aufwendungen im Healthcare-Bereich als Anhaltspunkt, um den Bedarf einzelner Personen zu ermitteln. Dabei wurden laut Scientific American selbst die dunkelhäutigen Patienten, deren Ausgaben auf einem hohen Level lagen mit geringeren Risiko-Scores versehen, obwohl ihr Bedarf im Vergleich zu weißen, gesünderen Patienten deutlich höher war.

Weder der Algorithmus noch seine Entwickler wurden in der Studie namentlich genannt - die Wissenschaftler arbeiten aber mit den Verantwortlichen zusammen, um die Situation zu bereinigen.

Chatbot-Fiasko

Im Frühjahr 2016 taumelte Microsoft einem ausgewachsenen PR-Desaster entgegen. Schuld war der kurz zuvor veröffentlichte Twitter-Chatbot namens Tay. Die KI-Persönlichkeit schmiss nämlich plötzlich mit Ergüssen wie "Hitler was right" oder "9/11 was an inside job" um sich, weil böswillige Internet-Trolle ihn mit Parolen und Verschwörungstheorien gefüttert hatten.

Eigentlich sollte Tay junge Menschen zwischen 18 und 24 Jahren ansprechen und von diesen Nutzern in Sachen Sprache lernen. Anschließend sollte er auf mehreren Social-Media-Plattformen ausgerollt werden. Durch Machine Learning, adaptive Algorithmen und die Analyse von Daten sollte Tay Gesprächsinhalte vorhersehen und entsprechende Antworten geben. Stattdessen erging es dem Chatbot wie einigen Usern aus seiner Zielgruppe: Er hing mit den falschen Leuten rum.

Microsoft bewarb Tay vor dem Release mit den Worten: "The more you chat with Tay, the smarter she gets". Oder nicht. Ganze 16 Stunden war das KI-Experiment online.

Recruiting mit Vorlieben

Wie viele andere Großunternehmen auch ist Amazon stets auf der Suche nach Tools, die dabei helfen, die besten Job-Kandidaten zu ermitteln. Im Jahr 2014 versuchte der Bezos-Konzern sich deshalb an einer KI-getriebenen Recruiting Software. Dabei gab es nur ein Problem: Das System hatte eine Vorliebe für männliche Bewerber.

Das lag vor allem daran, dass die Machine-Learning-Modelle mit historischen Daten gefüttert wurden, die vor allem aus Lebensläufen männlicher Bewerber bestanden. Als Resultat strafte das System Wörter wie "women's" in Lebensläufen ab - und erachtete auch Kandidatinnen von rein weiblichen Universitäten als ungeeignet. Laut Amazon kam die Software nicht in der Praxis zum Einsatz.

Der Konzern versuchte zwar, das Recruiting Tool in die richtigen Bahnen zu lenken, beschloss allerdings 2018 das Projekt zu beenden, da nicht gewährleistet werden könne, dass das System weiterhin diskriminierende Entscheidungen trifft.

Entlarvende Analytics

Im Jahr 2012 bewies der US-Einzelhandels-Gigant Target, wie tiefgehend die Insights sind, die man aus Kundendaten gewinnen kann: Laut einem Artikel der New York Times setzt das Unternehmen seit 2002 alles daran, in Erfahrung zu bringen, welche ihrer Kunden gerade schwanger sind. Dieses Vorhaben war auch von Erfolg gekrönt, wie sich im Jahr 2012 herausstellte, als der Konzern per Werbe-Mailing versehentlich die Schwangerschaft einer Minderjährigen offenlegte. Als das bekannt wurde, folgten zahlreiche Medienberichte, die den "creepy factor" dieser Art der Datenanalyse in den Fokus stellten.

Glaubt man der New York Times, hat der Konzern dennoch nicht Abstand von seinen Analytics-Praktiken genommen. Allerdings werden den Werbeanzeigen für die schwangere Zielgruppe seither Zielgruppen-fremde Anzeigen "beigemischt", um ein weniger gruseliges Gesamtbild zu erzeugen. (fm)

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation CIO.com.

COVID-19 vs. Excel

Healthcare Bias

Chatbot-Fiasko

Recruiting mit Vorlieben

Entlarvende Analytics

Per E-Mail versenden

Artikel als PDF kaufen

Über den Autor