Datenanalyse

Warum PRISM wenig mit Big Data zu tun hat

16.07.2013 von Christoph Lixenfeld

Vieles von dem, was Geheimdienste über uns sammeln, lässt sich mit Big-Data-Methoden gar nicht auswerten. Oder jedenfalls nicht mit sinnvollen Ergebnissen.

In unseren Kopf zu blicken, ist schwieriger, als viele in diesen Tagen glauben.
Foto: Jürgen Fälchle, Fotolia.de

Es is einiges zusammengerührt worden, seit PRISM, Tempora, und weitere Überwachungsprogramme ans Licht kamen. Die Begriffe Big Data und Cloud Computing werden im selben Satz genannt, der Eindruck geschürt, die Spione verfügten über eine Wundermaschine. Die nimmt erst wie ein Staubsauger jedwede Art von Datenmaterial in sich auf und präsentiert anschließend - im Stile einer riesigen Sortieranlage - sinnvoll verwendbare, sauber separierte Ergebnisse. Vollautomatisch und valide. Mit der Realität hat das wenig zu tun.

Big Data ist seit kurzem in aller Munde, weil die notwendige Hardware bezahlbar geworden ist. Privatunternehmen können sich heute Rechenungetüme in den eigenen Keller stellen, die sich vor fünf Jahren nur Verteidigungsministerien oder amerikanische Eliteuniversitäten leisten konnten. Der Big-Data-Rechner des dänischen Windkraftanlagen-Herstellers Vestas, über den noch zu sprechen sein wird, kann 161 Billionen Berechnungen durchführen. Pro Sekunde. Die 24 Tonnen schwere Maschine ist schnell, aber sie ist nicht allwissend. Und auch sie gehorcht einem wichtigen Grundsatz jeder Datenverarbeitung: Bullshit in, Bullshit out. Will sagen, sie kann nur sinnvolle Ergebnisse liefern, wenn sie mit wirklich auswertbaren Daten gefüttert wird.

Twitter soll Vorhersagen stützen

Wie geradezu grotesk schief es gehen kann, wenn man schlecht strukturierte Daten einer strukturellen Analyse unterzieht, berichtete Harvard-Professor Gary King unlängst auf dem "Text and Social Analytics Summit 2013" in Cambridge. In dem von King, Direktor des Instituts für Quantitative Sozialwissenschaften in Harvard, zitierten Fall hatten US-Wissenschaftler versucht, mit Hilfe von Twitter die amerikanische Arbeitslosenrate vorherzusagen. Die Forscher definierten eine Reihe von Schlüsselbegriffen wie 'jobs', 'unemployment' oder 'classified'. Sie zählten Tweets und Posts aus anderen sozialen Medien, in denen diese Begriffe vorkamen. Dann suchten sie Korrelationen zwischen der Häufigkeit der Verwendung dieser Keywords in Tweets pro Monat und der Entwicklung der Arbeitslosenrate. Gary King betonte, diese Methode sei absolut üblich.

Das Projekt schritt voran, Geld für seinen Weiterbetrieb wurde gesammelt. Bis plötzlich die Anzahl der Tweets, die die definierten Keywords enthielten, dramatisch anstieg. Wie würde sich die Arbeitlosenrate in den nächsten Wochen entwickeln? Die Forscher wähnten sich auf dem richtigen Weg, noch mehr Dollars flossen in das Projekt.

Steve Jobs' Tod stiftet Verwirrung

Was niemand auf dem Schirm beziehungsweise niemand richtig gedeutet hatte, war der Tod von Steve Jobs. Dieses Ereignis war der ebenso traurige wie banale Grund, dass die Anzahl der Tweets, die das Wort 'Jobs' enthielten, so dramatisch gestiegen war... "Solche Fehler passieren ständig", so Gary King. "Wir dürfen eben Menschen nicht mit Maschinen verwechseln, die gleichförmige, vergleichbare Daten produzieren. Wir sind gut darin, Menschen zu sein, aber schlecht darin, Computer zu spielen."

Nach Ansicht von King liegt der Wert von Big Data vor allem in der Qualität der damit erstellten Analyse, "und dazu ist Auswertungssoftware notwendig, die maßgeschneidert für den angestrebten Businesszweck ist."

Wie im Falle des bereits erwähnten Sytems des Windkraftanlagenherstellers. Die Maschine steht im dänischen Randers und ist einer der größten kommerziell genutzten Computer auf unserem Planeten. Mit seiner Hilfe und mit der installierten Analyse-Software von IBM findet die Vestas Wind Systems A/S den optimalen Standort für ihre Windkraftanlagen zentimetergenau. Daten von 35.000 meteorologischen Stationen auf der ganzen Welt wertet der Rechner aus, außerdem globale Wetterdaten der zurückliegenden 12 Jahre und jene Informationen, die die mehr als 40.000 von Vestas installierten Anlagen liefern. Die Auswahl des optimalen Standorts dauert jetzt nur noch Minuten, deshalb spart das Unternehmen bei jeder neuen Anlage mehrere Monate Entwicklungszeit.

Google versteht vieles falsch

Die sprichwörtliche Suche nach der Nadel: So muss man sich den Versuch vorstellen, aus unsortierten privaten Postings sinnvolle Schlüsse zu ziehen.
Foto: Michael Tieck/Fotolia.com/CW

Das Projekt ist eines der unzähligen erfolgreichen Big-Data-Projekte, über die in der Öffentlichkeit weniger gesprochen wird. Es funktioniert, weil der Computer quantifizierbare, vergleichbare und standardisierbare Daten verarbeitet und keine von Menschen gemachten, eher schwammigen Angaben. So wie das, was wir Google mitteilen, wenn wir deren Services nutzen.

Unternehmen oder Privatmenschen, die glauben, durch Suchanfragen oder Ähnliches völlig durchschaubar zu sein für Google, sollten einen kleinen Schnelltest nachmachen, den der Journalist Jens Berger für die "Nachdenkseiten" vorgemacht hat. Auf dieser Seite kann jeder sein Profil als Anzeigenkonsument einsehen, also sich darüber informieren, wofür er sich nach Ansicht von Google interessiert. Im Falle des Autors dieser Zeilen handelt es sich dabei unter anderem um die Themen Haarpflegeartikel, Kosmetik und Prominentennachrichten. Realitätsferner könnte es nicht sein... Daten verlieren eben mit der Anzahl der Variablen an Qualität. Oder anders gesagt: Je mehr Optionen es für die Antwort auf eine Frage oder für die Suche nach was auch immer gibt, desto schwieriger ist es, aus den dabei gewonnen Daten valide Erkenntnisse zu gewinnen.

Sinnloses lässt sich nicht analysieren

Das heißt aber keineswegs, dass Googles Sammelei unbedenklich wäre. Die Gefahren ergeben sich aber eher dem Scannen des Mailverkehrs und aus dem parallelen Check von Social-Media-Aktivitäten, weil sich daraus ablesen lässt, welches Unternehmen mit welchem anderen was warum seit wann zu tun hat.

Und natürlich wäre es auch höchst bedenklich, wenn der US-Geheimdienst oder irgendwelche Konkurrenten Firmen-E-Mails inhaltlich auswerten würden. Nur, auch das betonte Harvard-Professor Gary King in Cambridge, eine solche semantische Analyse fällt Maschinen noch immer schwer. Es ist eine enorm komplexe Aufgabe, zum Beispiel E-Mail-Verkehr in drei Sprachen zu einem Thema auszuwerten und zu deuten. Oder sich den Sinn von englischen Texten zusammenzureimen, die von Finnen, Russen und Deutschen verfasst worden sind.

Gleiches gilt für Postings auf Facebook: Das beschriebene Wer-zu-wem dürfte interessant sein und auswertbar, aber die Inhalte von privaten Einträgen? Eignen sich in aller Regel bestenfalls dafür, einem Hundehalter ein drittes Halsband oder mehr Lekkerlies zu verkaufen. Wenn die Analysten denn in der Lage sind, solche einfachen Schlüsse zu ziehen (siehe Google-Beispiel).

Barzahler bleiben anonymer

Interessanter für Spione ist das gezielte Auswerten der Kommunikation bestimmter Unternehmen, und beispielsweise Facebook für die kollaborative Produktentwicklung zu nutzen, davon kann man nur dringend abraten.

Davon abgesehen erweckt die aktuelle Diskussion ein wenig den Eindruck, wir alle wären vor und ohne PRISM undurchschaut und anonym gewesen. Das sind wir schon lange nicht mehr. Die Schufa weiss viel über uns, Kreditkartenfirmen auch, und sie würden gerne noch mehr wissen. Eine von ihnen verstieg sich jüngst im Rahmen einer Studie zu der steilen These, der Deutschen Liebe zum Bargeld sei der Grund für die viele Schwarzarbeit. Deshalb, so die wenig überraschende Empfehlung, sollten wir alle viel öfter elektronisch bezahlen. Doch wer ein bisschen anonymer bleiben will als andere, tut genau das nicht. Er zahlt bar.