Deepfakes machen Biometrie unsicher

So manipulieren Hacker Audio- und Videodaten

02.10.2018 von Jens Dose

Künstliche Intelligenz und Machine Learning ermöglichen täuschend echt wirkende Bild- und Ton-Fälschungen. Damit stehen scheinbar sichere Authentifizierungsverfahren in Frage.

Biometrische Authentifizierung findet gerade bei jungen Menschen immer mehr Anklang. Dies besagt die aktuelle Studie "Future of Identity" von IBM. Demnach sind 75 Prozent der Millennials unter den befragten 4.000 Erwachsenen in den USA, aus dem Asien-Pazifischen Raum sowie in Europa überwiegend mit biometrischen Verfahren vertraut.

Angesichts der Tatsache, dass die junge Generation in die Unternehmen drängt, wird Absicherung via Biometrie wahrscheinlich auch in Unternehmen verstärkt Anwendung finden. Das scheint vordergründig eine gute Idee zu sein, gelten doch Merkmale wie der Finderabdruck, die Iris oder die Stimme als einzigartige Identifikationsmerkmale, die schwieriger zu knacken sind als etwa Passwörter.

Biometrie als Authentifizierungsmethode erfreut sich bei jungen Menschen großer Beliebtheit. Das Sicherheitsniveau ist jedoch fraglich.
Foto: sp3n - shutterstock.com

Doch die Realität sieht anders aus. So demonstrierte der White-Hat-Hacker "Starbug", Mitglied des Chaos Computer Clubs, kürzlich in einer ARD-Reportage, wie Fingerabdruck- und Iris-Scanner mit einfachen Mitteln überlistet werden können. Des Weiteren zeigte sich, dass die so gewonnenen Daten keineswegs sicher sind. So übertragen derzeit handelsübliche Fingerabdruck-Scanner, die beispielsweise in Behörden verwendet werden, die eingelesenen Bilddaten unverschlüsselt vom Lesegerät an einen PC. Erst dort werden die Informationen kodiert. Diese Daten könnten also bei der Übertragung abgefangen und für die Täuschung biometrischer Authentifizierungsmechanismen missbraucht oder manipuliert werden.

Ein neuer Angriffsvektor

Mit sogenannten Deepfakes, abgeleitet von den Begriffen Deep Learning und Fake, eröffnen sich Cyberkriminellen noch weitere Möglichkeiten, Unternehmen zu schaden. Prinzipiell steht dahinter die Möglichkeit, Bild-, Video- oder Audiodateien so zu manipulieren, dass biometrische Merkmale wie Aussehen oder Stimme von Personen täuschend echt imitiert werden. Bekannt geworden ist beispielsweise eine Fake-Video, in dem der amerikanische Ex-Präsident Barack Obama seinen Nachfolger Donald Trump übel beschimpft.

So etwas ist natürlich auch im Unternehmensumfeld denkbar. "Die möglichen Angriffsszenarien reichen von der Übernahme von Identitäten bis zur Erpressung von Unternehmen", bewertet David Wollmann, Executive Consultant bei NTT Security, die Lage.

Laut dem auf Sicherheit spezialisierten Unternehmen der NTT Group muss sich die Wirtschaft auf drei Angriffsszenarien einstellen:

C-Level-Fraud: eine Weiterentwicklung des E-Mail-Phishing. Hierbei könnten Betrüger die Stimmen von Topmanagern imitieren und Mitarbeiter beispielsweise anweisen, Geld auf ein Konto zu überweisen oder sensible Informationen preiszugeben.
Erpressung von Unternehmen oder Einzelpersonen: Ein manipuliertes Video zeigt zum Beispiel den CEO, der bekannt gibt, dass sein Unternehmen alle Kundendaten verloren hat oder kurz vor der Insolvenz steht. Mit der Drohung, das Video an Presseagenturen zu schicken oder es in sozialen Netzwerken zu posten, könnte ein Angreifer eine Firma erpressen.
Manipulation von Authentifizierungsverfahren: die Umgehung von kamera- oder audiobasierten Authentifizierungsmechanismen durch manipulierte Bilder und Videos. Passieren diese beispielsweise das Postident-Verfahren, wäre ein Identitätsdiebstahl denkbar.

Zur Umsetzung solcher Angriffe brauche es laut NTT mittlerweile nicht mehr viel. Video-Deepfakes seien mit im Internet frei verfügbaren Tools und zu überschaubaren technischen Kosten realisierbar. Benötigt werde lediglich eine Webcam für rund 80 Euro, ein Greenscreen für rund 90 Euro und eine Grafikkarte für rund 1.000 Euro.

Nicht besser steht es um die Manipulierbarkeit von Audiodateien. In der Vergangenheit musste ein Modell noch anhand von Sprachdaten mit mindestens fünf Stunden Länge erstellt werden. Heute stehen Tools zur Verfügung, die das Synthetisieren von neuen Stimmen auf Basis eines vorhandenen Modells mit nur einer Minute an Audiomaterial ermöglichen, so NTT.

Dieser Trend ist übrigens in Deutschland bereits angekommen. Einschlägige deutsche Webportale bieten Deepfake-Apps zum Download an.

Schwachstelle: Gutgläubigkeit

"Menschen tendieren instinktiv dazu, das zu glauben, was sie sehen," konstatiert Daniel Cohen, Director der Fraud & Risk Intelligence Unit bei RSA Security. Er schlussfolgert: "Diese persuasive Eigenschaft von Videos macht Deepfakes so gefährlich."

Für Social-Engineering-Angriffe seien Deepfakes längst ein probates Mittel, so Cohen. Der Betrachter interessiere sich für die Inhalte des Videos und klicke auf die dort platzierten Phishing-Links. Darüber hinaus hätten Deepfakes aber auch das Potenzial, die Wahrnehmung der Menschen zu beeinflussen. Das geschehe, indem gezielt falsche Informationen platziert oder Führungskräfte absichtlich in Verleumdungskampagnen hineingezogen würden.

Das Gefahrenpotenzial von Deepfakes über Betrug und Erpressung hinaus darf also nicht unterschätzt werden. Theoretisch können Unternehmen gezielt "moralisch" von innen heraus destabilisiert werden. Sind Mitarbeiter aufgrund der so entstandenen Fehlinformation von ihrem Arbeitgeber enttäuscht, könnten sie das Unternehmen verlassen.

Wir liefern den Angreifern die Waffen

Um Deepfakes zu erstellen, benötigen die Angreifer zunächst einmal eine Datengrundlage aus Bild-, Video- oder Audiobeispielen derjenigen Person, die imitiert werden soll. Dabei wird man, je nach Präsenz des Opfers auf den Unternehmenskanälen sowie in den Medien und sozialen Netzwerken, auch relativ schnell fündig.

Für gesprochenen Input können die Betrüger die Tonspuren von Internet-Videos nutzen. Laut der TU Darmstadt spielt aber auch der vermehrte Einsatz von Sprachassistenten wie Amazons Alexa, Apples Siri, Googles Assistant oder Microsofts Cortana sowie Smart-Home-Geräten wie Amazon Echo, Apple HomePod, oder Google Home eine Rolle. Diese digitalen Assistenten würden nämlich auch im Unternehmensumfeld erprobt. Das Risiko liege darin, dass zwecks Spracherkennung kontinuierlich Audioaufzeichnungen in die Cloud übertragen würden.

Diese Aufnahmen enthielten sensible biometrische Daten und potentiell vertrauliche Informationen. Gerieten diese in die falschen Hände, drohe neben dem Verlust von sensiblen Unternehmensinformationen auch die Gefahr durch "Fake Recordings". Das seien authentisch wirkende, jedoch künstlich erzeugte Sprachaufnahmen mit kompromittierendem Inhalt.

Erste Lösungsansätze

Die Wissenschaftler der TU Darmstadt arbeiten gemeinsam mit Sprachexperten der Hochschule Rosenheim an einer Softwarearchitektur namens "VoiceGuard". Diese nutzt die Intel-Software-Guard-Extensions (SGX), um die Sprachverarbeitungsprozesse von den Systemen des Dienstanbieters oder alternativ des Nutzers vollständig zu isolieren und sämtliche Daten zu schützen. Ein erster Prototyp soll bereits eine Privatsphäre-schützende Spracherkennung in Echtzeit ermöglichen.

Cohen von RSA Security ist der Meinung, dass Schutzmaßnahmen gegen direkte Deepfake-Angriffe immer reaktiv sein werden. "Deshalb ist ein Prozess wichtig, der es ermöglicht, schnell zu reagieren," rät er. Darüber hinaus sollten Unternehmen proaktiv verschiedene Quellen wie Webseiten oder Social-Media-Kanäle nach Deepfakes durchsuchen, um potenzielle Gefahren rund um das Geschäftsfeld oder den Kundenstamm absehen zu können. Würden bei der Analyse Fälschungen identifiziert, gehe es darum, schnellstmöglich das Gefährdungspotential einzuschätzen und, wenn möglich, den gefälschten Inhalt zu melden oder zu entfernen. Außerdem sollte das Unternehmen zu den Fälschungen Stellung beziehen, um bereits entstandene Missverständnisse oder negative Kommentare aufzulösen.

Aufgrund der immer höheren Qualität der Deepfakes stellt sich die Frage, wie man sie eindeutig identifizieren soll. Einen Lösungsansatz dazu präsentierte kürzlich die Albany Universität New York. Die Forscher haben eine Anti-Deepfake-KI entwickelt, die anhand der Lidschläge von gefilmten Personen in Videos Fälschungen erkennen kann. Das funktioniert folgendermaßen: Da der Deepfake-Algorithmus meist mit Fotos der Opfer trainiert wird und nur wenige Fotos von Menschen mit geschlossenen Augen existieren, blinzeln Fake-Personen in Videos entweder ungewöhnlich selten gegenüber normalen Menschen oder überhaupt nicht.

Bei NTT arbeitet man ebenfalls an technischen Sicherheitslösungen gegen Deepfakes, die teilweise bereits kurz vor der Marktreife stehen sollen. Bis es soweit ist, verweist NTT-Consultant Wollmann auf die Wichtigkeit guter Security-Awareness: "Man kann lediglich ein Bewusstsein im Unternehmen schaffen, dass solche Angriffe möglich sind." Dies bedeute auch, sich von vertrauten Wahrheiten zu verabschieden. Bislang habe zum Beispiel am Telefon gegolten, dass sich am anderen Ende der Leitung auch diejenige Person befindet, der diese Stimme gehört. Nur wenn jemand wisse, dass dies unter Umständen nicht mehr zutrifft, könne er auch möglichen Angriffen aus dem Weg gehen.

Geht es nach Nils Lenke, Senior Director Innovation Management bei Nuance, könnten Stimmfälschungen durchaus bereits technisch identifiziert werden. "Sowohl synthetische Verfahren zur Stimmerzeugung als auch Methoden der Stimmaufzeichnung hinterlassen Artefakte im Sprachsignal," so Lenke. Diese könnten automatisiert aufgespürt werden. Darüber hinaus hätten auch menschliche Imitatoren wenig Chancen, eine gute Stimmbiometrie zu überlisten. Beim Abgleich eines Stimmabdrucks könnten mehr als 100 Merkmale verglichen werden, die einzigartig für einen Sprecher seien. Darunter fielen etwa Größe und Form des Kehlkopfes oder der Nasenhöhle sowie Verhaltensmerkmale wie Sprachrhythmus, Intonation oder der Akzent.

Lenke räumt jedoch ein, dass es bei biometrischen Verfahren niemals eine absolute Sicherheit vor Manipulation gebe, aber das gelte auch für alle anderen Verfahren wie PINs oder Passwörter. Deshalb sei es so wichtig, im Rahmen einer Multi-Faktor-Authentifizierung immer mindestens zwei Faktoren zu kombinieren. Zudem pocht auch der Nuance-Director auf die Sensibilisierung der Mitarbeiter, da das erste Opfer von Deepfakes nicht die Biometrie sei, sondern der Mensch. "Menschen lassen sich viel einfacher überlisten als Technologien - und hier liegt auch das größte Gefahrenpotenzial für Unternehmen," schließt er.

Nicolas Fischbach, Global CTO von Forcepoint, sieht im Unternehmensumfeld bereits, dass anstelle von Gesichts- und Stimmerkennung andere biometrische Faktoren eingesetzt werden, die schwieriger zu fälschen seien. So komme bei der Multi-Faktor-Authentifizieriung das Verhalten und der Kontext bei der Zugriffssteuerung zum Tragen. Nutzer können beispielsweise zusätzlich zum Passwort anhand ihrer Tipp-Charakteristik, den Daten, auf die sie normalerweise zugreifen, der Arbeitszeit oder dem physischen Standort authetifiziert werden. Ist ein Mitarbeiter aus dem Marketing zum Beispiel auf einer Messe, es wird aber zu ungewöhnlicher Zeit von seinem Account im Büro aus versucht, auf sensible Daten der Finanzabteilung zuzugreifen, schlägt die Authentifizierung fehl und der Zugriff wird verweigert.

Droht die allgemeine Verunsicherung?

Es stellt sich die Frage, welche Auswirkungen das Aufkommen von Deepfakes langfristig auf die Prozesse in Unternehmen haben wird. Sind Telefon- und Videokonferenzen noch vertrauenswürdig? Müssen sämtliche Transaktionen durch eine zweite Person verifiziert werden? Denkt man das Szenario noch weiter, könnten sogar sämtliche Kommunikationskanäle potenziell kompromittiert werden und allein das persönliche Treffen wäre noch sicher.

Ganz so apokalyptisch wird die Zukunft wohl nicht werden. Schließlich arbeiten Forschung und Unternehmen bereits an Lösungen, die zur Abwehr teils dieselben hochentwickelten Technologien nutzen wie die Manipulatoren. Es lohnt sich aber, das Thema auf dem Schirm zu behalten und es in den Trainings und Schulungen der Mitarbeiter schon einmal anzusprechen.

Des Weiteren sollten Unternehmen trotz des Trends zu biometrischer Authentifizierung weiterhin auf Multi-Faktor-Methoden setzen. Starke Passwörter, physische Tokens oder verhaltensbasierte Ansätze bieten bewährte Sicherheitsstufen, die Angreifer erstmal überwinden müssen. Zudem können sie ersetzt und erneuert werden - im Gegensatz zu biometrischen Merkmalen. Sind diese erst einmal gehackt worden, sind sie für immer kompromittiert.