Künstliche Intelligenz

Blockchain macht Machine Learning sicher

11.07.2018

Von

Martin Stolberg (Autor) und Claudio Ceccotti

Martin Solberg ist Director Banking bei Sopra Steria Consulting und beschäftigt sich in dieser Position seit 1999 mit der Analyse von Kundeninformationen. Der studierte Wirtschaftsingenieur ist fokussiert auf das digitale Enabling von Finanzdienstleistern.

Daten werden zu Kapital, das macht sie schützenswert

Moderne Unternehmen produzieren Unmengen an Daten: Im Jahr 2025 werden weltweit rund 163 Zettabyte (das ist eine 163 mit 21 Nullen) an Daten generiert werden, schätzten die Analysten von IDC 2017. Ein Jahr vor der Schätzung, 2016, betrug die Menge gerade einmal 16 Zettabyte. Die allermeisten Daten kommen von Unternehmen, zum Beispiel durch vernetzte Assets im Internet der Dinge.

Mit traditionellem Bauchgefühl oder herkömmlichen Analysemethoden lassen sich diese Mengen nicht bewältigen, geschweige denn produktiv nutzen. Da trifft es sich, dass künstliche Intelligenz – bedingt durch den technischen Fortschritt bei Rechenleistung und Speicherplatz – als Alternative auf den Plan tritt: Algorithmen sind heute schon in der Lage, in rasender Geschwindigkeit und mit atemberaubender Genauigkeit typische Muster in Daten zu finden und daraus in kürzester Zeit Erkenntnisse zu gewinnen, die menschlichen Analysen verwehrt blieben.

Algorithmen brauchen Daten, Daten und nochmals Daten

Aber Algorithmen können das nicht von Hause aus, sondern müssen diese Fähigkeiten erlernen (Machine Learning). Dafür brauchen sie zunächst noch menschliche Unterstützung, und sie brauchen Daten, Daten und noch mal Daten. Genau hier, und das mag man angesichts der exponentiell wachsenden Datenmengen als Paradoxon sehen, fangen die Probleme an.

Daten in ausreichender Menge und Qualität stehen tatsächlich nur selten zur Verfügung. Das liegt unter anderem daran, dass wir im Jahr 2018 noch näher an den kümmerlichen 16 Zettabyte von vor zwei Jahren liegen als an den 163, die IDC für 2025 erwartet. Zudem ist nur ein kleiner Teil dieser Daten überhaupt geeignet für Machine Learning. Das gilt umso mehr, je spezieller die Aufgabe ist, die KI erledigen soll. Und nicht zuletzt sehen Unternehmen – übrigens völlig zu Recht – Daten mittlerweile als wertvolles und daher schützenswertes Kapital an, das sie nicht gerne und schon gar nicht einfach anderen überlassen.

Mit Mechanical-Turk-Anwendungen Wissensbasis schaffen

Damit Algorithmen über Machine Learning trainieren können, benötigen sie Hilfe für den Umgang mit den meist unstrukturierten Daten. Konkret benötigen sie einen ausreichenden Vorrat an klassifizierten und entsprechend gelabelten Daten. Ein Beispiel: Um auf einem x-beliebigen Bild einen Hund zu erkennen, ist es hilfreich, einem Algorithmus zunächst einmal unzweifelhaft zu erklären, wie ein Hund aussieht und was ihn zum Beispiel von einer Katze oder einem Kühlschrank unterscheidet. Das lässt sich am besten bewerkstelligen, wenn man ihm so lange Bilder von Hunden „zeigt“, bis der Algorithmus in der Lage ist, selbst die Zuordnung zweifelsfrei vorzunehmen.

Diese Wissensbasis wird oft über sogenannte Mechanical-Turk-Anwendungen erledigt, die auf eine Idee von Amazon zurückgehen. Anders als in normalen Programmen, in denen Computer von Menschen geschaffenen Code ausführen, gibt hier der Rechner menschlichen Anwendern Aufgaben vor, die für Geld abgearbeitet werden. Er zeigt ihnen zum Beispiel beliebige Bilder und fordert sie auf, diejenigen zu markieren, auf denen Hunde zu sehen sind. Auf Basis dieser von Menschen erzeugten, klassifizierten Daten kann KI lernen und ist irgendwann in der Lage, diese Fragen selbst zu beantworten.

Startups helfen

Unternehmen wie Gems, Dbrain und Effect bieten Blockchain-basierte Mechanical-Turk-Anwendungen für das Generieren gelabelter Datensätze an. Sie setzen Blockchain als Qualitätsinstrument ein, um die Handlungen der Benutzer zu kontrollieren und die Unveränderlichkeit der Ergebnisse zu garantieren.

Einen anderen Weg für das Generieren gelabelter Daten geht Neuromation. Aus einer kleinen Menge gelabelter Daten erzeugt das Startup in einer Blockchain-basierten Umgebung synthetische Datensätze, die groß genug sind, um Algorithmen gute Lernergebnisse zu ermöglichen.

Blockchain schützt Daten von KI-Projekten

Die gewachsene Wertschätzung für Daten führt auch dazu, dass Unternehmen immer weniger bereit sind, sie für Machine Learning bereitzustellen. Das gilt besonders dann, wenn das Training der Algorithmen außerhalb des eigenen Rechenzentrums stattfindet – beispielsweise in der Cloud. Auch externe Data Scientists werden selbst dann nicht immer mit offenen Armen empfangen, wenn sie Machine Learning in einem Unternehmen vor Ort vorantreiben möchten. Auch hier bietet das Konzept der Blockchain eine interessante Alternative.

Das Blockchain-Startup NuCypher bietet eine Datenschutzschicht an, die einen sogenannte Proxy-Neu- oder Wiederverschlüsselung verwendet und damit einen kryptografisch geschützten Zugriff auf Daten ermöglicht. Damit bleiben vertrauliche Datensätze vertraulich und verschlüsselt, lassen sich aber trotzdem als Datenbasis für Machine Learning verwenden. NuCypher ermöglicht dem Dateneigentümer eine vollständige granulare Zugriffskontrolle, über die er den On-Demand-Zugriff delegieren und widerrufen kann, ohne die privaten Kryptoschlüssel teilen zu müssen. So erweitert die Blockchain die Möglichkeiten der sicheren Distribution von Daten und unterstützt damit den Entwicklungsprozess valider KI-Anwendungen.

Blockchain macht vertrauliche Marktplätze möglich

Die unbedingte Verschwiegenheit der Blockchain ermöglicht auch den zuverlässigen Handel geschützter Daten oder Datenanalysen – über dezentrale und verschlüsselte Datenmarktplätze. Anbieter wie Ocean Protocol, Enigma oder Datum haben es sich zur Aufgabe gemacht, Blockchain-basierte Protokolle für solche Datenmarktplätze zu entwickeln. Dort können die Teilnehmer sowohl Daten zur Verfügung stellen und gleichzeitig Zugriffsrechte definieren oder sie können Daten erwerben und für ihre eigenen Zwecke nutzen. Die Anbieter der Daten behalten die Kontrolle und ermöglichen Dritten gleichzeitig, diese Daten beispielsweise für Machine Learning zu verwenden.

Diese neue Möglichkeit des Datenaustauschs wird Projekte im Bereich der KI-Entwicklung grundlegend beeinflussen, weil es die Datenbasis für die Entwicklung von KI dramatisch vergrößern kann, ohne dass Unternehmen um ihr Kapital fürchten müssen. Die verschlüsselten und sicheren Marktplätze werden auch den Handel mit Algorithmen ermöglichen.

Das globale AI-Network SingularityNet bietet bereits einen Marktplatz an, in den Entwickler ihre Algorithmen als sogenannte KI-Agenten hochladen und damit anderen für die Anwendung auf eigene Daten zur Verfügung stellen können.

Da Algorithmen zwar sehr gut in den Aufgaben sind, für die sie trainiert wurden, bei anderen aber eben nicht, erhalten sie über die KI-Agenten von SingularityNet die Möglichkeit, mit anderen KI-Agenten zu kommunizieren und zu interagieren. Dadurch sind mächtigere KI-Anwendungen als bisher vorstellbar, die von den Teilnehmern des Netzwerks genutzt und kontrolliert werden können.

Mit KI und Blockchain wächst zusammen, was zusammengehört

Die Integration der Blockchain in die Entwicklung von KI adressiert zweifellos das zentrale Problem: die fehlende Masse an geeigneten Daten. Sie hilft zudem dabei, die berechtigten Bedürfnisse der Datenbesitzer nach dem Schutz ihres geistigen Eigentums zu befriedigen. Dort wächst also zusammen, was zusammengehört, und das wird der Entwicklung künstlicher Intelligenz auf der Basis hochwertiger Daten neuen Schwung verschaffen.