Medienarchive in Petabyte

Big Data mit Object Storage bewältigen

13.05.2015 von Laurent Fanichet

Robust, skalierbar, verfügbar: Die Anforderungen an Big-Data-Medienarchive werden immer umfassender. Traditionelle RAID-Disksysteme können da nicht mehr mithalten. Die Technologie Object Storage verspricht Hilfe.

Die Fans schreien auf: Von den insgesamt 798 Episoden der legendären BBC-Serie Doctor Who sind 97 Episoden verschwunden! Das berichtete unlängst das amerikanische Magazin The New Yorker. Alte Episoden der Serie, die seit 1963 ein Millionenpublikum begeistert, wurden von der BBC nach der Ausstrahlung einfach auf Tape überschrieben.

Was heute undenkbar ist, war damals jedoch gängige Praxis - aus Kostengründen. Während sich heute die Mittel des Broadcasting etwa durch das Internet potenziert haben, sind die Herausforderungen bei der Datenarchivierung für Filmleute komplexer als vor 50 Jahren: TV-Sender, Postproduktionsstudios und Digital Imaging-Anbieter jonglieren mit einem riesigem Content-Pool an digitalem HiRes-Bildmaterial, Visual Effects und Sounds, verteilt über weltweite Standorte und über verschiedene Teams.

Wiederherstellungszeiten liegen bei RAID-6 bereits heute in einer Größenordnung von 24 Stunden und mehr.
Foto: Quantum

RAID in Petabyte-Archiven ineffizient und unsicher

Aufgrund des steigenden Wettbewerbsdrucks und den immer knapperen Produktionsfristen, haben Einsparungen bei Betriebs- und Personalkosten oberste Priorität; und machen Filmcrews umso abhängiger von einer zuverlässigen und effektiven Lösung für den End-to-End-Workflow von Ingest bis Storage. Nur: Die Anforderungen an Skalierbarkeit, Robustheit und Verfügbarkeit werden in großen, langfristig angelegten Big Data- Medienarchiven immer extremer. Sie müssen einen hochperformanten Dateizugriff in heterogenen Umgebungen bieten, den Verwaltungsaufwand und Speicherkosten reduzieren und die Performance bei hohen Workloads steigern.

Traditionelle RAID Disk-Archive, wie sie heute weit verbreitet sind, können diesen Anforderungen nicht mehr standhalten: Skalierung im Petabyte-Bereich geht bei Diskkapazitäten von 3 bis 4 TByte mit einer entsprechend hohen Zahl an Disks einher. Mit der wachsenden Anzahl der Disks nimmt jedoch die Wahrscheinlichkeit zu, dass diese ausfallen. Wiederherstellungszeiten liegen bei RAID-6 bereits heute in einer Größenordnung von 24 Stunden und mehr. Zudem fehlt es RAID-Systemen an einem Mechanismus zur proaktiven Erkennung von Bitfehlern (die Bitfehlerrate liegt bei einem RAID-Array mit zehn 3-TByte-Disks bereits bei 33 Prozent) und an der Sicherheit bei Knotenausfällen. Die Folgen sind Performanceverlust, Komplexität und hohe Kosten.

Bildergalerie: Storage-Trends 2015

Johannes Wagmüller, Director Systems Engineering, NetApp
"Der Trend wird zum Multisourcing gehen. On-Premise Storage wird weiterhin erste Wahl bleiben, wenn mit den Daten und Leistungen erhebliche Wertschöpfung für das Kerngeschäft der eigenen Organisation geschaffen wird."

Vincenzo Matteo, Disk Product Management Director, Oracle
"Es wird immer Bereiche geben, die von On-Premise-Storage-Lösungen profitieren, dazu zählen etwa datenintensive Aufgaben wie Big Data Analytics."

Ralf Colbus, Leading Storage Professional, IBM Deutschland
"Nein, die beiden Möglichkeiten werden sich aber stärker ergänzen. Sicherheit, Verfügbarkeit und Performance werden nach wie vor für On-Premise Storage-Systeme sprechen."

Dr. Stefan Radtke, CTO Isilon Storage Division, EMC Deutschland
"Das ist auch eine Frage der Kosten. Wenn sie gelegentlich ein paar Gigabyte oder weniger Daten analysieren wollen, kann man sicher Cloud Services nutzen. Muss man die Daten aber erst in die Cloud übertragen, wird die Analyse sehr unhandlich. Bei großen Datenmengen dürfte eine eigene Infrastruktur günstiger sein."

Stefan Roth, Manager Sales Competence Center, Fujitsu
"Nein, denn sehr viele Kunden lagern nicht ihre komplette IT Infrastruktur aus, sondern setzen auf sogenannte Hybrid-Cloud-Architekturen. Bei diesem Sourcingmodell werden nur ausgewählte Applikationen, Prozesse, Infrastrukturen oder Datenbereiche ausgelagert."

Dr. Georgios Rimikis, Senior Manager Solutions Strategy, HDS
"Wir würden nicht sagen, dass On-Premise Storage überflüssig wird, es wird eher eine Vielzahl von Kombinationen aus Cloud Services, Virtualisierung und On-Premise geben. Wir sehen eher eine Koexistenz dieser Konzepte."

Guido Klenner, Business Unit Manager Storage, Hewlett-Packard
"Mithilfe einer Datenklassifizierung lässt sich herausfinden, welche Speicher, Protokolle und Speicherorte sich am besten für die Speicherung eignen. Nicht alle Daten sind gleich, nicht alle Daten haben eine gleich hohe ‚Lebenserwartung‘ und nicht alle Daten müssen in gleicher Geschwindigkeit bereitgestellt werden.“

Hans Schramm, Field Product Manager Enterprise, Dell
"Um welche Daten handelt es sich? Wie sensibel sind diese? Soll die Analyse in Echtzeit stattfinden? Es ist in vielen Fällen hilfreich, die Analysen auszulagern, am besten dorthin, wo auch die Daten liegen."

Object Storage macht Datensätze skalierbar

Angesichts von Media Workflows auf Petabyte-Level bietet die Tiered Object Storage-Technologie eine neuartige Architektur für Disk-basierte Archive. Sind moderne Media Asset Management Systeme (MAM) in eine Tiered Storage-Lösung integriert, können Daten neben der direkten Katalogisierung und dem Quick Review über Proxies auf zweiter oder dritter Speicherebene mit einem einzigen Mausklick abgerufen werden. Bestehen traditionelle Speichersysteme aus einem streng hierarchischen Verzeichnis aus Ordnern und Dateien, bedient sich Object Storage einfacher Schlüsselwert-Paare.

Ein Objekt bildet eine Einheit aus originären Datenmaterial, seinen Metadaten und einem Key. Dies ist ein Zugangsschlüssel, der nur einmal pro Objekt vergeben wird. Er dient dem Client als Objekt-ID, so dass für ihn Daten eindeutig identifizier- und schneller erreichbar sind. Gruppierte Objekte können zudem in sogenannten Containern zusammengefasst werden, so dass Administratoren digitale Datensätze nahezu unbegrenzt skalieren können. Über den einfachen Objektnamensraum können Disk-Archive in einer Object Storage-Architektur ohne weiteres von 500 TByte auf Hunderte Petabyte skaliert werden.

Datenintegrität durch Erasure Codes

Neben der einfachen Adressierungslogik ist ein weiterer Vorteil von Object Storage, dass Daten global auf Rechenzentren an verschiedenen Standorten verteilt werden können. Je nach Object Storage-System funktioniert die Verteilung sogar über heterogene Disks und Knoten. Bei RAID hingegen müssen alle Daten lokal vorliegen.

Üblichen Latenzen aufgrund großer Distanzen wird unter anderem durch lokales Caching, Netzwerkkomprimierung und Lastenausgleich entgegengewirkt. Mittels HTTP-REST-Schnittstelle zur Cloud ist bei Object Storage-Lösungen der flexible Zugriff auf Datenobjekte in Hochgeschwindigkeit möglich. Datenintegrität wird erreicht, indem Objekte über verschiedene Knoten mit entsprechender Redundanz mittels so genannter Erasure Codes verteilt werden.

Wie der Name "Erasure" schon andeutet, nutzen Object Storage-Systeme Algorithmen zur Fehlerkorrektur, die sie in eindeutige Codes umwandeln. Das Besondere: Sind die Codes zur Speicherung verteilt, reicht eine zufällige Teilmenge der Codes zum schnellen Abruf der Daten. Einzelne Codes werden automatisch getestet und im Fehlerfall durch Ersatzcodes ersetzt. Auf diese Weise werden verschwiegene Bitfehler vermieden. Durch Features wie Kompression und Verschlüsselung können Administratoren die Sicherheit ihrer Daten individuell anpassen und das Level der Datenintegrität selbst definieren.

Selbstheilung gegen Performanceeinbußen

Wurden Object Storage-Systeme ursprünglich für die Cloud mit entsprechenden Protokollen entwickelt, stehen heute Standardprotokolle wie CIFS und NFS zur einfachen Integration von Object Storage in der Betriebssystemumgebung zur Verfügung. Als Disk-basierte Speicherlösung kann Object Storage gegenüber Tape sofort mit dem Datenstreaming starten. Ist der Austausch von Laufwerken oder die Implementierung in eine neue Umgebung nötig, werden mit den Funktionen der Selbstheilung- und Migration Objekte automatisch umgeschichtet - ohne Performanceeinbußen und Auswirkungen auf den Workflow.

Geht es um Investitionen in eine neue Technologie, sind die Argumente Kapital- und Betriebskosteneinsparungen am überzeugendsten. Das Pro von Object Storage-Lösungen: Aufgrund der robusten Algorithmen können kostengünstigere Disklaufwerke eingesetzt werden, die bekanntlich weniger Strom- und Kühlungsbedarf haben. Je nach Umfang der Infrastruktur versprechen Object Storage-Lösungen jährliche Einsparungen von 10 bis 30 Prozent - bei Big Data-Umgebungen ist dies ein entsprechend hoher Betrag. (cvi)