Langzeitarchivierung

CDs sind die dümmste Lösung

06.05.2008 von Klaus Manhart
Speichertechnik veraltet immer schneller. Medien halten kaum mehr als zehn Jahre. Projekte aus Kultur und Wissenschaft versuchen, das Problem in den Griff zu kriegen.

Das Deutsche Musikarchiv hat bereits leidvoll erfahren, wie kurzlebig Speichermedien sein können: Dort sind 200 Musik-CDs unbrauchbar geworden, die zwischen 1983 und 1986 zur Archivierung eingegangen sind - in knapp 25 Jahren zerstört durch aggressive Lacke des Label-Aufdrucks. Doch auch ohne solche schädlichen Einflüsse halten Speichermedien nur sehr begrenzte Zeit. Selbst gebrannte CDs schaffen nur fünf bis zehn Jahre, Bänder verlieren ihre Magnetisierung nach 20 bis 30 Jahren. Und wie lange Festplatten halten, hängt extrem von ihren Einsatzbedingungen ab. Sicher ist: Bei keinem digitalen Speichermedium kann hundertprozentig gewährleistet werden, dass es nach mehr als zehn Jahren noch gelesen werden kann.

Neben der Haltbarkeit des Mediums ist das zweite große Problem die Formatfrage. Wer kann sicherstellen, dass es Formate wie .doc oder .xls in zehn oder 20 Jahren noch gibt? Was passiert, wenn PDF-Dokumente nicht mehr geöffnet werden können? Und es gibt noch ein weiteres, drittes Problem: Im Gegensatz zu Print-Produkten können elektronisch gespeicherte Informationen ohne ein geeignetes Lesegerät überhaupt nicht dargestellt werden. Neuere Rechner haben überhaupt kein Diskettenlaufwerk, in zehn Jahren gibt es mit großer Wahrscheinlichkeit auch keine CD- und DVD-Laufwerke mehr. Dass die Lesegeräte über viele Jahre hinweg verfügbar sind, dafür gibt niemand eine Garantie. Das musste schon die NASA in den 90er-Jahren lernen, als sich auf Daten der Saturn-Mission der Raumsonde "Pioneer" nicht mehr zugreifen konnte. Trotz redundanter Speicherung auf verschiedenen Datenträgertypen waren keine entsprechenden Lesegeräte mehr vorhanden.

Unesco will digitales Erbe bewahren

Da digitale Daten inzwischen zentraler Bestandteil der kulturellen und wissenschaftlichen Überlieferung sind, haben Hochschulen, wissenschaftliche Rechenzentren, Museen und vor allem Bibliotheken als Träger des nationalen Kulturgutes ein besonderes Interesse am Thema Langzeitarchivierung. Die letzten Ignoranten hat die Unesco 2003 mit ihrer "Charta on the Preservation of the Digital Heritage" wach gerüttelt. Die Charta betont in Artikel 1 den dauerhaften Wert und die Bedeutung vieler digitaler Materialien als Teil des kulturellen Erbes, das für künftige Generationen geschützt und bewahrt werden muss. Zum digitalen Erbe gehören neben Texten, Fotografien, Musik, Filmen und Multimedia-Werken beispielsweise auch Web-Seiten und elektronisches Verwaltungsschriftgut.

Hoffnungsträger Nestor und Kopal

Mittlerweile gibt es verschiedene Projekte und Initiativen, die sich in Europa und den USA damit befassen, wie sich digitale Daten als Quellen für Wissenschaft und Forschung langfristig verfügbar halten lassen. In Deutschland sind dies vor allem das "Kompetenznetzwerk Langzeitarchivierung und Langzeitverfügbarkeit digitaler Ressourcen" - kurz: Nestor - sowie das Projekt kopal ("Kooperativer Aufbau eines Langzeitarchivs digitaler Informationen"). Kopal leistet Pionierarbeit, indem ein Langzeitarchiv für die zersplitterte deutsche Verlags- und Bibliothekslandschaft aufgebaut wird. Um eine einheitliche Archivierungsplattform für die verschiedenen, von den Verlagen eingesetzten Dokumententypen zur Verfügung zu stellen, hat Kopal eine offene Plattform entwickelt, die alle gängigen Formate einschließt.

Bei Nestor arbeiten Vertreter von "Gedächtnisinstitutionen" - Archive, Bibliotheken, Museen, Rechenzentren - unter Federführung der Deutschen Bibliothek in Frankfurt an einem nationalen Konsens zur Organisation der Langzeitarchivierung in der Bundesrepublik. Langfristige Bewahrung heißt dabei für die Archivare die Erhaltung über Generationen von technischen Systemplattformen und Nutzern hinweg. Auf welchem Stand sich die internationale Fachwelt bei der Suche nach langfristigen Aufbewahrungsstrategien befindet, haben Projektmitarbeiter in einem kostenfreien Handbuch "Kleine Enzyklopädie der digitalen Langzeitarchivierung" zusammengefasst.

Auch in wissenschaftlichen Rechenzentren ist Langzeitarchivierung ein großes Thema. Primärdaten aus Studien und Experimenten müssen standardmäßig zehn Jahre aufbewahrt werden. Dies empfehlen die Richtlinien der Deutschen Forschungsgemeinschaft (DFG). "Einzelne Einrichtungen wollen ihre Daten allerdings länger halten - die Unikliniken beispielsweise mindestens 30 Jahre", erklärt Werner Baur, Leiter der Gruppe Datei- und Speichersysteme am Münchner Leibniz-Rechenzentrum (LZR). Das LRZ ist IT-Dienstleister für alle Münchener Hochschulen und kooperiert mit anderen Einrichtungen der öffentlichen Hand wie der Bayerischen Staatsbibliothek, deren Daten es zum Großteil archiviert.

Die Datenmengen, die das LRZ insgesamt verwaltet, sind gigantisch. Ende 2007 wurde laut Baur die 3.000-Terabyte-Grenze überschritten, die Hälfte davon sind Archivdaten. DVDs kommen bei diesen Datenmengen als Speichermedium nicht in Frage, stattdessen archiviert das LRZ auf Magnetbändern. Die hochmoderne Bandtechnologie, die dabei zum Einsatz kommt, ermöglicht die Speicherung von bis zu 1.000 GB auf einem Magnetband. Theoretisch kommen zwar auch Festplatten als Datenträger in Frage. "Das ist allerdings von den Energiekosten her bei unseren Datenmengen nicht effizient genug - ein wichtiges Argument in einer Zeit, in der Green IT in aller Munde ist", gibt Baur zu bedenken.

Neue Datenträger braucht das Land

Die Verwaltung der Archivdaten erfolgt mit einer speziellen Software, dem Tivoli Storage Manager von IBM. Damit lassen sich verschiedene Policies definieren: Wie lange werden welche Daten aufbewahrt? Wie viele Versionen soll es geben? Wann werden sie gelöscht? "Wir haben vorgegebene Default-Einstellungen, etwa, dass die Daten zehn Jahre archiviert werden", sagt Baur. "Wenn unsere Kunden andere Anforderungen haben, vereinbaren wir individuelle Regeln. Die Daten werden dann anderen Management-Klassen zugeordnet."

Um digitale Daten über Jahrzehnte hinweg zu erhalten, sieht das LRZ nur eine praktikable Lösung: Die Informationen müssen nach einigen Jahren auf neue Datenträger migriert werden. Mehr als fünf Jahre werden die Daten in der Regel am LRZ nicht auf dem gleichen Medium gehalten. Mit dieser Strategie senkt das LRZ die Wahrscheinlichkeit, dass Daten infolge mangelnder Haltbarkeit des Datenträgers verloren gehen. Und vor allem: Man bleibt auf dem aktuellen Stand der Technik, was die Lesegeräte betrifft.

Aufbewahrt werden die Bänder in vollklimatisierten Räumen mit konstanter Temperatur und Feuchtigkeit, die mehrfach gegen alle möglichen Katastrophen abgesichert sind. Sollte es trotz aller Vorsichtsmaßnahmen doch einmal zu einer völligen Zerstörung des Rechenzentrums kommen, bleiben immer noch die Nachbarn: Die wichtigsten Daten werden an das einige hundert Meter entfernte Rechenzentrum der Max-Planck-Gesellschaft in Garching kopiert.

Arbeit für Scan-Roboter

Mit der Bayerischen Staatsbibliothek führt das LRZ mehrere gemeinsame Projekte durch. Im Rahmen eines von der DFG geförderten Projektes wird beispielsweise das deutsche Schriftgut des 16. Jahrhunderts eingescannt und archiviert. Hierzu wurden Scan-Roboter beschafft, die im 24-Stunden-Einsatz die Buchseiten automatisch umblättern und einlesen. Die Seiten werden anschließend als Bilddaten im TIF-Format (TIFF) gespeichert. TIFF nutzt man, weil es relativ weit verbreitet und zukunftssicher ist und weil die Farbtreue sehr gut ist. Später sollen die TIFF-Buchseiten per OCR-Software eingelesen werden, um Textpassagen per Volltextsuche zu erreichen.

Mit dem Vorgehen der Staatsbibliothek, Daten als Bilddokumente einzulesen und später per OCR lesbar zu machen, ist man auf der sicheren Seite. Nur so lässt sich mit hoher Gewißheit vermeiden, dass Dokumente irgendwann nicht mehr gelesen werden können, weil der Hersteller die Unterstützung für ein Format aufgekündigt hat.

PDF/A hoch im Kurs

Dennoch ist es in der Praxis meist sinnvoll, Textdokumente in dafür geeigneten Formaten zu archivieren. Hier empfehlen Nestor und andere Forschungsprojekte die Beschränkung auf Standardformate. Erste Wahl sind herstellerunabhängige Standards, die von anerkannten Organisationen wie der ISO oder dem W3C spezifiziert sind, zum Beispiel ASCII, Unicode, SVG und XSL. Einige herstellerabhängige Formate haben sich als Quasi-Standards am Markt durchgesetzt, beispielsweise PDF von Adobe. Die Spezifikation ist ebenfalls frei verfügbar, steht aber unter der alleinigen Kontrolle des Eigentümers.

PDF kommt eine besondere Bedeutung bei der Archivierung zu. 2005 hat die ISO das PDF/A-Format ("A" = Archive) als Standard für die Langzeitarchivierung von Dokumenten zertifiziert. Seitdem wird dieses Format im Markt hoch gehandelt. Viele Hersteller sind bereits von den Vorteilen des PDF/A-Formates überzeugt und haben ihre Produktpalette entsprechend angepasst oder erweitert.

Der neue Standard PDF/A (ISO Standard 19005-1) basiert auf PDF 1.4, schließt aber einige Funktionen davon aus, da sie eine langfristige Darstellbarkeit beeinträchtigen könnten. So ist beispielsweise die Verwendung externer Ressourcen oder aber spezifischer Ressourcen wie eingebetteter Fonts nicht erlaubt. Durch diese und andere detaillierte Vorschriften soll eine langfristige Lesbarkeit der Dokumente garantiert sein - und zwar unabhängig davon, mit welcher Anwendungs-Software und auf welchem Betriebssystem sie ursprünglich erstellt wurden.