Datensicherung

Am Ende steht die kontrollierte Löschung

04.08.2008 von Ulrike Riess
Digitale Informationen sind oft ein wichtiger Teil des Firmenkapitals. Ihr Verlust bedeutet finanzieller Schaden.

IT-Abteilungen in Unternehmen sind oft das Herzstück eines Unternehmens, nicht zuletzt, weil eines der wichtigsten Firmengüter hier gesichert werden kann - digitale Informationen. Um hier optimalen Schutz und Sicherheit der Daten zu erreichen, kann der IT-Verantwortliche aus zahlreichen Technologien und Strategien wählen, die seine Geschäftsumgebung stets produktiv halten.

Datensicherung geht über die bloße Ablage von Dateien und anderen digitalen Inhalten hinaus. Der lokale Festplattenplatz eignet sich schon lange nicht mehr dafür, Daten sicher zu verwahren. Zum einen müssen Informationen bei Systemausfall oder bei Datenverlust wiederherstellbar sein. Zum anderen verlangen Unternehmen, dass gespeicherte Informationen ohne Sicherheitsverlust mehreren Nutzern zeitgleich zur Verfügung stehen. Datensicherung steht daher im Zentrum jeder IT-Strategie. Die Umsetzung ist je nach angewandter Methode firmenindividuell. Der Artikel beleuchtet verschiedene Backup-Varianten, listet die wesentlichen Backup-Medien auf, schildert gängige Backup-Konfigurationen, beschreibt das Recovery und erläutert den Unterschied zwischen Backup und Archivierung.

Backup-Varianten

Um Daten sicher und nicht nur lokal vorzuhalten, führen die meisten Unternehmen ein Backup ihrer Daten durch. Dabei sollte eine Software zum Einsatz kommen, die automatisch nach vordefinierten Angaben die Informationen auf ein Backup-System transferiert. Für diese Aufgabe gibt es unterschiedliche Lösungen:

Beim so genannten Full-Backup erfolgt eine vollständige Sicherung aller vorliegenden Dateien. Das ist notwendig, um alle geschäftsrelevanten Informationen redundant zur Verfügung zu haben. Allerdings benötigt ein solches Backup viel Zeit und kann nicht täglich durchgeführt werden. Um trotzdem wichtige Änderungen zu erfassen, eignen sich die differentielle und die inkrementelle Datensicherung. Damit lassen sich beispielsweise nur die Änderungen in einer Datenbank erfassen, die im Lauf eines Tages angefallen sind. Die Backup-Fenster, also die benötigte Zeit, hält sich ebenso wie die notwendige Speicherkapazitäten in Grenzen.

Eine differenzielle Sicherung speichert sämtliche seit der letzten vollständigen Datensicherung geänderten oder neu erstellten Daten. Dies führt dazu, dass sich die Zahl der Sicherungsdaten jedes Mal bis zur nächsten Vollsicherung vergrößert und somit auch die Backup-Zeiten für eine erneute vollständige Sicherung länger sind. Der Vorteil ist ein relativ geringer Aufwand bei der Wiederherstellung von Daten, da maximal zwei Backups überspielt werden müssen: Die letzte Volldatensicherung und die letzte differentielle Sicherung.

Die meisten deutschen IT-Entscheider sprechen nicht zuletzt dank der wachsenden E-Mail-Flut von einem deutlich steigenden Speicherbedarf. Weniger als zehn Prozent berichten von stagnierenden Anforderungen.

Bei der inkrementellen Datensicherung, auch Zuwachssicherung genannt, werden nur die Daten gesichert, die sich seit dem letzten inkrementellen Backup verändert haben oder neu hinzugekommen sind. Hier speichert der IT-Manager im Gegensatz zur differenziellen Sicherung jedesmal nur die Daten, die sich wirklich seit der letzten Sicherung und nicht seit der letzten Vollsicherung geändert haben. Die Vorteile sind eine geringere zu sichernde Datenmenge und schnellere Datensicherung. Der Nachteil ist ein relativ großer Aufwand bei der Wiederherstellung von Daten, da mehrere Sicherungen hintereinander überspielt werden müssen.

Darüber hinaus kann der IT-Leiter auch das Generationenprinzip verwenden. Diese Großvater-Vater-Sohn-Datensicherung ist ein altbekanntes Verfahren. Dabei wird von dem Datenbestand ständig ein dreifaches Backup verschiedenen Alters (Großvater, Vater, Sohn) von einem Datenträger gemacht. Veränderungen und Verluste der Daten können somit rekonstruiert werden. Sind die Sohn-Daten beschädigt, werden sie aus den Vater-Daten wieder erzeugt und die Vater-Daten gegebenenfalls aus den Großvater-Daten. Das ist zwar aufwendiger als die zuvor genannten Methoden, verspricht aber höhere Sicherheit.

Für hochaktuelle Backups eignen sich die Verfahren Continuous Data Protection (CDP) und Near Continuous Data Protection (NCDP). CDP sichert den Datenbestand jeweils nach einer Änderung in Form von Snapshots. Im Recovery-Fall können IT-Verantwortliche jeden vorangegangenen Zeitpunkt des Datenbestandes rekonstruieren. NCDP operiert in größeren Zeitabständen und kann somit nicht jeden Zeitpunkt wiederherstellen. Diese Arten des Backups lassen sich nur mit Festplattensystemen umsetzen.

Wer schnelle Verfügbarkeit von Daten und Systemen nach einem Ausfall benötigt, der kann auf Bare-Metal-Recovery zurückgreifen. Bare-Metal-Recovery bedeutet die Rekonstruktion eines kompletten Systems auf Basis des nackten Blechs. Das heißt, die entsprechende Software sichert eine existierende Installation inklusive aller Einstellungen und Anwendungen und macht diese Kopie auf einem anderen Rechner installationsfähig. Beim Bare-Metal-Recovery installiert der Administrator zunächst das Betriebssystem, danach die Backup-Software und kann danach seine Daten wiederherstellen. Anschließend muss er lediglich die Funktionalitäten einstellen, in dem er die Konfiguration, Einstellungen und Rechte bestätigt.

Bei besonders kritischen Daten lohnt sich zudem eine Spiegelung auf ein zweites Rechenzentrum oder eine Replikation auf ein weiteres Backup-System, so dass die Daten stets redundant verfügbar sind. Diese Datensicherung ist kostenintensiv, sichert aber eine konstante Verfügbarkeit wichtiger Daten im Fall einer Systemstörung oder Datenkorruption am primären Speicherort.

Backup-Medien

Früher bestimmte das Band die Welt der Backup-Medien, wurde aber durch die hohe Funktionalität und den steten Preisverfall mehr und mehr von Festplattensystemen verdrängt. Derzeit ist Backup-to-Disk die wohl gebräuchlichste Art, Daten zu sichern. Dabei kommen in transkations-intensiven Umgebungen meistens FC- (Fiber Channel) oder SAS-Laufwerke (Serial Attached SCSI) zum Einsatz. Die Mehrheit der Anwender entscheidet sich für günstige SATA-Laufwerke (Serial ATA) mit großer Kapazität. Der große Vorteil von Festplatten liegt aber nicht nur im Preis, sondern in schnellen Wiederherstellungszeiten sowie guten Sicherheitsmerkmalen. Auf einer HDD (Hard Disc Drive= Festplatte) lassen sich Daten mit unterschiedlichen RAID-Leveln schützen (siehe Kasten). Ebenso machen einfache Datenmigrationen und simple Systemkonsolidierungen die Disk-Systeme für den Backup-Bereich attraktiv.

Festplatten-Arrays dienen im Backup auch als Puffer für die dahinter liegende Archivierung, zum Beispiel auf Band. Entweder setzt der Administrator ein Backup-to-Disk-to-Tape ein oder verwendet eine dedizierte Virtual Tape Library. Bei Backup-to-Disk-to-Tape schaltet der IT-Manager eine Bandlösung hinter das verwendete Disksystem. Eine Virtual Tape Library (VTL) hingegen simuliert eine Bandbibliothek und deren Funktionalitäten und ermöglicht so eine leichtere Migration auf reale Bandmedien. Vorteil dieser Sicherungsart ist, dass keine weitere Software notwendig ist und die Backup-Zeiten unerheblich sind. Auch langsame Rechner lassen sich so sichern. Daten werden zunächst auf einer VTL zwischengelagert und dann in einem gleichmäßigen Stream auf Bänder geschrieben.

Im Zuge der Green-IT-Diskussion sind Festplattensysteme und ihre Energiekosten ins Zentrum des Interesses gerückt. Systeme, die nur zu bestimmten Zeiten der Datensicherung Verwendung finden, können hier mit der MAID-Technologie oder einem spin-down der Drives (siehe Kasten) Engergie und Kosten sparen. Allerdings verfügen nicht alle erhältlichen Produkte über diese Funktion.

MAID

Ein Massive Array of Idle Disks (MAID) ist ein Disk-Array, in dem einzelne Festplatten abgeschaltet werden, wenn diese nicht benötigt werden. Dies hat den Vorteil, dass der Energieverbrauch (und somit auch die Wärmeabgabe) erheblich sinkt. Typische Einsatzbereiche sind Anwendungen, die Daten auf einen begrenzten Bereich schreiben und danach nur selten lesen.

In kleineren Umgebungen kommen zudem noch immer Bänder oder optische Formate als Backup-Medien zum Einsatz. Dazu gehören zum Beispiel das Digital Audio Tape (DAT), Linear Tape Open (LTO) oder Advanced Intelligent Tape (AIT) bei den Bändern. Zu den optischen Speichermedien gehören CDs und DVDs. Hier werden vor allem Blu-ray und das magneto-optische Format Ultra Density Optical (UDO) Marktanteile gewinnen. Auch hier hat die Automatisierung Einzug gehalten, die vereinfachte Sicherungsprozesse garantiert. Verfügbar sind sowohl Softwarelösungen als auch Automaten wie Autoloader, Bandbibliotheken oder Jukeboxen.

RAID

RAID steht für Redundant Array of Inexpensive beziehungsweise Independent Disks. Das Disk-Array arbeitet im Verbund wie ein einziges großes Laufwerk. Der Begriff RAID drückt aus, dass bei Ausfall einer Platte keine zweite in ihrer Funktion beschränkt ist. Werden Daten auf ein Platten-Array geschrieben, wird gleichzeitig ein Fehlercode erzeugt und ebenfalls auf dem RAID abgelegt. Beschädigte Daten lassen sich mittels Fehlercode wiederherstellen. Es gibt die RAID-Level 0 bis 7 und Kombinationen aus einzelnen Schutzklassen sowie einige Untergruppen wie 1E. Die wichtigsten und am häufigsten verwendeten RAID-Level sind folgende:

RAID-0

Die Daten werden im so genannten Striping-Verfahren in aufeinander folgenden Blöcken gleichmäßig über die vorhandenen Platten verteilt. Das bedeutet hohe Performance aber kein Schutz.

RAID-1

Spiegelung (Mirroring, Duplexing) von zwei oder mehreren Festplatten. Das heißt, dass der komplette Inhalt einer Harddisk auf ein anderes Laufwerk überspielt wird.

RAID-10

Kombination der beiden RAID-Level 0 und 1. Zuerst werden die Platten im Striping-Verfahren aneinandergehängt und dann gespiegelt. Das gewährleistet Datenschutz und hohe Performance.

RAID-3

Mindestens drei Festplatten müssen im Einsatz sein. Die Daten werden in einzelne Bytes aufgeteilt und abwechselnd auf den vorhandenen Laufwerken verteilt. Zusätzlich wird ein Prüf-Byte generiert und auf einer zusätzlichen »Parity-Disk« gespeichert. Mit einem Rechenalgorithmus (XOR-Verknüpfung) ist es möglich, beim Ausfall einer Disk die fehlenden Daten zusammen mit der Prüfsumme zu rekonstruieren.

RAID-5

Dieser Level verteilt die Originaldaten wie auch den Fehlercode gleichmäßig über alle vorhandenen Laufwerke (mindestens drei). Auf diese Weise lassen sich die Schreibzugriffe über sämtliche Platten verteilen und es ist möglich, nicht nur Lese-, sondern auch Schreiboperationen überlappen zu lassen. Die Parität wird durch eine Exklusiv-Oder-Verknüpfung realisiert. Ein Laufwerk innerhalb des RAIDs darf vollständig ausfallen, ohne dass Daten verloren gehen.

RAID-6

RAID 6 funktioniert nach einem ähnlichen Prinzip wie RAID 5, kompensiert aber den Ausfall von bis zu zwei Laufwerken. Vereinfacht ausgedrückt, wird RAID-5 um eine Parity-Platte ergänzt.

RAIDn

Dabei handelt es sich um einen Algorithmus, der eine höhere Ausfallsicherheit von Festplatten-Arrays garantiert als bisherige RAID-Lösungen. Herkömmliche RAIDs kompensieren den Ausfall eines Harddisk-Drives. Bei RAIDn kann der Anwender die Anzahl der Laufwerke, die ausfallen können, frei definieren. Beim Einsatz von beispielsweise zehn Platten erlaubt RAIDn, die Daten von beliebig ausfallenden Laufwerken mit nur drei Reserveplatten vollständig zu rekonstruieren. Bei gleichem Hardware-Einsatz stehen gegenüber RAID 5+1 sieben anstatt vier nutzbarer Disks zur Verfügung.

Backup-Konfigurationen

Die Netzwerk-Konfiguration für die Datensicherung kann der IT-Verantwortliche je nach erforderlichen Parametern einrichten. Dazu stehen ihm Direct Attached Storage (DAS), Network Attached Storage (NAS) Storage Area Network (SAN) zur Verfügung.

Die Interessensvertretung der Speicherhersteller SNIA (Storage Networking Industry Association) empfiehlt die Einführung einer unternehmensweiten ILM-Strategie (Information Lifecycle Management) in fünf Schritten.
Foto: Experton Group

Um Datensicherung effizient zu nutzen, können große Speicherumgebungen etwa mit Hilfe der Tiered-Storage-Architektur und dem Information-Lifecycle-Management (ILM) geordnet beziehungsweise verwaltet werden. Tiered Storage bezeichnet ein mehrstufiges Speicherkonzept, in dem Daten entsprechend ihrer Klassifizierung auf Medien wie FC-Drives, SAS- und SATA-Festplatten sowie Bändern abgelegt beziehungsweise verlagert werden.

Der Übergang zum ILM ist fließend. Ziel dieser Strategie ist es, Informationen je nach Wert auf das jeweils günstigste Medium zu verschieben. Dabei orientieren sich die Steuerungsmechanismen an Wichtigkeit, Wertigkeit und Kosten der elektronischen Information. Voraussetzung ist eine Klassifizierung der Daten, Quellen und Speichersysteme. Daraus ergibt sich eine Speicherhierarchie für die automatisierte Bearbeitung.

Recovery

Welche Backup-Strategie, -Methode und -Medium zum Einsatz kommt, hängt von den jeweiligen Recovery-Anforderungen ab. Zweck einer jeden Datensicherung ist die Wiederherstellung der Daten im Notfall. In einem Ausfallszenario sollten folgende Punkte schriftlich niedergelegt und schnell aufzufinden sein:

Die Wahl der Datensicherungsstrategie richtet sich nach den Anforderungen für die Wiederherstellung von Informationen und Systemen.

Digitale Archive

Archive sind auch eine Art der Datensicherung, allerdings können sie kein Backup ersetzen. Umgekehrt sind Archive kein Platz für Backups. Archivierung bedeutet Langzeitaufbewahrung, die unternehmensspezifischen Richtlinien folgt. Archivlösungen sollten nach internen und externen Bestimmungen gewählt werden. Dazu gehören beispielsweise rechtliche Vorgaben wie GDPdU. Wichtig für alle Archive ist, dass sich Daten nicht verändern lassen. Das geschieht in der Regeln mit der Write-Once-Read-Many-Technik (WORM, siehe Kasten). Bei Langzeitaufbewahrung muss der IT-Manager daran denken, dass die Informationen auch nach vielen Jahren noch lesbar sein müssen. Darüber hinaus endet fast jede Datensicherung mit der Pflicht, Informationen zu beseitigen. Erst mit der erfolgreichen Vernichtung endet die Datensicherung.

WORM

WORM steht für write once read many und beschreibt Medien, die nur einmal mit Daten beschrieben werden können, um sie danach beliebig oft auszulesen. Die WORM-Technologien schützen Schreibschutz, weil einmal geschriebenen Daten anschließend weder abgeändert und überschrieben noch gelöscht werden können. Man unterscheidet TrueWORM, das physikalisch realisiert wird, und SoftWORM, das durch Software zur Umsetzung kommt.