Speicher-System für Uni Leipzig

Mehrere Milliarden Statistik-Tests

10.02.2011 von Johannes Klostermeier
Schnellere Datenauswertung und bessere Skalierbarkeit der Speicherinfrastruktur erhofft sich das Institut für Medizinische Informatik, Statistik und Epidemiologie der Universität Leipzig.

Das Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE) der Universität Leipzig hat sich für den Aufbau einer neuen Speicherinfrastruktur entschieden. Das teilte der Computerhersteller IBM mit. Zum Einsatz kam dabei das IBM Speichersystem Storwize V7000. Das Projekt wurde zusammen mit dem Business Partner Wichmann Datentechnik realisiert.

Das neue Speichersystem erleichtert Arbeiten in der biometrischen Modellierung uns Systembiologie.
Foto: IBM

Ziel der Beteiligten sei es gewesen, eine flexiblere Speicherinfrastruktur als bisher bei gleichzeitig hoher Skalierbarkeit, hoher Leistung und leichter Administration durch die Wissenschaftler zu ermöglichen.

Das Institut gehört zur Medizinischen Fakultät der Universität Leipzig. Seine Aufgaben sind Forschung, Lehre, Weiterbildung und Beratung in Biostatistik, den Grundlagen klinischer Studien sowie in medizinischer Informatik. Die Forschungsschwerpunkte liegen in den Bereichen Klinische Studien, Biometrische Modellierung, Medizinische Informatik, Bioinformatik und Systembiologie.

Für eine Vielzahl von großen nationalen Studien- und Verbundforschungsprojekten übernimmt das Leipziger Institut die Entwicklung des Studiendesigns, die Studienplanung, das Studienmanagement, Datenspeicherung und -management sowie die Datenauswertung und Modellierung. Daraus ergeben sich verschiedene Herausforderungen für die IT-Infrastruktur. Beteiligt sind vor allem Datenbankserver und Remote Data Entry Systeme. Für die biometrische Modellierung und Systembiologie werden umfangreiche Rechenkapazitäten benötigt.

Das IMISE hat in den letzten Jahren seine Forschungsaktivitäten auf dem Bereich molekulargenetischer Untersuchungen verstärkt. Derzeit wird beispielsweise die große genetisch-epidemiologische Studie LIFE (Leipziger Forschungszentrum für Zivilisationserkrankungen) begonnen, bei der mehrere Tausend Patienten und gesunde Probanden nicht nur umfangreich untersucht, sondern auch molekulargenetisch charakterisiert werden sollen.

Hierbei fallen große Datenmengen im mehrstelligen Terabyte-Bereich aus Hochdurchsatz-Mikroarray-Experimenten und Sequenzierungen an, die das Datenmanagement und die Datenanalyse besonders beanspruchen. Das Ziel zukünftiger Forschungen liegt darin, Zusammenhänge zwischen verschiedenen hochdimensionalen genetischen Informationen, wie zum Beispiel zwischen genetischen Mutationen und Genexpression, Proteinen oder Metaboliten (Zwischenprodukt in einem Stoffwechselvorgang) herzustellen.

Milliarden statistischer Tests müssen berechnet werden

Dies erfolgt durch die Berechnung von unter Umständen mehreren Milliarden statistischer Tests. Die Schwierigkeit für die Auswertung sei dabei nicht nur die Berechnung dieser Tests, sondern vor allem die Geschwindigkeit, mit der die nötigen Abfragen innerhalb der Ergebnislisten durchgeführt werden können.

Durch den Kauf des neuen Speichersystems will die Arbeitsgruppe „Genetische Statistik" ihre Infrastruktur verbessern, um diese und andere umfangreiche Analysen zukünftig noch effektiver durchführen zu können.

Ein besonderer Vorteil des neuen Speicher-Systems ist den Herstellerangaben zufolge vor allem dessen Skalierbarkeit. Es kann demnach in der Anzahl der Einheiten und anschließbaren Platten sehr stark erweitert werden. Mit dem System werden vorhandene andere Speichersysteme mittels einer Virtualisierungsschicht integriert und zu einem gemeinsamen verwalteten SAN zusammengefasst.

Falls andere Speichersysteme abgelöst werden sollen, können diese vorübergehend als externe Systeme angeschlossen und dann auf die Speichersysteme des Systems Storwize V7000 (interne und/oder externe Platten) migriert werden. Nach Abschluss der Migration könne das alte Speichersystem abgeschaltet werden. Das System funktioniere dabei ohne nennenswerte Downtime und bei vollem Zugriff durch alle angeschlossenen Systeme.