Hochschule & Forschung

Differenzieren über Zugriff und Verfügbarkeit

| Autor / Redakteur: Dirk M. Moeller* / Susanne Ehneß

Alternative: Content-Speicher

Die Alternative zum Fileserver stellen Content-Speicher dar, die Forschungsdaten speichern. Das funktioniert unabhängig von Berechtigungen. Der Anspruch muss sein, zu einem Forschungsthema über eine semantische Suche à la Google auch nach fünf Jahren sofort die relevanten Datensätze zu finden. Dieses schnelle Wiederfinden setzt Metadaten voraus. Außerdem sollten IT-Verantwortliche an Universitäten bedenken: Mit Fileservern ist es nicht möglich, Milliarden von Files und hunderte von Terabytes langfristig zu archivieren. Außerdem kommt ein File künftig auf einen Lebenszyklus von 10, 20 oder 30 Jahren, den die darunterliegende Technik, also der Fileserver, nicht mehr gewährleisten kann.

Automatisierte ­Metadatenerstellung

Jede Fakultät, jedes Institut forscht, erhebt Daten und formuliert Anforderungen an das Verwalten der Information. Die Vorstellungen zu Schlagwörtern und Themengruppierungen gehen oft schon innerhalb von Forschungsgruppen weit auseinander. In der Konsequenz bräuchte man mehr und frei definierbare Felder sowie längere Texte. Allerdings herrscht oft Mangel an Personal, das die Schlagwörter einpflegt.

Erschwerend kommt gerade für das Management von Forschungsdaten ein Aspekt hinzu. der zu lösen ist: Eine Universität lebt von ihren Studenten, die zu Forschern werden und promovieren. Doch nach der Doktorarbeit ist in der Regel an dieser Erst-Hochschule Schluss. Der Promovierte zieht zur nächsten Forschungsstätte weiter, die er dann verlässt, wenn seine Post-Doc-Stelle ausläuft. Die Daten seiner Forschung bleiben ­hingegen. Diese Fluktuation im Forschungsbetrieb macht es nicht einfach, ein Forschungsdaten­management aufzusetzen, das die Datenverfügbarkeit garantiert und das Finden bestimmter Ergebnisse vereinfacht. Erste Lösungsansätze­ gibt es bereits.

Im Fokus steht die Metadatenanreicherung aus Datensätzen, wofür ein Automatismus bereits bei der Datenerhebung anhand der Datenquelle Metadaten erzeugt. In der Astrophysik gibt es Beispiele, dass es funktioniert. Auch Genomforscher haben das „Metadaten-Rätsel“ zum Teil sehr gut automatisiert gelöst.

Im Gesundheitswesen – im Bereich von sogenannten bildgebenden Verfahren – gewinnt der Einsatz selbstlernender Algorithmen immer mehr an Bedeutung. Diese werten Datensätze aus und suchen nach Krankheitsmustern, geben Handlungsempfehlungen oder schlagen im Verdachtsfall früh­zeitig Alarm.

Etablierte Player wie IBM oder ­Toshiba nutzen hier Cloud-basierte Software-Lösungen, um zwei- oder dreidimensionale Bilder von Organen oder Strukturen der Patienten auszuwerten. Aufgrund der großen Menge an Vergleichsdaten können die Systeme so Krankheitsmuster erkennen, die dem menschlichen Auge verborgen bleiben.

Alle Branchen haben dabei eines gemein: Das Speichern der Daten fällt leicht. Herausfordernd gestaltet sich jedoch, eine sinnvolle Nachnutzung zu gewährleisten – über nachhaltiges Speichern. Selbst wenn eine Staatsbibliothek theologisches Wissen der vergangenen zwei Jahrtausende scannt, bewährt sich der Einsatz eines Algorithmus, um den digitalen Inhalt effizient zu verschlagworten.

In bestimmten Forschungsgebieten ergeben sich heute sehr hohe Anforderungen, welche die IT-­Infrastruktur erfüllen muss. Das gilt speziell für die Genomsequenzierung, in der tausende Wissenschaftler in Forschungsverbünden kooperieren. In dem Fall benötigen die Forscher rund um die Uhr den Zugriff auf eine gemeinsame Softwareplattform. Für das Bearbeiten der riesigen Datensätze muss die Plattform Analyse-Tools und benutzerfreundliche Visualisierungsinstrumente bieten. Der erste Lösungsansatz kann darin bestehen, die IT-Architektur zu ­virtualisieren, was sich mit OpenStack- und VMware-Plattformen sowie Docker-Software-Container realisieren lässt.

Damit alle laufenden Projekte nun mit einem 24/7-Zugriff gehostet sind, die steigende Nachfrage und zu erwartenden Lastspitzen gedeckt werden, muss die Speicherlandschaft die Virtualisierung absichern. Eine „Scale-Out All Flash“-Lösung eignet sich in so einer Umgebung am besten, um eine hochverfügbare wie skalierbare Softwareplattform zu betreiben und die dazu nötigen sehr guten I/O-Werten zu liefern.

Digital differenzieren

Universitäten müssen eine solide wie stabile IT-Umgebung aufbauen, die ihnen IT-Services agil, hochverfügbar und skalierbar bereitstellt. So lassen sich die Aufgaben in der Hochschulverwaltung, Lehre und Forschung erfüllen. Performante Speichersysteme legen die Basis, um vor allem ein effizientes Datenmanagement in der Forschung zu etablieren. Gefragt ist ein nachhaltiges Speichern, das ­archiviert und darüber hinaus die Datenverfügbarkeit in den Fokus rückt.

Dirk M. Moeller
Dirk M. Moeller (© JR 2017)

Die automatisierte Metadaten­anreicherung in Content-Speichersystemen versetzt Universitäten in die Lage, sich von anderen Lehr- und Forschungseinrichtungen ­abzuheben.

Diesen Differenzierungswett­bewerb forciert die Digitalisierung in der deutschen Hochschullandschaft, die sich in die moderne ­Gesellschaft einmischen muss. In dieser entscheiden der Zugriff und die Verfügbarkeit der Information über den Erfolg.

*Der Autor: Dirk M. Moeller, Director Sales Public Sector Germany bei NetApp

Inhalt des Artikels:

Kommentar zu diesem Artikel abgeben

Schreiben Sie uns hier Ihre Meinung ...
(nicht registrierter User)

Zur Wahrung unserer Interessen speichern wir zusätzlich zu den o.g. Informationen die IP-Adresse. Dies dient ausschließlich dem Zweck, dass Sie als Urheber des Kommentars identifiziert werden können. Rechtliche Grundlage ist die Wahrung berechtigter Interessen gem. Art 6 Abs 1 lit. f) DSGVO.
Kommentar abschicken
copyright

Dieser Beitrag ist urheberrechtlich geschützt. Sie wollen ihn für Ihre Zwecke verwenden? Kontaktieren Sie uns über: support.vogel.de/ (ID: 45215757 / System & Services)