Forschungsdatenmanagement – Eine Einführung

Datenarchivierung

Neben der Datenspeicherung steht die Datenarchivierung als weiterer notwendiger Schritt im Forschungsdatenlebenszyklus. Während die Datenspeicherung vor allem die Speicherung der Daten während des laufenden Arbeitsprozesses in der Projektlaufzeit umfasst, wie sie in den bisherigen Abschnitten dieses Kapitels behandelt wurden, beschäftigt sich die Datenarchivierung damit, wie die Daten nach Abschluss des Projekts so nachnutzbar wie möglich zur Verfügung gestellt werden können. Oft wird begrifflich nochmals zwischen der Datenaufbewahrung in einem Repositorium und der Datenarchivierung im Sinne einer Langzeitarchivierung (kurz „LZA“) unterschieden. An vielen Stellen, so auch in den „Leitlinien zur Sicherung guter wissenschaftlicher Praxis“ der DFG aus dem Jahr 2019 („Leitlinie 17: Archivierung“) werden beide Begriffe jedoch äquivalent gebraucht. Wenn im Folgenden von Aufbewahrung oder Datenaufbewahrung die Rede ist, ist die Aufbewahrung von Daten in einem Forschungsdatenrepositorium gemeint. Wird jedoch von Datenarchivierung gesprochen, ist damit eine Langzeitarchivierung intendiert. Die Unterschiede beider Varianten sind Thema dieses Abschnitts.

Mit der Datenaufbewahrung in einem Forschungsdatenrepositorium geht im Grunde meist eine Veröffentlichung der produzierten Daten einher. Eine solche Veröffentlichung kann und muss im Fall von sensiblen Daten, wie etwa personenbezogenen Daten, auch zugangsbeschränkt geschehen. Gemäß der guten wissenschaftlichen Praxis müssen Repositorien sicherstellen, dass die publizierten Forschungsdaten für mindestens zehn Jahre aufbewahrt und zur Verfügung gestellt werden, anschließend ist die Verfügbarkeit jedoch nicht mehr notwendigerweise gegeben, wird aber dennoch meistens weiter gewährleistet. Sollten Daten nach dieser Mindestaufbewahrungsfrist auf Entscheidung des Betreibers aus dem Repositorium entfernt werden, muss der Verweis auf die Metadaten weiter vorhanden bleiben. Repositorien werden meistens in drei unterschiedliche Arten unterteilt: Institutionelle Repositorien, Fachrepositorien und fachübergreifende bzw. generische Repositorien. Eine vierte eher spezifische Variante sind sogenannte Software-Repositorien, in denen Software bzw. reiner Softwarecode veröffentlicht werden kann. Diese sind üblicherweise auf jeweils eine Programmiersprache ausgelegt (z.B. PyPI für die Programmiersprache „Python“).

Institutionelle Repositorien umfassen all jene Repositorien, die durch meist staatlich anerkannte Institutionen bereitgestellt werden. Dazu können Universitäten, Museen, Forschungseinrichtungen oder andere Einrichtungen gehören, die ein Interesse daran haben, Forschungsergebnisse oder andere Dokumente von wissenschaftlicher Bedeutung der Öffentlichkeit zur Verfügung zu stellen. Im Rahmen der „Leitlinien zur Sicherung guter wissenschaftlicher Praxis“ der DFG (2019) wird offiziell gefordert, dass die Forschungsdaten, die einem wissenschaftlichen Werk zugrunde liegen, mindestens „in der Einrichtung, wo sie entstanden sind, oder in standortübergreifenden Repositorien aufbewahrt“ werden müssen. (DFG 2019, S. 22) Beachten Sie außerdem vor der Veröffentlichung Ihrer Daten die Anforderungen für eine langfristige Speicherung, die sich durch die Forschungsdaten-Leitlinie bzw. Forschungsdaten-Policy Ihrer Forschungsinstitution ergeben. Suchen Sie daher frühzeitig Kontakt zum Forschungsdatenreferenten an Ihrer Universität oder Ihrer Forschungs­einrichtung, um zu besprechen wie und wo Sie die Daten veröffentlichen können, um gemäß der guten wissenschaftlichen Praxis zu handeln. Auch wenn Sie ihre Daten bereits in einem Journal veröffentlicht haben, ist es häufig möglich, diese auch an Ihrer Einrichtung zu veröffentlichen. Fragen Sie dazu beim Verlag an oder schauen Sie in ihren Vertrag.

Neben der Veröffentlichung in Ihrem institutionellen Repositorium können Sie Ihre Daten auch zusätzlich in einem fachspezifischen Repositorium publizieren. Gerade die Veröffentlichung in einem renommierten fachspezifischen Repositorium kann stark zur Steigerung Ihrer eigenen wissenschaftlichen Reputation beitragen. Um zu erfahren, ob für Ihren Forschungsbereich ein passendes fachspezifisches Repositorium vorhanden ist, lohnt sich die Suche über den Repositorien-Index re3data.

Sollte kein passendes Repositorium dabei sein, ist die letzte Möglichkeit die Veröffentlichung in einem großen fachübergreifenden Repositorium. Eine kostenlose Variante bietet einerseits der von der Europäischen Kommission finanzierte Dienst Zenodo und andererseits international figshare. Sollte ihre Hochschule Mitglied bei Dryad sein, können Sie auch dort kostenlos publizieren. Einen gebührenpflichtigen Dienst zur Veröffentlichung von Daten bietet für den deutschen Raum RADAR. Die am häufigsten verwendete Variante stellt im europäischen Raum vermutlich Zenodo dar. Achten Sie bei der Veröffentlichung auf Zenodo darauf, ihre Forschungsdaten auch einer oder mehrerer Communities zuzuordnen, die in gewisser Weise eine Fachspezifik innerhalb dieses generischen Angebots widerspiegeln.

Unabhängig davon, wo Sie ihre Daten letztendlich veröffentlichen, achten Sie immer darauf zusätzlich zu den Daten auch eine beschreibende "Metadatendatei" mit zu veröffentlichen, in welcher die Daten beschrieben werden und der Kontext der Datenerhebung dargelegt ist (s. Kapitel „Metadaten und Metadatenstandards“). Schauen Sie bei der Auswahl Ihres bevorzugten Repositoriums auch darauf, ob dieses in irgendeiner Weise zertifiziert ist (z.B. CoreTrustSeal). Ob ein Repositorium zertifiziert ist, ist bei re3data direkt ersichtlich. Analog zu den FAIR- und CARE-Prinzipien gibt es auch eine neuere Entwicklung hinsichtlich der Anforderungen, die ein Forschungsdatenrepositorium im besten Fall erfüllen sollte: die TRUST-Prinzipien. Diese könnten für die Zukunft einen höheren Stellenwert einnehmen.

Je älter Daten werden, desto wahrscheinlicher ist es bei den heutigen sich rasant weiter entwickelnden digitalen Möglichkeiten, dass diese Daten zukünftig womöglich nicht mehr geöffnet, gelesen oder verstanden werden können. Gründe dafür gibt es einige: Es fehlt die benötigte Hardware und/oder Software oder wissenschaftliche Methoden haben sich so stark verändert, dass Daten jetzt auf andere Arten und Weisen mit anderen Parametern erhoben werden. Moderne Rechner und Notebooks verzichten beispielsweise mittlerweile fast immer auf ein CD- oder DVD-Laufwerk, wodurch diese Speichermedien nicht mehr flächendeckend genutzt werden können. Die Langzeitarchivierung zielt daher darauf ab, die langfristige Nutzung von Daten über einen nicht näher bestimmten Zeitraum hinweg über die Grenzen von Medienverschleiß und technischen Neuerungen sicherzustellen. Das umfasst sowohl die Bereitstellung der technischen Infrastruktur als auch organisatorische Maßnahmen. LZA verfolgt dabei den Erhalt der Authentizität, Integrität, Zugänglichkeit und Verständlichkeit der Daten.

Um eine langfristige Archivierung von Daten zu ermöglichen, ist es wichtig, dass die Daten mit für die LZA relevanten Metainformationen versehen werden wie beispielsweise der verwendeten Erhebungsmethode, Hardware des Systems, mit dem die Daten erhoben wurden, Software, Codierung, Metadatenstandards samt Version, möglicherweise einer Migrationshistorie usw. (s. Kapitel „Metadaten und Metadatenstandards“). Darüber hinaus sollten die Datensätze soweit möglich den FAIR-Prinzipien entsprechen (s. Kapitel „FAIR-Prinzipien und CARE-Prinzipien“). Dazu zählt auch, die Daten vorzugsweise in nicht-proprietären, offen dokumentierten Datenformaten abzuspeichern und auf proprietäre Datenformate zu verzichten. Offene Formate müssen seltener migriert werden und zeichnen sich durch eine längere Lebensdauer und höhere Verbreitung aus. Achten Sie außerdem darauf, dass die zu archivierenden Dateien unverschlüsselt, nicht komprimiert und patentfrei sind.  Dateiformate  können prinzipiell verlustfrei, verlustbehaftet oder sinnhaft  konvertiert werden. Eine verlustfreie Konvertierung ist in der Regel  vorzuziehen, da so alle Informationen bestehen bleiben. Werden  allerdings geringere Dateigrößen bevorzugt, müssen oft  Informationsverluste in Kauf genommen werden. Wenn Sie z.B. Audiodateien  wie WAV in MP3 konvertieren, gehen durch die Komprimierung  Informationen verloren und die Tonqualität verschlechtert sich.  Allerdings ergibt sich durch die Umwandlung eine geringere Dateigröße. Die folgende Tabelle gibt einen kleinen Überblick darüber, welche Formate für einen bestimmten Datentyp geeignet und welche eher ungeeignet sind:

Tab 8.3: Empfohlene, bedingt geeignete und ungeeignete Datenformate nach Datentyp (angelehnt an den Empfehlungen der ETH Zürich, ETH-Bibliothek: Archivtaugliche Dateiformate, vereinfacht und kommentie

Datentyp

Empfohlen

Bedingt geeignet

Nicht geeignet

Audio, Ton

*.flac / *.wav

*.mp3

Computer-aided Design (CAD)

*.dwg / *.dxf / *.x3d / *.x3db / *.x3dv

Datenbanken

*.sql / *.xml

*.accdb

*.mdb

Rastergrafiken und Bilder

*.dng / *.jp2 (verlustfreie Komprimierung) / *.jpg2 (verlustfreie Komprimierung) / *.png / *.tif (komprimiert)

*.bmp / *.gif / *.jp2 (verlustbehaftete Komprimierung) / *.jpeg / *.jpg / *.jpg2 (verlustbehaftete Komprimierung) / *.tif (komprimiert)

*.psd

Rohdaten und Workspace

*.cdf (NetCDF) / *.h5 / *.hdf5 / *.he5 / *.mat (ab Version 7.3) / *.nc (NetCDF)

*.mat (binär) / *.rdata

Spreadsheets und Tabellen

*.csv / *.tsv / *.tab

*.odc / *.odf / *.odg / *.odm / *.odt / *.xlsx

*.xls / *.xlsb

Statistische Daten

*.por

*.sav (IBM®SPSS)

Texte

*.txt / *.pdf (PDF/A) / *.rtf / *.tex / *.xml

*.docx / *.odf / *.pdf

*.doc

Vektorgrafiken

*.svg / *.svgz

*.ait / *.cdr / *.eps / *.indd / *.psd

Video[1]

*.mkv

*.avi / *.mp4 / *.mpeg / *.mpg

*.mov / *.wmv

Dabei bedeutet die Auflistung in der Spalte "weniger bzw. ungeeignete Formate" nicht, dass Sie diese Formate auf keinen Fall verwenden können, wenn Sie Ihre Daten langfristig aufbewahren wollen. Es geht vielmehr darum, für Fragen der langfristigen Verfügbarkeit in einem ersten Einstieg sensibilisiert zu werden. Machen Sie sich klar, welches Format welche Vor- und welche Nachteile bietet. Einen erweiterten Überblick finden Sie auf forschungsdaten.info. Wenn Sie sich weiter vertiefen wollen, werden Sie auf der Webseite von nestor, dem deutschen Kompetenznetzwerk für die Langzeitarchivierung und Langzeitverfügbarkeit digitaler Ressourcen, fündig. Unter nestor thema finden Sie aktuelle Kurzartikel aus der Praxis, so z.B. zu den Formaten tiff oder pdf. Wenn Sie diese und weitere Übersichten nebeneinander legen, werden Sie feststellen, dass die Empfehlungen zu Dateiformaten voneinander abweichen. Ein weiterer guter Weg ist es, bei Unsicherheiten zu Formaten bei einem – soweit vorhanden – Fachdatenzentrum oder einem Forschungsdatenverbund anzufragen. Wollen Sie Ihre Daten dort ablegen, empfiehlt sich diese Vorgehensweise umso mehr. Sie werden dann möglicherweise feststellen, dass Ihre Daten auch dann genommen werden, wenn das gewählte Datenformat unter dem Aspekt der LZA nicht die erste Wahl ist. Repositorien- oder Forschungsdatenzentrenbetreiber arbeiten wissenschaftsnah und versuchen immer auch einen Umgang mit Formaten zu finden, die in den jeweiligen Fachdisziplinen weit verbreitet sind, z.B. mit Exceldateien. Als Beispiel dafür, können Sie sich die Vorgaben des VerbundFDB anschauen.

Um ggf. selbst eine Entscheidung treffen zu können, welche Formate für Ihr Vorhaben in Frage kommen, gibt es eine Reihe von Kriterien, die Sie bei der Auswahl beachten sollten (nach Harvey/Weatherburn 2018: 131):
  • Ausmaß der Verbreitung des Datenformats
  • Abhängigkeit von anderen Technologien
  • Öffentliche Zugänglichkeit der Dateiformat-Spezifikationen
  • Transparenz des Dateiformats
  • Metadatenunterstützung
  • Wiederverwendbarkeit/Interoperabilität
  • Robustheit/Komplexität/Rentabilität
  • Stabilität
  • Rechte, die die Datenbewahrung erschweren können

LZA nutzt zum momentanen Zeitpunkt zwei Strategien zur langfristigen Datenerhaltung: Emulation und Migration.

Emulation:
Unter Emulation versteht man, dass auf einem aktuellen, modernen System ein häufig älteres System nachgebildet wird, was in möglichst allen Aspekten das alte System imitiert. Programme, die dies leisten, bezeichnet man als Emulatoren. Ein prominentes Beispiel hierfür ist etwa DOSBox, welches es ermöglicht, auf aktuellen Rechnern ein altes MS DOS-System samt nahezu aller Funktionalitäten abzubilden und somit Software für dieses System zu verwenden, was mit einem aktuelleren System höchstwahrscheinlich nicht mehr möglich ist.

Migration:
Als Migration oder Datenmigration bezeichnet man das Überführen von Daten auf ein anderes System oder einen anderen Datenträger. Im Bereich der LZA soll so erreicht werden, dass die Daten auf dem zu übertragenden System weiter ausgelesen und angeschaut werden können. Hierfür ist es notwendig, dass die Daten mit dem Datenträger auf dem sie ursprünglich erhoben wurden, nicht untrennbar verknüpft sind. Denken Sie daran, dass auch Metadaten migriert werden müssen!

Bei der Wahl eines geeigneten Speicherortes für die Langzeitarchivierung sollten Sie folgende Punkte beachten:

Technische Anforderungen
Der Dienstleister sollte eine Strategie zur Daten-konvertierung, Migration und/oder Emulation verfolgen. Darüber hinaus sollte in regelmäßigen Abständen eine Kontrolle der Lesbarkeit der Dateien sowie eine Virenprüfung durchgeführt werden. Alle Schritte sollten dokumentiert werden.

Siegel für vertrauenswürdige Langzeitarchive
Für die Beurteilung, ob ein Langzeitarchiv vertrauenswürdig ist, wurden verschiedene Siegel entwickelt z.B. das nestor-Siegel, welches auf Grundlage der DIN 31644 „Kriterien für vertrauenswürdige digitale Langzeitarchive“ entwickelt wurde, ISO 16363 oder das CoreTrustSeal.

Kosten
Der Betrieb von Servern ebenso wie die Umsetzung der technischen Standards sind mit Kosten verbunden, daher ist das Angebot mancher Dienstleister kostenpflichtig. Der Preis hängt vor allem von der Datenmenge ab.

Zugänglichmachung der Daten
Vor der Wahl des Speicherortes sollte man sich die Frage stellen, ob die Daten zugänglich sein oder nur abgelegt werden sollen.

Langlebigkeit des Dienstleisters
Wirtschaftliche und politische Faktoren haben Einfluss auf die Langlebigkeit der Dienstleister

Zusammenfassend lässt sich folgendes sagen: Die hier aufgelisteten Informationen zur LZA haben für Sie vor allem einen theoretischen Wert und nur einen bedingten Handlungswert. Wenn Sie in einem zertifizierten Repositorium veröffentlichen, sind Sie gut beraten. Achten Sie vor allem darauf, das bei einer vertrauenswürdigen Einrichtung zu tun und informieren Sie sich bei dieser Einrichtung bereits im Voraus zu Möglichkeiten oder Planungen hinsichtlich einer LZA. Die hier aufgelisteten Aspekte für eine gute LZA können Sie zur Formulierung möglicher Fragen an die Einrichtungen nutzen. Dadurch sollten ausreichende Voraussetzungen für die LZA gegeben sein.


[1] Neben dem Dateiformat (bzw. Containerformat) spielen auch der verwendete Codec und die Kompressionsart eine wichtige Rolle.


No comment has been posted yet.