Forschungsdatenmanagement – Eine Einführung

Beispiele für Metadaten

Im Folgenden soll anhand einiger Beispiele gezeigt werden, wie Metadaten aussehen können.

Abb. 4.1: Eintrag eines Werks in einem Online-Bibliothekskatalog

Abb. 4.1 (Quelle: https://hds.hebis.de/ubgi/Record/HEB060886269) zeigt einen Buchtitel als Eintrag in einem Online-Bibliothekskatalog in einer Form, wie Sie als Angehörige einer Hochschule dies vermutlich schon des Öfteren gesehen haben. An dieser Stelle sei angemerkt, dass Metadaten keine neuartige Entwicklung darstellen und nicht erst im digitalen Zeitalter eine tragende Rolle spielen, sondern schon vorher beispielsweise beim Anlegen von Zettelkatalogen in Bibliotheken verwendet wurden, um Bücher wiederzufinden. Die in Abb. 1 untereinander aufgelisteten Informationen stellen ebenfalls nichts Anderes als Metadaten dar, die aufbereitet von einem Verarbeitungssystem auch von Nutzenden gelesen werden können, um Informationen über ein bestimmtes Werk zu bekommen. Sie erfahren etwas über den Titel, den/die Verfasser/in/nen, den Umfang, Angaben zum Veröffentlichungsjahr, der Sprache usw.

Auch wenn sich die Daten aus dem obigen Beispiel wahrscheinlich in hohem Maße von Ihren Forschungsdaten unterscheiden, lässt sich die Art, wie Metadaten erfasst werden, daran gut erläutern. Würde man Metadaten für Forschungsdaten in dieser Art und Weise verfassen, wie sie hier für den Nutzer erscheint, nämlich in einer Art zweispaltigen Tabelle, wobei eine Spalte die Kategorie (z.B. Titel) und eine andere Spalte die tatsächliche Information (hier „König Oidipus“) enthält, wären diese Informationen für einen späteren Forschenden für das Verständnis der Daten in jedem Falle hilfreich. Es würde aber noch nicht dazu führen, dass Computersysteme diese Daten auch automatisiert verarbeiten können.

Sollten Sie also mit der Aufbereitung von computerlesbaren Metadaten überhaupt keine Erfahrung haben, lohnt es sich, wie zuvor schon erwähnt, eine derartige tabellarische Auflistung aller relevanten Daten in einer Datei (z.B. .docx, .xlsx, .txt, o.ä.) schon zu Beginn eines Forschungsvorhabens zu nutzen und durchgehend aktuell zu halten, um bei einer möglichen späteren Einreichung diese Daten schon zur Hand zu haben. Halten Sie sich dabei auch an ein sinnvolles Versionierungskonzept, um Änderungen in den Daten im Laufe der Projektlaufzeit nachvollziehbar zu machen (s. Kapitel „Datenspeicherung und -archivierung“).

Abb. 4.2: Maschinenlesbare Beispiel-Metadaten gemäß dem Dublin Core Metadata Element Set (Erstellt von Henrike Becker im Projekt „FOKUS“)

Informationen zum Projekt „FOKUS“ finden Sie hier und hier.

Abb. 4.2 zeigt einen Teil eines maschinenlesbaren Metadatensatzes, der gemäß den Konventionen des Dublin Core Metadata Element Set, welches 1995 von der Dublin Core Metadata Initiative erstmals veröffentlicht wurde, in der Auszeichnungssprache XML verfasst ist (mehr dazu im Abschnitt „Was sind Metadatenstandards und warum sind sie wichtig?“). Woran das erkennbar ist, wird im Folgenden erläutert.

Alles, was in Abb. 4.2 in blauer Schrift verfasst ist, bezeichnet man als Elemente, alles in schwarzer Schrift ist der Inhalt dieser Elemente. Ein einfacheres Verständnis dieses Verhältnisses ergibt sich, wenn man noch einmal Abb. 4.1 betrachtet: Die linke Spalte ist dort die Art der Information bzw. Kategorie (also beispielsweise „Titel“, „Verfasser“ usw.), die rechte Spalte dann die tatsächliche Information innerhalb dieser Kategorie (also beispielsweise „König Oidipus“, „Sophocles“ usw.). Das Verhältnis von Element und Inhalt des Elements verhält sich analog, wobei die Art der Information/Kategorie die Elemente (blaue Schrift in Abb. 4.2) und die tatsächliche Information den Inhalt der Elemente (schwarze Schrift in Abb. 4.2) darstellen.

Ein grundlegender Unterschied ist jedoch der Aufbau: Elementnamen stehen immer in einer Klammerung durch Kleiner-als- und Größer-als-Zeichen (z.B. „<…>“). Außerdem gibt es für jede Kategorie jeweils ein öffnendes und ein schließendes Element. Das öffnende Element ist erkennbar an dem Kleiner-als-Zeichen „<“ und steht immer vor der tatsächlichen Information. Das schließende Element ist erkennbar an dem Schrägstrich „/“ nach dem Kleiner-als-Zeichen „<“ und steht immer hinter der tatsächlichen Information der jeweiligen Kategorie. Diese öffnenden und schließenden Elemente umschließen also praktisch immer den dazwischenliegenden Informationsgehalt, was in Abb. 4.2 leicht erkennbar ist. Innerhalb der Kleiner-als- und Größer-als-Zeichen steht die Angabe über die Kategorie (z.B. „title“, „creator“) usw. Die schwarz geschriebene Information zwischen <dc:creator> und </dc:creator> gibt Ihnen also beispielsweise Auskunft über den Urheber des jeweiligen Dokuments bzw. der jeweiligen Daten. Im Falle von Abb. 4.2 wäre dies „Henrike Becker“.

An dieser Stelle sollen noch kurz die anderen in Abb. 4.2 gezeigten Elemente erklärt werden. Das <dc:title>-Element beinhaltet den Titel unter dem das Dokument oder der Forschungsdatensatz veröffentlicht wurde. Systeme, die Titel aus einer Datenbank auslesen und anzeigen, nutzen oftmals den Inhalt dieses Elements als Information. <dc:subject> kann mehrfach vorkommen und beinhaltet immer ein Thema des Inhalts in Keywords, die als Suchgrundlage dienen. Das zweite <dc:subject>-Element in Abb. 4.2 beinhaltet eine sehr lange Angabe eines Themas (also nicht nur Keywords), die eher vermieden werden sollte, damit bessere Suchergebnisse erzielt werden können. Das Element <dc:description> gibt eine Kurzzusammenfassung des Inhalts. Handelt es sich um Textpublikationen kann dort auch das Inhaltsverzeichnis untergebracht werden. Auch bei diesem Element sind Mehrfachnennungen möglich. <dc:date> beinhaltet ein Datum, meistens das der Veröffentlichung. Das Datum sollte, wenn es möglich ist, zur besseren Durchsuchbarkeit in Notation nach DIN ISO 8601 als JJJJ-MM-TT vorliegen. Innerhalb dieses Elements können Unter-Elemente (sogenannte Kind-Elemente) untergebracht werden, die schließlich genauere Informationen zum Datum geben, etwa, ob es sich um das Erstellungsdatum, das Datum der letzten Änderung oder das Veröffentlichungsdatum handelt. Das Element <dc:identifier> ist nur einmalig und obligatorisch in einem Metadatensatz vorhanden. Der darin enthaltene persistente Identifier ist weltweit nur einmal vergeben und weist das Dokument oder den Forschungsdatensatz eindeutig aus. Nähere Informationen zu persistenten Identifiern gibt es im nächsten Abschnitt „Welche Kategorien sind bei Metadaten wichtig?“ und im Abschnitt „Findability“ des Kapitels „FAIR-Prinzipien und CARE-Prinzipien“.

Die zwei Buchstaben mit dem Doppelpunkt „dc:“, die in den Elementen vor dem eigentlichen Elementnamen „creator“ usw. stehen, zeigen, dass es sich bei den Elementen um Elemente aus dem anfangs erwähnten Dublin Core Metadata Element Set handelt. Genauere Informationen, warum diese beiden Buchstaben davor geschrieben werden sollten bzw. oft sogar müssen, werden im Kapitel „Was sind Metadatenstandards und warum sind sie wichtig?“ genauer erläutert.

Und nun sind Sie an der Reihe. Was sind in der unten dargestellten Tabelle (Abb. 4.3) die Daten und was sind die Metadaten? Zur Auflösung klicken Sie bitte auf die Lupe rechts unter dem Bild.

Abb. 4.3: Ausschnitt aus einer Excel-Tabelle


No comment has been posted yet.