Forschungsdatenmanagement – Eine Einführung
Was sind kontrollierte Vokabulare und Normdateien? Wofür werden sie verwendet?
Wie Sie bisher sehen konnten, legen Metadatenstandards die Kategorien fest, mit denen Daten näher beschrieben werden können. Dazu zählen einerseits fachübergreifende Kategorien wie Titel, Urheber, Veröffentlichungsdatum, Art der Untersuchung usw., andererseits aber auch fachspezifische Kategorien wie etwa die Stofftemperatur in der Chemie oder den Materialwissenschaften. Keine Festlegung und Kontrolle gibt es jedoch dabei, wie Sie die jeweiligen Kategorien mit Informationen befüllen.
Welches Datumsformat verwenden Sie? Wird die Temperatur in Celsius oder Fahrenheit und mit „°“ oder „Grad“ angegeben? Handelt es sich um eine „Umfrage“ oder einen „Survey“? Diese Fragen scheinen auf den ersten Blick oberflächlich zu sein, doch hängen vordefinierte und einheitliche Begriffe und Formate eng mit der maschinellen Verarbeitung und den daraus resultierenden Suchergebnissen und der Verknüpfung mit anderen Forschungsdaten zusammen. Entspricht das Datumsformat beispielsweise nicht dem Format, mit dem ein Suchsystem arbeitet, werden die Forschungsdaten mit dem inkompatiblen Format nicht gefunden und ausgegeben. Wird nach Umfragen gesucht, in den Metadaten wird aber der Begriff „Survey“ verwendet, ist nicht sicher, dass die zugehörigen Forschungsdaten auch gefunden werden.
Zum Zweck der sprachlichen Vereinheitlichung bei der Beschreibung von Metadaten wurden so genannte kontrollierte Vokabulare entwickelt. Das können in einfachster Form reine Wortlisten sein, die den Sprachgebrauch bei der Metadatenbeschreibung regulieren, aber auch komplexe, strukturierte Thesauri. Thesauri sind Wortnetze, die Wörter und ihre semantischen Relationen zu anderen Wörtern beinhalten. Dadurch können u.a. auch polyseme (= mehrdeutige) Begriffe eindeutig aufgelöst werden.
Wie kann man als Forschender oder Forschungsgruppe die Verwendung von einheitlichen Begriffen und Formaten sicherstellen? Als Einzelperson einer Wissenschaftsdisziplin lohnt es sich, sich zu Beginn eines Forschungsprojekts nach kontrollierten Vokabularen innerhalb dieser Disziplin zu erkundigen. Dazu reicht meist schon eine einfache Suche im Internet. Auch in einer Forschungsgruppe mit einem mehrjährigen Forschungsprojekt sollte vor Projektbeginn und vor den ersten Untersuchungen nach einem kontrollierten Vokabular gesucht werden. Findet sich keines, lohnt es sich je nach Menge der im Projekt involvierten Forschenden und der Menge an involvierten Standorten ein projektinternes Dokument zur einheitlichen Abstimmung der verwendeten Begriffe und Fachtermini anzulegen, welche in den jeweiligen Metadaten-Kategorien verwendet werden sollen.
Neben kontrollierten Vokabularen gibt es auch noch eine Vielzahl an Normdateien, die neben einer einheitlichen Benennung eine Vielzahl an Entitäten eindeutig referenzierbar machen. Weiter oben wurde bereits ORCiD, kurz für Open Researcher and Contributor ID, genannt, welche über einen eindeutigen Code akademische und wissenschaftliche Autoren identifiziert. Die Angabe einer solchen ID löst ggf. vorliegende, häufig vorkommende und daher mehrdeutige Namen eindeutig auf und sollte daher bevorzugt verwendet werden.
Die im deutschen Raum wahrscheinlich bekannteste Normdatei ist die Gemeinsame Normdatei (GND), die u.a. von der Deutschen Nationalbibliothek (DNB) geführt wird. Sie beschreibt nicht nur Personen, sondern auch „Körperschaften, Konferenzen, Geografika, Sachbegriffe und Werke, die in Bezug zu kulturellen und wissenschaftlichen Sammlungen stehen“. (Gemeinsame Normdatei (GND), 2019, Über die GND) Jede Entität in der GND erhält eine eigene GND-ID, die eindeutig auf diese Entität referenziert. Der Dichter „Sophocles“ besitzt in der GND beispielsweise die ID 118615688. Über diese ID kann in Metadaten unter Verweis auf die GND eindeutig auf Sophocles referenziert werden.
GeoNames ist ein Online-Ortslexikon, auch Gazetteer genannt. Es beinhaltet alle Länder und über 11 Millionen Ortsbezeichnungen, die mit einer eindeutigen ID versehen sind. So ist es beispielsweise möglich, gleichnamige Orte direkt auseinanderzuhalten ohne die amtlich zugeordnete Gemeindekennzahl (in Deutschland die PLZ) zu kennen. So kann etwa zwischen dem Manchester in UK (2643123), dem Manchester im Bundesstaat New Hampshire der USA (5089178) und dem Manchester im Bundesstaat Connecticut der USA (4838174) eindeutig unterschieden werden.
Allgemein gilt: Informieren Sie sich über spezifische Anforderungen, sobald Sie wissen, wo Sie Ihre Forschungsdaten ablegen oder publizieren möchten. Wenn Sie diese Anforderungen kennen, können Sie Ihre eigenen Metadaten erstellen. Versuchen Sie bei dem Verweis auf bestimmte allgemein bekannte Entitäten unter Angabe des verwendeten Thesaurus immer eine eindeutige ID zu verwenden.
Wenn Sie wissen wollen, ob es für Ihre Wissenschaftsdisziplin oder einen bestimmten Themenbereich bereits ein kontrolliertes Vokabular oder eine Ontologie gibt, können Sie in einem ersten Schritt eine Suche bei BARTOC, dem „Basic Register of Thesauri, Ontologies and Classifications“ durchführen.