Forschungsdatenmanagement – Eine Einführung

Fehlervermeidung

Die häufigsten Quellen für Fehler bilden falsche oder ungenaue Daten bzw. Dubletten. Wichtig ist es daher, sich Methoden und Strategien zu überlegen, wie diese verhindert werden können. So ist es bspw. sinnvoll, Prüfroutinen einzubauen. Dieses Prinzip wird auch First-Time-Right-Prinzip genannt. Sie können es u.a. dadurch unterstützen, dass Sie ein einheitliches System der Datenerstellung oder Dateneingabe nutzen wie in unserem Beispielfall die Eingabe des Namens nach dem Schema "Nachname, Vorname" oder auch, indem Sie Angaben standardisieren und beispielsweise die Datumsangaben in der Form "JJJJ-MM-TT" festlegen. Wenn Sie Datenbanksysteme nutzen, können Sie entsprechende Integritätsbedingungen formulieren und so die Einhaltung bestimmter Formate (z. B. bei Datumsangaben) oder die Eingabe bestimmter Werte erzwingen sowie die Konsistenz von Datensätzen sicherstellen (z. B. Postleitzahl und Ort).

Weiterhin können Sie verschiedene Verfahren anwenden, um Ihre Daten einer Qualitätskontrolle zu unterziehen. Messwerte können beispielsweise auf Plausibilität überprüft werden, was je nach Datenerhebung auch unter Einsatz von Software automatisiert werden kann. Ähnliches gilt für die Dublettenprüfung. Ein viel genutztes Tool zur Bereinigung von tabellarischen Daten ist OpenRefine. Mit Hilfe einer grafischen Benutzeroberfläche, die äußerlich einer Tabellenkalkulationssoftware ähnelt, können Sie Inkonsistenzen in großen Datenmengen finden und korrigieren. So ist es beispielsweise möglich, leicht unterschiedliche Schreibweisen eines Namens in verschiedenen Einträgen (z. B. Nordrhein Westfalen und Nordrhein-Westfalen) per Clustering zusammenzufassen und anschließend einheitlich zu bezeichnen. Auch eine Prüfung durch Kolleg/innen bzw. Kommiliton/innen kann (sofern dies datenschutzrechtlich erlaubt ist) zur Vermeidung von Fehlern beitragen. Bei der Digitalisierung von analogen Inhalten (z. B. Eingabe von Papierfragebögen) kann es zudem helfen, dies von zwei Personen unabhängig voneinander durchführen zu lassen und dann die Ergebnisse zu vergleichen. 

Wichtig ist es außerdem, zu dokumentieren, wer, wann, zu welchem Zweck, was und womit gemessen oder modelliert hat. Diese Informationen sind in den sogenannten Metadaten enthalten. Diese sind oft implizit durch den Projektkontext gegeben und werden in wissenschaftlichen Veröffentlichungen mit dokumentiert (z. B. im Methodenteil). Darüber hinaus sollten Metadaten in einem geeigneten Format auch immer die Datensätze begleiten (siehe auch Kapitel „Metadaten und Metadatenstandard“). Insbesondere bei groß angelegten Projekten bzw. solchen mit einer langen Laufzeit, empfiehlt es sich ein Qualitätssicherungskonzept zu erarbeiten und zu implementieren.



No comment has been posted yet.