Speicherarten von Daten

Wie bereits in Lernblock 1 besprochen, haben Dateien immer Dateiendungen, die auf das Lese-/Schreibformat hinweisen. Dies waren zur Erinnerung zum Beispiel .docx für Word-Dateien oder .pptx für Powerpoint-Dateien.

Für Datensätze gibt es globale Dateiformate, die von den meisten Programmen gelesen werden können, aber auch programmspezifische Dateiformate.

Globale Dateiformate sind zum Beispiel:

  • .txt (Textdateien, in der Daten meist mit einem Tabulator getrennt sind)

  • .csv (Komma-getrennte Werte)

In R gibt es zwei wichtige Dateiformate: .RData und .rds. Dateien mit der Endung .RData können mehrere Objekte beinhalten, dies nutzt man zum Beispiel, wenn man am Ende seines Skripts alle Objekte in einer einzigen Datei speichern möchte. Das Format .rds ist ein komprimiertes Dateiformat, in dem immer nur ein einziges Objekt gespeichert werden kann. Für die Verbreitung von Datensätzen ist dies das häufigste Format, das in R genutzt wird.

Leider ist es immer noch so, dass manche öffentlich zugängliche Datensätze lediglich in einem SPSS-konformen Dateiformat (.sav) zur Verfügung gestellt werden. Dies ist aber kein Problem, denn mithilfe einer library können wir RStudio Funktionen hinzufügen, die auch dieses Dateiformat lesen können.

Was ist eigentlich eine library? R ist eine open-source-language, in der jede Anwender:in neue Funktionen schreiben kann und diese der Welt zur Verfügung stellen kann. Bei der Installation werden lediglich die Basis-Funktionen mit installiert, die nur einen Bruchteil des Anwendungsumfangs darstellen. Dies ist eine der Stärken gegenüber SPSS oder auch Stata, denn so können viele Anwendungsfälle inkludiert werden. Es ist aber auch gleichzeitig am Anfang ein großer Dschungel, denn da viele Personen auf gleiche Probleme gestoßen sind, gibt es immer mehr als eine Lösung bzw. mehr als eine mögliche library, die hinzugefügt werden kann. In diesem Kurs werden wir keinen kompletten Überblick über verschiedene libraries für das gleiche Problem darstellen, sondern immer nur die von uns präferierte library vorstellen. Das muss dich aber nicht abhalten, nach einer anderen library zu suchen und den Lösungsweg darüber zu finden.

Åuf der offiziellen Library-Website werden derzeit (Stand: März 2022) 18994 verschiedene libraries gelistet, die zusätzliche Funktionen beinhalten, um so statistische Anwendungen durchzuführen. Daneben gibt es noch etliche libraries im Entwicklungsstadium, die man aber auch bereits meist nutzen kann. Das ist aber wiedeurm nur etwas für erfahrene Nutzer:innen - also für dich nach diesem Kurs.

Im folgenden werden wir jetzt unterschiedliche Datensatz-Dateiformate in R importieren, um im Anschluss damit zu arbeiten.