Neben Vektoren und Faktoren und gibt es noch den für uns wichtigen Objekttyp data frame. Ein data frame ist einfach eine Verbindung mehrerer Vektoren (Variablen) derselben Länge in einer Matrix. Im konventionellen Format (wide-Format) sind in den Spalten die Variablen vorzufinden und in den Zeilen die Befragten
Spalten: Vektoren, Faktoren (Variablen)
Zeilen: Fälle (einzelne Beobachtungseinheiten, z.B. Befragte)
Machen wir das ganze am Beispiel des Datensatzes, den wir während des Kurses benutzen werden: Panem Social Survey (pss
). Dies ist ein Trainingsdatensatz ausgerichtet am European Social Survey, der aber deutlich weniger Variablen/Fälle beinhaltet (hier nur 10 Fälle und 4 Variablen):
idno | district | gndr | agea |
---|---|---|---|
10000 | Distrikt 1 | male | 41 |
10001 | Distrikt 1 | male | 65 |
10002 | Distrikt 1 | male | 48 |
10003 | Distrikt 1 | female | 49 |
10004 | Distrikt 1 | female | 48 |
10005 | Distrikt 1 | female | 64 |
10006 | Distrikt 1 | male | 63 |
10007 | Distrikt 1 | female | 70 |
10008 | Distrikt 1 | female | 80 |
10009 | Distrikt 1 | male | 57 |
Hier im Beispiel haben wir im Datensatz vier Variablen: idno
, district
, gndr
sowie agea
. Diese sind selbsterklärend: idno
ist die unique ID, district
ist der Bezirk des Befragten, gndr
das Geschlecht und agea
das Alter. Oftmals sind Variablen nicht intuitiv herleitbar, so dass man ein Codebook konsultieren muss. Mit dem Handling von größeren Datensätzen werden wir uns im nächsten Lernblock beschäftigen.
Auf geht’s zur abschließenden Challenge!