Dataframes

Neben Vektoren und Faktoren und gibt es noch den für uns wichtigen Objekttyp data frame. Ein data frame ist einfach eine Verbindung mehrerer Vektoren (Variablen) derselben Länge in einer Matrix. Im konventionellen Format (wide-Format) sind in den Spalten die Variablen vorzufinden und in den Zeilen die Befragten

  • Spalten: Vektoren, Faktoren (Variablen)

  • Zeilen: Fälle (einzelne Beobachtungseinheiten, z.B. Befragte)

Machen wir das ganze am Beispiel des Datensatzes, den wir während des Kurses benutzen werden: Panem Social Survey (pss). Dies ist ein Trainingsdatensatz ausgerichtet am European Social Survey, der aber deutlich weniger Variablen/Fälle beinhaltet (hier nur 10 Fälle und 4 Variablen):

idno district gndr agea
10000 Distrikt 1 male 41
10001 Distrikt 1 male 65
10002 Distrikt 1 male 48
10003 Distrikt 1 female 49
10004 Distrikt 1 female 48
10005 Distrikt 1 female 64
10006 Distrikt 1 male 63
10007 Distrikt 1 female 70
10008 Distrikt 1 female 80
10009 Distrikt 1 male 57

Hier im Beispiel haben wir im Datensatz vier Variablen: idno, district, gndr sowie agea. Diese sind selbsterklärend: idno ist die unique ID, district ist der Bezirk des Befragten, gndr das Geschlecht und agea das Alter. Oftmals sind Variablen nicht intuitiv herleitbar, so dass man ein Codebook konsultieren muss. Mit dem Handling von größeren Datensätzen werden wir uns im nächsten Lernblock beschäftigen.

Auf geht’s zur abschließenden Challenge!