Lernblock 1 > Einstieg in die Sprache R > Dataframes

Dataframes

Neben Vektoren und Faktoren und gibt es noch den für uns wichtigen Objekttyp data frame. Ein data frame ist einfach eine Verbindung mehrerer Vektoren (Variablen) derselben Länge in einer Matrix. Im konventionellen Format (wide-Format) sind in den Spalten die Variablen vorzufinden und in den Zeilen die Befragten

Spalten: Vektoren, Faktoren (Variablen)
Zeilen: Fälle (einzelne Beobachtungseinheiten, z.B. Befragte)

Machen wir das ganze am Beispiel des Datensatzes, den wir während des Kurses benutzen werden: Panem Social Survey (pss). Dies ist ein Trainingsdatensatz ausgerichtet am European Social Survey, der aber deutlich weniger Variablen/Fälle beinhaltet (hier nur 10 Fälle und 4 Variablen):

idno	district	gndr	agea
10000	Distrikt 1	male	41
10001	Distrikt 1	male	65
10002	Distrikt 1	male	48
10003	Distrikt 1	female	49
10004	Distrikt 1	female	48
10005	Distrikt 1	female	64
10006	Distrikt 1	male	63
10007	Distrikt 1	female	70
10008	Distrikt 1	female	80
10009	Distrikt 1	male	57

Hier im Beispiel haben wir im Datensatz vier Variablen: idno, district, gndr sowie agea. Diese sind selbsterklärend: idno ist die unique ID, district ist der Bezirk des Befragten, gndr das Geschlecht und agea das Alter. Oftmals sind Variablen nicht intuitiv herleitbar, so dass man ein Codebook konsultieren muss. Mit dem Handling von größeren Datensätzen werden wir uns im nächsten Lernblock beschäftigen.

Auf geht’s zur abschließenden Challenge!