Bevor du dich an die Berechnung von Zusammenhangsmaßen machst, erstellst du nun zuerst Tabellen. Dies ist manchmal für die grafische Darstellung relevant. Oftmals werden zur Darstellung Tabellen gewählt, die Häufigkeiten von Variablen ausgeben. Für eine einfache (Häufigkeits-)Tabelle rufen wir die Funktion table()
auf:
table(pss$stfdem)
##
## 0 1 2 3 4 5 6 7 8 9 10
## 226 268 436 618 754 850 631 522 338 179 83
Die erste Zeile beinhaltet die Code-Werte, die zweite die Häufigkeiten. Aufgelistet sind hier die gültigen Fälle, also die jeder Ausprägung, die nicht NA gesetzt ist.
Wie viele gültige Fälle haben wir? Wie viele NA’s?
Um dies zu testen, nutzen wir die Funktionen sum()
und length()
:
# gültige Fälle aus der Tabelle
sum(
table(
pss$stfdem
)
)
## [1] 4905
# Summe der NA's
sum(
is.na(
pss$stfdem
)
)
## [1] 95
# Gesamtlänge: Gültige Fälle + NA's
length(pss$stfdem)
## [1] 5000
Alternativ kann man die Funktion table()
auch um das Argument useNA = "ifany"
erweitern:
table(
pss$stfdem,
useNA = "ifany"
)
##
## 0 1 2 3 4 5 6 7 8 9 10 <NA>
## 226 268 436 618 754 850 631 522 338 179 83 95
summarytools
Um eine strukturierte Ausgabe zu erhalten, kann die library summarytools
genutzt werden. Man erhält in etwa eine Ansicht wie in SPSS. Die library muss zuerst installiert bzw. geladen werden:
install.packages("summarytools")
library("summarytools")
Dann wird die Funktion freq()
genutzt:
freq(pss$stfdem)
## Frequencies
## pss$stfdem
## Type: Numeric
##
## Freq % Valid % Valid Cum. % Total % Total Cum.
## ----------- ------ --------- -------------- --------- --------------
## 0 226 4.61 4.61 4.52 4.52
## 1 268 5.46 10.07 5.36 9.88
## 2 436 8.89 18.96 8.72 18.60
## 3 618 12.60 31.56 12.36 30.96
## 4 754 15.37 46.93 15.08 46.04
## 5 850 17.33 64.26 17.00 63.04
## 6 631 12.86 77.13 12.62 75.66
## 7 522 10.64 87.77 10.44 86.10
## 8 338 6.89 94.66 6.76 92.86
## 9 179 3.65 98.31 3.58 96.44
## 10 83 1.69 100.00 1.66 98.10
## <NA> 95 1.90 100.00
## Total 5000 100.00 100.00 100.00 100.00
In der ersten Spalte sind die Code-Werte eingetragen. In der zweiten sind die Häufigkeiten angegeben, in der dritten die Prozente (von gültigen Fällen) und in der vierten Spalte die kumulierten Prozente (von gültigen Fällen). Spalte \(5\) und \(6\) geben die Prozente bzw. kumulierten Prozente von allen Fällen (auch NA's
) wieder.
Im nächsten Schritt lernst du Kreuztabellen kennen!