Beim Zwei-Stichproben t-Test musst du unterscheiden, ob es sich um gepaarte oder ungepaarte Stichproben handelt.
In dieser Testsituation werden zwei verschiedene Gruppen innerhalb einer Stichprobe (z.B. nach Geschlecht) getestet. Beide Gruppen sind nicht verbunden bzw. nicht gepaart. Die Antwort des einen Falles ist nicht durch die Antwort anderer Fälle beeinflusst bzw. steht nicht in Verbindung dazu.
Wir möchten testen, inwieweit die vertragliche Arbeitszeit (wkhtot
) sich zwischen Männern und Frauen (gndr
) in der Stichprobe unterscheidet.
Wie sind die Variablen kodiert? Prüfe es im Codebook:
Um den Test zu berechnen, müssen zwei Annahmen geprüft werden:
Varianzgleichheit (Levene-Test)
Normalverteilung der metrischen Variable (uV)
Die zweite Annahme muss nur getestet werden, wenn \(n < 30\). In Situationen mit \(n > 30\) liefert der Test asymptotisch korrekte Ergebnisse.
Um zu prüfen, ob Varianzgleichheit vorliegt, berechnest du den Levene-Test. Hierzu nutzt du die Funktion leveneTest()
aus der library car
:
install.packages("car")
library("car")
leveneTest(
pss$wkhtot,
pss$gndr,
center = "mean"
)
## Levene's Test for Homogeneity of Variance (center = "mean")
## Df F value Pr(>F)
## group 1 0.5405 0.4623
## 4998
Wie wird der Test interpretiert?
Die Nullhypothese des Tests (\(H_0\)) lautet, dass beide Gruppen in der metrischen Variable gleiche Varianzen haben. Ein p-Wert unter \(0.05\) erfordert die Ablehnung der Nullhypothese und daher sind keine gleichen Varianzen anzunehmen. In der Berechnung des Tests musst du diese Eigenschaft angeben.
Nun nutzt du wieder die Funktion t.test()
, um den Test zu berechnen. Dabei werden die zwei Variablen nicht über ein Komma als Argument getrennt, sondern als Formel angegeben. Hierbei steht die metrische Variable zuerst, als zweites folgt die kategorielle Variable (mit nur zwei Gruppen!). Getrennt wird dies durch eine ~
(Tilde). Du nimmst standardmäßig eine Differenz von \(0\) an (mu = 0
) und im Argument paired = FALSE
gibst du an, dass es sich um ungepaarte Stichproben handelt. Das Ergebnis des Levene-Tests wird im letzten Argument angegeben: var.equal = TRUE
, denn es liegt ja Varianzgleichheit vor.
t.test(
pss$wkhtot ~ pss$gndr,
mu = 0,
alternative = "two.sided",
paired = FALSE, # ungepaarte Stichproben!
var.equal = TRUE # Option des Levene-Tests!
)
##
## Two Sample t-test
##
## data: pss$wkhtot by pss$gndr
## t = 1.3509, df = 4998, p-value = 0.1768
## alternative hypothesis: true difference in means between group female and group male is not equal to 0
## 95 percent confidence interval:
## -0.1436357 0.7803096
## sample estimates:
## mean in group female mean in group male
## 34.46080 34.14246
Du siehst jetzt die folgenden Werte:
\(t = 1.3509\) (t-value)
\(p \approx 0.1768\) (p-value)
\(CI\approx[-0.1436357, 0.7803096]\) (confidence interval)
Group female \(\approx 34.46080\)
Group male \(\approx 34.14246\)
Im Durchschnitt haben Männer etwas weniger (\(0.31834\)), aber die Differenz ist nicht statistisch signifikant.
Nun möchten wir diesen Test mit einer Variable durchführen, die mehr als zwei Ausprägungen (also Gruppen) inkludiert. Um einen t-Test berechnen zu können, musst du zwei Gruppen festlegen.
Wir möchten nun den Unterschied nach Bildungsabschluss testen (edu
). Die Kodierungen können dem Codebook entnommen werden. Insgesamt hat die Variable \(5\) Ausprägungen. Wir wählen einfach zwei Gruppen aus, die wir vergleichen möchten.
Auch hier musst du wieder den Test auf Varianzgleichheit zuerst durchführen:
# Test of homogeneity of variances
leveneTest(
pss$wkhtot,
pss$edu,
center = "mean"
)
## Levene's Test for Homogeneity of Variance (center = "mean")
## Df F value Pr(>F)
## group 4 0.4981 0.7372
## 4643
Nun kannst du den t-Test durchführen. Bevor du diesen durchführst, musst du dich noch für zwei Gruppen aus der neuen Variable entscheiden. Du vergleichst den niedrigsten und den höchsten Abschluss. Da wir nur bestimmte Gruppen vergleichen, können wir nicht die Formelschreibweise verwenden. Stattdessen gibst du die metrische Variable zweimal an, wobei du die Daten mit [] auf die jeweilige Gruppe beschränkst:
t.test(
pss$wkhtot[pss$edu == "ES-ISCED I"],
pss$wkhtot[pss$edu == "ES-ISCED V"],
mu = 0,
alternative = "two.sided",
paired = FALSE,
var.equal = TRUE
)
##
## Two Sample t-test
##
## data: pss$wkhtot[pss$edu == "ES-ISCED I"] and pss$wkhtot[pss$edu == "ES-ISCED V"]
## t = 9.723, df = 1078, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## 4.492021 6.763452
## sample estimates:
## mean of x mean of y
## 36.19636 30.56863
Wie interpretierst du das Ergebnis? Was ist die Differenz?
Es ist zu sehen, dass im Durchschnitt Personen mit geringerer Bildung (mean of x) mehr arbeiten als Personen mit höherer Bildung (mean of y). Der Effekt ist signifikant und die Differenz beträgt (5.62773) Stunden.
Nun soll ein gepaarter Zwei-Stichproben t-Test durchgeführt werden. Gepaart bedeutet, dass die Werte der einen Gruppe in Relation zu den Werten der anderen Gruppe stehen. Dies ist z.B. der Fall wenn ein:e Befragte:r eine Frage an zwei verschiedenen Zeitpunkten beantwortet hat, oder jede Person aus Gruppe A eine Person aus Gruppe B zugeordnet werden kann (Mutter <-> Kind, Partner). Es gibt den Datensatz pss2
, der zwei Jahre nach dem eigentlichen Datensatz (mit denselben Befragten) erhoben wurde und wir möchten nun testen, ob sich die Mittelwerte im zeitlichen Verlauf signifikant unterschieden
Überprüfen der Annahmen
Variablen sind metrisch \(\checkmark\)
Differenz folgt einer Normalverteilung (relevant für \(n \leq 30\)) (\(\checkmark\))
Es ist ganz leicht, denn jetzt nutzt du wieder die Funktion t.test()
. Du musst nur das Argument paired
ändern:
t.test(
pss$trstprl,
pss2$trstprl,
alternative = "two.sided",
paired = TRUE
)
##
## Paired t-test
##
## data: pss$trstprl and pss2$trstprl
## t = NaN, df = 4964, p-value = NA
## alternative hypothesis: true mean difference is not equal to 0
## 95 percent confidence interval:
## NaN NaN
## sample estimates:
## mean difference
## 0
Ergebnisinterpretation: Im Durchschnitt unterschieden sich das Vertrauen in das Parlament zwischen den zwei Erhebungen nicht.
Gehe nun zu Testsituationen mit mehr als zwei Gruppen!