Ein-Stichproben-T-Test

Der Einstichproben-t-Test wird berechnet, um zu testen, ob der empirische Wert signifikant vom wahren Wert \(\mu\) abweicht. Du benötigst also Kenntnisse über \(\mu\).

Nimm an, dass das Statistikamt das offizielle Durchschnittsalter mit \(36.8\) Jahren angibt.

Welchen Wert nimmt das arithm. Mittel des Alters in unserem Datensatz an? Die Variable des Alters heißt agea.

Berechne den arithmetischen Mittelwert des Alters aus dem Datensatz PSS!

mean(
pss$agea,
na.rm = TRUE
)

Im Datensatz liegt das Durchschnittsalter bei (42.83006) Jahren. Der Wert weicht also im Datensatz ab.

Überlege dir kurz, warum der Wert im Datensatz abweichen könnte!

Jetzt möchtest du testen, ob diese Abweichung statistisch signifikant ist. Dafür gibt es bei jedem Mittelwertvergleich zwei Testsituationen:

  • zweiseitig

  • einseitig (größer oder kleiner)

Du möchtest erstmal nur wissen, ob der Wert signifikant abweicht. Über die Richtung gibt es keine Annahme. Daher führst du einen zweiseitigen Test durch.

Das kannst du mit der Funktion t.test() machen:

t.test(
  pss$agea, 
  mu = 36.8,
  alternative = "two.sided"
)  
## 
## 	One Sample t-test
## 
## data:  pss$agea
## t = 31.273, df = 4842, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 36.8
## 95 percent confidence interval:
##  42.45205 43.20808
## sample estimates:
## mean of x 
##  42.83006

Dann siehst du den t-value, den p-value, das confidence interval und den mean.

Der p-Wert ist kleiner als \(0.05\) und damit erhälst du ein signifikantes Testergebnis. Als Wert siehst du in der Ausgabe 2.2e-16. Das ist nichts anderes als 2.2*10^{-16} und das bedeutet nur, dass du das Komma um 16 Stellen nach links verschieben musst. Es ist also ein Wert sehr nahe an \(0\). Du kannst also darauf schließen, dass der Mittelwert des Alters aus der Stichprobe signifikant von \(\mu\) abweicht. Woran das liegen könnte, haben wir oben schon geklärt!

Du kannst die Differenz auch mithilfe von R ausrechnen lassen:

diff_age <- mean(pss$agea, na.rm = TRUE) - 36.8

diff_age
## [1] 6.030064

Die Differenz beträgt \(6.030064\). Da \(\mu\) sich auf alle Personen in Panem bezieht und die Stichprobe dagegen nur Personen ab \(16\) inkludiert, ist diese Differenz leicht zu erklären.

Testalternativen

Alternativ kann auch einseitig getestet werden:

  • wenn wir annehmen, dass der Wert größer als \(\mu\) ist greater

  • wenn wir annehmen, dass der Wert kleiner als \(\mu\) ist less.

# one-sided, greater
t.test(
  pss$agea, 
  mu = 36.8, 
  alternative = "greater"
)
## 
## 	One Sample t-test
## 
## data:  pss$agea
## t = 31.273, df = 4842, p-value < 2.2e-16
## alternative hypothesis: true mean is greater than 36.8
## 95 percent confidence interval:
##  42.51284      Inf
## sample estimates:
## mean of x 
##  42.83006
# one-sided, lower
t.test(
  pss$agea,
  mu = 36.8, 
  alternative = "less"
)
## 
## 	One Sample t-test
## 
## data:  pss$agea
## t = 31.273, df = 4842, p-value = 1
## alternative hypothesis: true mean is less than 36.8
## 95 percent confidence interval:
##      -Inf 43.14729
## sample estimates:
## mean of x 
##  42.83006

Gehen wir über zum t-Test für zwei Stichproben!