In Statistik I hast du ja bereits die z-Standardisierung kennengelernt und Verteilungen von Variablen besser vergleichen zu können. Die z-Standardisierung rekodiert eine Variable auf die Einheit Standardabweichung, so dass Variablen, die z-standardisiert sind, vergleichbar sind.
Nicht rekodierte Variablen liefern in R auch nicht-standardisierte Regressionskoeffizienten. Du hast dies an der Interpretation der Regressionsergebnisse gesehen: Du hast immer in der Einheit der Variablen ausgewertet. Nachteil von nicht-standardisierten Variablen ist, dass die Effekte nicht in der Stärke untereinander vergleichbar sind. Dies geht nur mit standardisierten Variablen.
In manchen (oft komplexeren) Modellen möchten wir die Stärke der einzelnen unabhängigen Variablen bewerten. Da die Variablen nicht dieselbe Einheit besitzen, ist dies wie oben erklärt nicht so einfach möglich. Wir können die Variablen aber standardisieren, so dass alle Variablen dieselbe Einheit besitzen (Standardabweichungen). Dazu nutzt du am besten die Funktion scale()
aus dem tidyverse (dplyr
). In komplexeren Regressionsmodellen oder erweiterten Modellen (wie Multi-Level-Modellen) standardisiert man die Variablen meist vor der Berechnung des Modells.
Machen wir diesen Schritt nun für die Variablen im olsModel2
:
pss <- pss %>%
mutate(
stfdemZ = scale(stfdem),
stfecoZ = scale(stfeco),
trstlglZ = scale(trstlgl)
)
Wir berechnen das Modell anschließend erneut mit den neuen Variablen:
olsModel2Z <- lm(
stfdemZ ~ 1 + stfecoZ + trstlglZ,
data = pss
)
Wie interpretieren wir das Ergebnis?
summary(olsModel2Z)
##
## Call:
## lm(formula = stfdemZ ~ 1 + stfecoZ + trstlglZ, data = pss)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.42296 -0.46136 0.01681 0.49498 2.47445
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.004028 0.010511 0.383 0.70155
## stfecoZ 0.697244 0.010815 64.468 < 2e-16 ***
## trstlglZ -0.033592 0.010517 -3.194 0.00141 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7352 on 4890 degrees of freedom
## (107 observations deleted due to missingness)
## Multiple R-squared: 0.4598, Adjusted R-squared: 0.4596
## F-statistic: 2081 on 2 and 4890 DF, p-value: < 2.2e-16
Ergebnis: Mit jedem Anstieg um eine Standardabweichung in stfeco
steigt stfdem
um \(0.697244\) Standardabweichungen. Wie zu sehen ist, ist die Interpretation etwas schwerfälliger. Aber nun können die einzelnen Effekte zwischen metrischen Variablen verglichen werden. Es wird sichtbar, dass der Effekt von stfeco
stärker ist als der von trstlgl
(\(0.697244 > |-0.033592|\)).