Wir können nicht nur dichotome, sondern auch polytome kategorielle Variablen in das Regressionsmodell hinzufügen. Wir möchten nun die Variable edu
ins Modell aufnehmen. Diese Variable beinhaltet den höchsten Bildungsabschluss der befraten Person. Welche theoretischen Annahmen könnten wir für den Effekt von edu
treffen?
Wir fügen einfach die Variable, wie zuvor, in der lm()
-Funktion hinzu:
olsModel4 <- lm(
stfdem ~ 1 + stfeco + trstlgl + gndr + edu,
data = pss
)
summary(olsModel4)
##
## Call:
## lm(formula = stfdem ~ 1 + stfeco + trstlgl + gndr + edu, data = pss)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.7867 -1.1246 0.0123 1.1391 5.8527
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.535964 0.112218 4.776 1.84e-06 ***
## stfeco 0.854641 0.014166 60.332 < 2e-16 ***
## trstlgl -0.044393 0.013572 -3.271 0.00108 **
## gndrmale 0.001836 0.051229 0.036 0.97142
## eduES-ISCED II 0.168395 0.076925 2.189 0.02864 *
## eduES-ISCED III 0.343037 0.076832 4.465 8.21e-06 ***
## eduES-ISCED IV 0.419061 0.085739 4.888 1.06e-06 ***
## eduES-ISCED V 0.870502 0.125865 6.916 5.29e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.716 on 4542 degrees of freedom
## (450 observations deleted due to missingness)
## Multiple R-squared: 0.4643, Adjusted R-squared: 0.4635
## F-statistic: 562.3 on 7 and 4542 DF, p-value: < 2.2e-16
Wie hat die Funktion lm()
die polytome Variable in das Modell eingefügt?
Was ist die Referenzkategorie?
Und wie würde die Gleichung der Regression aussehen?
Es wird der zusätzliche Effekt von den vier höchsten Ausprägungen (ES-ISCED II
, ES-ISCED III
, ES-ISCED IV
und ES-ISCED V
) gegenüber der niedrigsten Ausprägung (ES-ISCED I
) berechnet.
Die Referenzkategorie ist daher ES-ISCED I
(ausgelassene Ausprägung).
\[\begin{align*}stfdem = &\beta_0 + \beta_1*stfeco + \beta_2*trstlgl + \beta_3*gndr + \\ &\beta_4*eduLevelII + \beta_5*eduLevelIII + \\ &\beta_6*eduLevelIV + \beta_7*eduLevelV + \\&e \end{align*}\]
In diesem Beispiel wurde automatisch die niedrigste (bzw. erste) Ausprägung als Referenzkategorie gewählt. Doch was, wenn du z.B. die mittlere Kategorie (ES-ISCED III
) als Referenz haben möchtest? Dies kannst du einfach mit der Funktion relevel()
ändern. Dazu gibst du im ersten Argument die Datenquelle an (Variable pss$edu
) und im zweiten Argument ref
die entsprechende Ausprägung (also "ES-ISCED III"
). Wichtig: Du musst das natürlich mit den Anweisungpfeil in der Variable im Datensatz speichern!
pss$edu <- relevel(
pss$edu,
ref = "ES-ISCED III"
)
Dann musst du nur das Modell erneut berechnen:
olsModel5 <- lm(
stfdem ~ 1 + stfeco + trstlgl + gndr + edu,
data = pss
)
summary(olsModel5)
##
## Call:
## lm(formula = stfdem ~ 1 + stfeco + trstlgl + gndr + edu, data = pss)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.7867 -1.1246 0.0123 1.1391 5.8527
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.879001 0.106299 8.269 < 2e-16 ***
## stfeco 0.854641 0.014166 60.332 < 2e-16 ***
## trstlgl -0.044393 0.013572 -3.271 0.00108 **
## gndrmale 0.001836 0.051229 0.036 0.97142
## eduES-ISCED I -0.343037 0.076832 -4.465 8.21e-06 ***
## eduES-ISCED II -0.174643 0.066577 -2.623 0.00874 **
## eduES-ISCED IV 0.076024 0.075825 1.003 0.31610
## eduES-ISCED V 0.527465 0.119052 4.431 9.62e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.716 on 4542 degrees of freedom
## (450 observations deleted due to missingness)
## Multiple R-squared: 0.4643, Adjusted R-squared: 0.4635
## F-statistic: 562.3 on 7 and 4542 DF, p-value: < 2.2e-16
Interpretiere das respezifizierte Modell. Schreibe ein paar Sätze in das Skript.
Das Modell erklärt \(46.35 %\) der Varianz in stfdem
. Der Effekt von stfeco
ist positiv und signifikant (\(p<0.001\)). Personen mit höherem Vertrauen in das Rechtssystem haben eine geringe Zufriedenheit (\(\beta_2 = -0.044393\), \(p<0.01\)). Männliche und weibliche Befragte haben keine unterschiedliche Zufriedenheit (\(\beta_3 = 0.001836\). \(p>0.05\)). Im Vergleich zu Personen mit mittlerem Bildungsabschluss, haben Personen mit sehr niedrigem Abschluss (ES-ISCED I
) und niedrigem Bildungsabschluss (ES-ISCED II
) ein geringeres Vertrauen (\(\beta_4 = -0.343037\) bzw. \(\beta_5 = -0.174643\)). Beide Effekte sind signifikant. Personen mit dem höchsten Bildungsabschluss haben ein deutlich höheres Vertrauen als Personen mit mittlerem Bildungsabschluss (\(\beta_7 = 0.527465\), \(p<0.001\)). Personen mit dem zweithöchsten Abschluss haben ein geringfügig höheres Vertrauen (\(\beta_6 = 0.076024\)), dieser Effekt ist aber nicht signifikant.
So du kannst jetzt also auch schon polytome kategorielle Variablen hinzufügen und das Regressionsmodell in der Ausgabe in R interpretieren!