Multivariate lin. Regression mit polytomen kategoriellen Variablen

Wir können nicht nur dichotome, sondern auch polytome kategorielle Variablen in das Regressionsmodell hinzufügen. Wir möchten nun die Variable edu ins Modell aufnehmen. Diese Variable beinhaltet den höchsten Bildungsabschluss der befraten Person. Welche theoretischen Annahmen könnten wir für den Effekt von edu treffen?

Berechnen des Modells

Wir fügen einfach die Variable, wie zuvor, in der lm()-Funktion hinzu:

olsModel4 <- lm(
    stfdem ~ 1 + stfeco + trstlgl + gndr + edu,   
    data = pss
)
summary(olsModel4)
## 
## Call:
## lm(formula = stfdem ~ 1 + stfeco + trstlgl + gndr + edu, data = pss)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.7867 -1.1246  0.0123  1.1391  5.8527 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      0.535964   0.112218   4.776 1.84e-06 ***
## stfeco           0.854641   0.014166  60.332  < 2e-16 ***
## trstlgl         -0.044393   0.013572  -3.271  0.00108 ** 
## gndrmale         0.001836   0.051229   0.036  0.97142    
## eduES-ISCED II   0.168395   0.076925   2.189  0.02864 *  
## eduES-ISCED III  0.343037   0.076832   4.465 8.21e-06 ***
## eduES-ISCED IV   0.419061   0.085739   4.888 1.06e-06 ***
## eduES-ISCED V    0.870502   0.125865   6.916 5.29e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.716 on 4542 degrees of freedom
##   (450 observations deleted due to missingness)
## Multiple R-squared:  0.4643,	Adjusted R-squared:  0.4635 
## F-statistic: 562.3 on 7 and 4542 DF,  p-value: < 2.2e-16

Wie hat die Funktion lm() die polytome Variable in das Modell eingefügt?

Was ist die Referenzkategorie?

Und wie würde die Gleichung der Regression aussehen?

Es wird der zusätzliche Effekt von den vier höchsten Ausprägungen (ES-ISCED II, ES-ISCED III, ES-ISCED IV und ES-ISCED V) gegenüber der niedrigsten Ausprägung (ES-ISCED I) berechnet.

Die Referenzkategorie ist daher ES-ISCED I (ausgelassene Ausprägung).

\[\begin{align*}stfdem = &\beta_0 + \beta_1*stfeco + \beta_2*trstlgl + \beta_3*gndr + \\ &\beta_4*eduLevelII + \beta_5*eduLevelIII + \\ &\beta_6*eduLevelIV + \beta_7*eduLevelV + \\&e \end{align*}\]

Ändern der Referenzkategorie

In diesem Beispiel wurde automatisch die niedrigste (bzw. erste) Ausprägung als Referenzkategorie gewählt. Doch was, wenn du z.B. die mittlere Kategorie (ES-ISCED III) als Referenz haben möchtest? Dies kannst du einfach mit der Funktion relevel() ändern. Dazu gibst du im ersten Argument die Datenquelle an (Variable pss$edu) und im zweiten Argument ref die entsprechende Ausprägung (also "ES-ISCED III"). Wichtig: Du musst das natürlich mit den Anweisungpfeil in der Variable im Datensatz speichern!

pss$edu <- relevel(
  pss$edu, 
  ref = "ES-ISCED III"
) 

Dann musst du nur das Modell erneut berechnen:

olsModel5 <- lm(
  stfdem ~ 1 + stfeco + trstlgl + gndr + edu,
  data = pss
)

summary(olsModel5)
## 
## Call:
## lm(formula = stfdem ~ 1 + stfeco + trstlgl + gndr + edu, data = pss)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.7867 -1.1246  0.0123  1.1391  5.8527 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     0.879001   0.106299   8.269  < 2e-16 ***
## stfeco          0.854641   0.014166  60.332  < 2e-16 ***
## trstlgl        -0.044393   0.013572  -3.271  0.00108 ** 
## gndrmale        0.001836   0.051229   0.036  0.97142    
## eduES-ISCED I  -0.343037   0.076832  -4.465 8.21e-06 ***
## eduES-ISCED II -0.174643   0.066577  -2.623  0.00874 ** 
## eduES-ISCED IV  0.076024   0.075825   1.003  0.31610    
## eduES-ISCED V   0.527465   0.119052   4.431 9.62e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.716 on 4542 degrees of freedom
##   (450 observations deleted due to missingness)
## Multiple R-squared:  0.4643,	Adjusted R-squared:  0.4635 
## F-statistic: 562.3 on 7 and 4542 DF,  p-value: < 2.2e-16

Interpretiere das respezifizierte Modell. Schreibe ein paar Sätze in das Skript.

Das Modell erklärt \(46.35 %\) der Varianz in stfdem. Der Effekt von stfeco ist positiv und signifikant (\(p<0.001\)). Personen mit höherem Vertrauen in das Rechtssystem haben eine geringe Zufriedenheit (\(\beta_2 = -0.044393\), \(p<0.01\)). Männliche und weibliche Befragte haben keine unterschiedliche Zufriedenheit (\(\beta_3 = 0.001836\). \(p>0.05\)). Im Vergleich zu Personen mit mittlerem Bildungsabschluss, haben Personen mit sehr niedrigem Abschluss (ES-ISCED I) und niedrigem Bildungsabschluss (ES-ISCED II) ein geringeres Vertrauen (\(\beta_4 = -0.343037\) bzw. \(\beta_5 = -0.174643\)). Beide Effekte sind signifikant. Personen mit dem höchsten Bildungsabschluss haben ein deutlich höheres Vertrauen als Personen mit mittlerem Bildungsabschluss (\(\beta_7 = 0.527465\), \(p<0.001\)). Personen mit dem zweithöchsten Abschluss haben ein geringfügig höheres Vertrauen (\(\beta_6 = 0.076024\)), dieser Effekt ist aber nicht signifikant.

So du kannst jetzt also auch schon polytome kategorielle Variablen hinzufügen und das Regressionsmodell in der Ausgabe in R interpretieren!