Multivariate lin. Regression mit dichotomen kategoriellen Variablen

In den Sozialwissenschaften nutzen wir oftmals Variablen mit nominalem oder ordinalem Skalenniveau. Diese können wir auch in das lineare Regressionsmodell als unabhängige Variable hinzufügen. Wir müssen nur verstehen, welchen zusätzlichen Effekt wir berechnen. Wir müssen Dummy-Variablen kreieren, die den Unterschied einer Ausprägung auf der Variablen in Referenz zu einer anderen Ausprägung angeben (Referenzkategorie). In der Funktion lm() ist dies leicht umzusetzen.

Wir möchten die Variable gndr mit in unser Modell aufnehmen (female/male). Welche theoretische Annahme können wir über den Effekt treffen?

Was gleichen wir in der Regressionsgleichung an?

Wie wir bereits wissen, hat eine dichotome Variable keine lineare Beziehung zu einer metrischen Variable. Deshalb benötigen wir Dummy-Variablen. Wir berechnen ein Modell, in dem der zusätzliche Effekt einer Ausprägung gegenüber der anderen Ausprägung geschätzt wird. Dieser Effekt ist ein konstanter Effekt!.

Die Variable gndr hat folgende Ausprägungen:

  • female

  • male

Berechnen des Modells

Auch hier müssen wir entsprechend der erweiterten Gleichung nur die Variable gndr hinzufügen:

olsModel3 <- lm(
  stfdem ~ 1 + stfeco + trstlgl + gndr,   
  data = pss
)            

summary(olsModel3)
## 
## Call:
## lm(formula = stfdem ~ 1 + stfeco + trstlgl + gndr, data = pss)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.7490 -1.0846  0.0411  1.1642  5.7898 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.70975    0.09539   7.440 1.18e-13 ***
## stfeco       0.87435    0.01356  64.496  < 2e-16 ***
## trstlgl     -0.04137    0.01319  -3.136  0.00173 ** 
## gndrmale    -0.08020    0.04957  -1.618  0.10573    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.732 on 4889 degrees of freedom
##   (107 observations deleted due to missingness)
## Multiple R-squared:  0.4601,	Adjusted R-squared:  0.4598 
## F-statistic:  1389 on 3 and 4889 DF,  p-value: < 2.2e-16

Was ist die Referenzkategorie?

Welchen Effekt berechnen wir mit der Variable gndrmale?

Die Referenzkategorie ist female, also weibliche Befragte.

Der zusätzliche Effekt ist für Personen berechnet, die männlich sind (gegenüber weiblichen Personen). Männliche Personen haben also eine um \(-0.08020\) niedrige Zufriedenheit als weibliche Personen.

Wie interpretieren wir das Modell?

Schreibe ein paar Zeilen in das Skript!

Das Modell erklärt \(45.98 %\) der Varianz in der Variable stfdem. Die Zufriedenheit mit der ökonomischen Leistung (stfeco) sowie das Vertrauen in das Rechtssystem (trstlgl) haben einen signifikanten Effekt auf die Zufriedenheit mit der Demokratie (stfdem). Der Effekt von stfeco ist positiv (\(\beta_1 = 0.87435\)), der Effekt von Vertrauen in das Rechtssystem (\(\beta_2 = -0.04137\)) und der Effekt für männliche Personen (\(\beta_3 = -0.08020\)) sind beide negativ. Personen, die ein höheres Vertrauen haben oder männlich sind, haben also einge leicht geringere Zufriedenheit.

Wenn du jetzt nochmal die Formel oben vergleichst mit der Aufgabe, sollte dir etwas auffallen! Was muss an der Formel geändert werden, damit diese tatsächlich auf das Regressionmodell passt?

Warum das relevant ist, siehst du auf der nächsten Seite! Jetzt hast du gelernt, wie du dichotome kategorielle Variablen in das Regressionsmodell aufnimmst, doch wie funktioniert es mit polytomen kategoriellen Variablen?