In den zwei Lernvideos wird zum einen gezeigt wie Dummy-Variablen grafisch zu interpretieren sind und wie Dummy-Variablen gebildet werden.
Nehmen wir ein weiteres Beispiel für dummykodierte Variablen mit ordinalen Skalenniveau: Wir möchten testen, welchen Einfluss - neben den bereits genutzten Variable (Alter, Arbeitszeit, Geschlecht) - der Schulabschluss auf das Einkommen einer Person hat. Der Schulabschluss ist in unserem Beispiel mit drei Merkmalsausprägungen kodiert:
\(1:Hauptschule\)
\(2:Realschule\)
\(3:(Fach−)Abitur\)
Welche Ausprägung die Referenzkategorie ist, liegt in der Entscheidung der Forscher:in. Oftmals wird entlang der gebildeten Hypothesen entschieden, welche Ausprägung die Referenzkategorie bildet, da so die vermutete Differenz zwischen den Merkmalsausprägungen getestet werden kann. Sollte eine Variable sehr viele Ausprägungen haben, ist es sinnvoll, Ausprägungen vorher zusammenzufassen.
In diesem Beispiel des Schulabschlusses könnte man den höchsten Abschluss (Fach-)Abitur als Referenzkategorie wählen und zwei Dummy-Variablen mit Hauptschule (Dummy-Variable 1) und Realschule (Dummy-Variable 2) in die Regressionsrechnung einfügen.
Im Beispiel ist (Fach-)Abitur die Referenzkategorie und die erste Dummy-Variable würde also die Steigerung/Minderung des Einkommens von Personen mit Hauptschulabschluss gegenüber Personen mit (Fach-)Abitur messen, die zweite Dummy-Variable von Personen mit Realschulabschluss in Referenz zu Personen mit (Fach-)Abitur. Beide Variablen sind \(0/1\)-kodiert, also mit Merkmal vorhanden (\(1\)) und Merkmal nicht vorhanden (\(0\)).
Die Schätzung einer einzelnen Beobachtung würde daher wie folgt aussehen:
\(Einkommen_i = \beta_0 + \beta_1 \ast Alter_i + \beta_2 \ast Arbeitszeit_i + \beta_3 \ast Geschlecht_i + \beta_4 * dummy_{HS_i} + \beta_5 * dummy_{RS_i}\)
Jetzt vergleichen wir die Gleichungen von verschiedenen Personen hinsichtlich ihrer Ausprägungen auf den Dummy-Variablen und nehmen an, dass alle Personen im Beispiel \(40\) Jahre alt sind und \(40\) Stunden arbeiten.
Beispiel 1: Person 1 ist weiblich und hat Abitur \(Einkommen_1 = \beta_0 + \beta_1 \ast 40 + \beta_2 \ast 40 + \beta_3 \ast 0 + \beta_4 * 0 + \beta_5 * 0 = \beta_0 + \beta_1 * 40 + \beta_2 * 40\)
Beispiel 2: Person 2 ist männlich und hat Realschulabschluss \(Einkommen_1 = \beta_0 + \beta_1 \ast 40 + \beta_2 \ast 40 + \beta_3 \ast 1+ \beta_4 * 0 + \beta_5 * 1 = \beta_0 + \beta_1 * 40 + \beta_2 * 40 + \beta_3 * 1 + \beta_5 * 1\)
Beispiel 3: Person 3 ist weiblich und hat Hauptschulabschluss \(Einkommen_1 = \beta_0 + \beta_1 \ast 40 + \beta_2 \ast 40 + \beta_3 \ast 0 + \beta_4 * 1 + \beta_5 * 0 = \beta_0 + \beta_1 * 40 + \beta_2 * 40 + \beta_4 * 1\)
Wir erkennen an den drei Beispielen nun folgendes: Die Referenzkategorien weiblich für Geschlecht und (Fach-)Abitur für Schulabschluss sind nicht mit eigenen Regressionskoeffizienten angegeben. Beide Effekte sind Referenzen zu den jeweiligen Dummys (männlich, Hauptschule und Realschule). Die Konstante (\(\beta_0\)) fasst die Referenzkategorien mathematisch und daher können diese Effekte nicht einzeln betrachtet werden. Daher ist es von Nöten, bevor ordinale Variablen (oder polytome nominale Variablen) in ein Regressionsmodell aufgenommen werden, sich klar zu machen, über welche Ausprägungen man eine Aussage treffen möchte und die Referenzkategorien dementsprechend zu wählen.
Nun wollen wir zurück auf unser Beispiel kommen und die Interpretation errechneter Werte:
Für unsere drei Beispiel-Personen ergeben sich folgende geschätzte Einkommenswerte in der Stichprobe:
Beispiel 1: Person 1 ist weiblich und hat Abitur \(Einkommen_1 = \beta_0 + \beta_1 \ast 40 + \beta_2 \ast 40 + \beta_3 \ast 0 + \beta_4 * 0 + \beta_5 * 0 = 2092.624 + (-3.009) * 40 + 4.071 * 40 = 2135.104\)
Beispiel 2: Person 2 ist männlich und hat Realschulabschluss \(Einkommen_2 = \beta_0 + \beta_1 \ast 40 + \beta_2 \ast 40 + \beta_3 \ast 1+ \beta_4 * 0 + \beta_5 * 1 = 2092.624 + (-3.009) * 40 + 4.071 * 40 + 381.848 * 1\) \(+ (-437.378) * 1=2079.574\)
Beispiel 3: Person 3 ist weiblich und hat Hauptschulabschluss \(Einkommen_3 = \beta_0 + \beta_1 \ast 40 + \beta_2 \ast 40 + \beta_3 \ast 0 + \beta_4 * 1 + \beta_5 * 0 = 2092.624 + (-3.009) * 40 + 4.071 * 40 + (-1131.309)* 1 = 1003.795\)
Personen, die männlich sind, verdienen knapp \(382\) Euro mehr als weibliche Personen (\(\beta_3\)). Personen mit Realschulabschluss verdienen knapp \(437\) Euro weniger als Personen mit (Fach-)Abitur (\(\beta_4\)) und Personen mit Hauptschulabschluss verdienen sogar \(1131\) Euro weniger als Personen mit (Fach-)Abitur (\(\beta_5\)).
Siehe auch: Urban & Mayerl (2011, Kapitel 5.1.1).