Im ersten Schritt werden nun die mathematischen Grundlagen des Verfahrens der linearen Regression am Beispiel einer bivariaten linearen Regression vorgestellt. Aufbauend darauf werden die Grundlagen auf eine multivariate lineare Regression übertragen und die Interpretation der wichtigsten Kennzahlen vorgestellt. Abschließend wird zum besseren Verständnis ein Praxisbeispiel aktueller Forschung der empirischen Demokratieforschung dargestellt.
Die Regressionsanalyse ist eine statistische Methode, um die Beziehungsstruktur zwischen mehreren Variablen zu untersuchen. Dabei findet eine Informationsreduktion statt, so dass die Untersuchung auf wenige Kennzahlen beschränkt werden kann. Mit der Regressionsanalyse kann die Wirkung einer oder mehrerer unabhängiger Variable(n) auf eine abhängige Variable in Bezug auf die Richtung und die Stärke des Einflusses überprüft werden.
Im Unterschied zur Korrelation wird bei der Regressionsanalyse die Kausalität überprüft. Die Richtung des Einflusses wird theoriegeleitet festgelegt, von der unabhängigen auf die abhängige Variable. Inferenzstatistisch wird zusätzlich überprüft, ob dieser Einfluss signifikant ist, also ob er in der Grundgesamtheit der Stichprobe als wahrscheinlich gilt.
Allgemein ausgedrückt können mit der Regressionsanalyse zwei verwandte Fragen beantwortet werden:
Wie gut erklären bestimmte Faktoren (unabhängige Variablen) die Varianz einer abhängigen Variable?
Welchen Einfluss üben die einzelnen Faktoren auf diese abhängige Variable unter Konstanthalten (Kontrolle) des Einflusses der anderen unabhängigen Variablen aus?
Die multivariate lineare Regression stellt dabei eine grundsätzliche Analysemethode dar. Mit der (multivariaten) linearen Regression wird versucht, eine metrische Variable über eine Linearkombination mehrerer anderer Variablen (metrisch) darzustellen und kausal zu erklären.
Mithilfe eines Regressionsmodells lassen sich aus der Theorie hergeleitete Hypothesen über eine Beeinflussungsstruktur bestimmter Variablen auf andere Variablen überprüfen. Für die Sozialwissenschaften ist dies ein geeignetes Verfahren, da in der Regel mehrere Variablen einen Einfluss auf eine abhängige Variable ausüben, die wir in eine Regressionsanalyse integrieren können. Es werden dabei verschiedene Arten der Regression in Abhängigkeit des Skalenniveaus der abhängigen Variable unterschieden:
lineare Regression
logistische Regression
Probit-Regression
Bei der linearen Regression wird ein linearer Zusammenhang zwischen abhängiger Variable und unabhängigen Variablen angenommen. Es stellt somit eine Weiterentwicklung der bivariaten Korrelationsanalyse dar. Die abhängige Variable muss ein metrisches Skalenniveau aufweisen.
Die logistische Regression wird für dichotome abhängige Variablen genutzt (nominale Skala), da der Zusammenhang sich nur logistisch und nicht linear darstellen lässt. Die Probit-Regression erweitert die logistische Regression auf kategoriale Variablen mit mehr als zwei Ausprägungen. Sowohl die logistische und Probit-Regression sind fortgeschrittene Verfahren quantitativer Analysetechniken. Sie werden daher in diesem Lernmodul nicht näher behandelt.