Oftmals haben wir Datensätze auf der Mikroebene (z.B. European Social Survey), die wir mit Makro-Datensätzen (z.B. Wirtschaftsdaten auf Länderebene) kombinieren wollen. Hierfür bietet dplyr
insgesamt vier Funktionen an, wobei left_join()
in den meisten Anwendungsfällen genutzt wird.
Wir nehmen nun folgendes Beispiel: Wir haben zu unserem Datensatz des PSS einen zweiten Datensatz bei der Recherche gefunden, der den Anteil der von Armut betroffenen Bewohner eines Distrikts (poverty
) und den Anteil der Wohnbevölkerung, der eine Mangelernährung aufweist (nutrition
) aufführt.
district | poverty | nutrition |
---|---|---|
Distrikt 1 | 0.5 | 0 |
Distrikt 5 | 4.3 | 5 |
Distrikt 7 | 6.7 | 8.4 |
Distrikt 10 | 15.3 | 23.1 |
Distrikt 12 | 32.7 | 47.5 |
Nehmen wir an, wir möchten nun in einem Mehrebenenmodell inkludieren, wie sich diese Faktoren des Distrikts auf die Zufriedenheit mit der Demokratie auswirken. Dazu sollen die zwei Variablen maxsem
in den pss
-Datensatz ergänzt werden. Dazu nutzen wir left_join()
:
pssMerged <- pss %>%
left_join(
pssMacro,
by = "district"
)
Auch könnte man hier right_join()
verwenden:
pssMerged2 <- pssMacro %>%
right_join(
pss,
by = "district"
)
So könnten wir beispielsweise in Mehrebenemodellen neben individuellen Effekten wie Studiengang und Abiturnote auch den Effekt der Betreuungsquote und der Seminargröße berechnen.