Lernblock 2 > Tidyverse > Tidyverse - dplyr > 2 Datensätze kombinieren

2 Datensätze kombinieren

Oftmals haben wir Datensätze auf der Mikroebene (z.B. European Social Survey), die wir mit Makro-Datensätzen (z.B. Wirtschaftsdaten auf Länderebene) kombinieren wollen. Hierfür bietet dplyr insgesamt vier Funktionen an, wobei left_join() in den meisten Anwendungsfällen genutzt wird.

Wir nehmen nun folgendes Beispiel: Wir haben zu unserem Datensatz des PSS einen zweiten Datensatz bei der Recherche gefunden, der den Anteil der von Armut betroffenen Bewohner eines Distrikts (poverty) und den Anteil der Wohnbevölkerung, der eine Mangelernährung aufweist (nutrition) aufführt.

Table 1: Makrodaten pro Distrikt
district	poverty	nutrition
Distrikt 1	0.5	0
Distrikt 5	4.3	5
Distrikt 7	6.7	8.4
Distrikt 10	15.3	23.1
Distrikt 12	32.7	47.5

Nehmen wir an, wir möchten nun in einem Mehrebenenmodell inkludieren, wie sich diese Faktoren des Distrikts auf die Zufriedenheit mit der Demokratie auswirken. Dazu sollen die zwei Variablen maxsem in den pss-Datensatz ergänzt werden. Dazu nutzen wir left_join():

pssMerged <- pss %>%
  left_join(
    pssMacro, 
    by = "district"
  )

Auch könnte man hier right_join() verwenden:

pssMerged2 <- pssMacro %>%
  right_join(
    pss, 
    by = "district"
  )

So könnten wir beispielsweise in Mehrebenemodellen neben individuellen Effekten wie Studiengang und Abiturnote auch den Effekt der Betreuungsquote und der Seminargröße berechnen.