Muitas vezes temos conjuntos de dados em nível micro (por exemplo, European Social Survey) que queremos combinar com conjuntos de dados em nível macro (por exemplo, dados econômicos em nível de país). Para isso, o dplyr
oferece um total de quatro funções, sendo que left_join()
é a mais utilizada na maioria dos casos de uso.
Vamos agora considerar o seguinte exemplo: encontramos durante nossa pesquisa um segundo conjunto de dados que lista a proporção de residentes de um distrito afetados pela pobreza (pobreza
) e a proporção da população residente que sofre de desnutrição (nutrição
), em relação ao nosso conjunto de dados do PSS.
district | poverty | nutrition |
---|---|---|
Distrikt 1 | 0.5 | 0 |
Distrikt 5 | 4.3 | 5 |
Distrikt 7 | 6.7 | 8.4 |
Distrikt 10 | 15.3 | 23.1 |
Distrikt 12 | 32.7 | 47.5 |
Suponhamos que agora desejamos incluir em um modelo multinível como esses fatores do distrito afetam a satisfação com a democracia. Para isso, as duas variáveis maxsem
devem ser adicionadas ao conjunto de dados pss
. Para isso, utilizamos left_join()
:
pssMerged <- pss %>%
left_join(
pssMacro,
by = "district"
)
Também poderíamos usar right_join()
aqui:
pssMerged2 <- pssMacro %>%
right_join(
pss,
by = "district"
)
Dessa forma, poderíamos calcular, por exemplo, nos modelos multiníveis, além dos efeitos individuais como curso e nota do ensino médio, também o efeito da proporção de supervisão e do tamanho do seminário.