Regressão linear multivariada com variáveis categóricas dicotômicas

Nas ciências sociais, frequentemente usamos variáveis com nível de escala nominal ou ordinal. Podemos adicionar essas variáveis ao modelo de regressão linear como variáveis independentes. Apenas precisamos entender qual efeito adicional estamos calculando. Precisamos criar variáveis dummy que indicam a diferença de uma manifestação na variável em referência a outra manifestação (categoria de referência). Isso é facilmente feito na função lm().

Queremos incluir a variável gndr em nosso modelo (feminino/masculino). Que suposição teórica podemos fazer sobre o efeito?

O que igualamos na equação de regressão?

Wie já sabemos, uma variável dicotômica não tem uma relação linear com uma variável métrica. Portanto, precisamos de variáveis dummy. Calculamos um modelo no qual o efeito adicional de uma categoria em relação à outra é estimado. Esse efeito é um efeito constante!.

A variável gndr tem as seguintes categorias:

  • female

  • male

Cálculo do Modelo

Aqui também, precisamos adicionar apenas a variável gndr de acordo com a equação expandida:

olsModel3 <- lm(
  stfdem ~ 1 + stfeco + trstlgl + gndr,   
  data = pss
)            

summary(olsModel3)
## 
## Call:
## lm(formula = stfdem ~ 1 + stfeco + trstlgl + gndr, data = pss)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.7490 -1.0846  0.0411  1.1642  5.7898 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept)  0.70975    0.09539   7.440 1.18e-13 ***
## stfeco       0.87435    0.01356  64.496  < 2e-16 ***
## trstlgl     -0.04137    0.01319  -3.136  0.00173 ** 
## gndrmale    -0.08020    0.04957  -1.618  0.10573    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.732 on 4889 degrees of freedom
##   (107 observations deleted due to missingness)
## Multiple R-squared:  0.4601,	Adjusted R-squared:  0.4598 
## F-statistic:  1389 on 3 and 4889 DF,  p-value: < 2.2e-16

Qual é a categoria de referência?

Qual efeito estamos calculando com a variável gndrmale?

A categoria de referência é female, ou seja, respondentes do sexo feminino.

O efeito adicional é calculado para pessoas do sexo masculino (em relação às pessoas do sexo feminino). Portanto, pessoas do sexo masculino têm uma satisfação \(-0.08020\) menor do que pessoas do sexo feminino.

Como interpretamos o modelo?

Escreva algumas linhas no script!

O modelo explica \(45.98 %\) da variância na variável stfdem. A satisfação com o desempenho econômico (stfeco) e a confiança no sistema legal (trstlgl) têm um efeito significativo na satisfação com a democracia (stfdem). O efeito de stfeco é positivo (\(\beta_1 = 0.87435\)), o efeito da confiança no sistema legal (\(\beta_2 = -0.04137\)) e o efeito para pessoas do sexo masculino (\(\beta_3 = -0.08020\)) são ambos negativos. Portanto, pessoas que têm maior confiança ou são do sexo masculino têm uma satisfação ligeiramente menor.

Se você comparar a fórmula acima com a tarefa, algo deve chamar sua atenção! O que precisa ser alterado na fórmula para que ela se ajuste corretamente ao modelo de regressão?

Por que isso é relevante, você verá na próxima página! Agora você aprendeu como incluir variáveis categóricas dicotômicas no modelo de regressão, mas como funciona com variáveis categóricas politômicas?