Regressão linear multivariada com variáveis categóricas politômicas

Não só podemos adicionar variáveis categóricas dicotômicas, mas também variáveis categóricas politômicas ao modelo de regressão. Agora, vamos incluir a variável edu no modelo. Esta variável representa o nível de educação mais alto alcançado pela pessoa entrevistada. Quais suposições teóricas poderíamos fazer sobre o efeito de edu?

Cálculo do Modelo

Basta adicionar a variável no modelo lm() como fizemos anteriormente:

olsModel4 <- lm(
    stfdem ~ 1 + stfeco + trstlgl + gndr + edu,   
    data = pss
)
summary(olsModel4)
## 
## Call:
## lm(formula = stfdem ~ 1 + stfeco + trstlgl + gndr + edu, data = pss)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.7867 -1.1246  0.0123  1.1391  5.8527 
## 
## Coefficients:
##                  Estimate Std. Error t value Pr(>|t|)    
## (Intercept)      0.535964   0.112218   4.776 1.84e-06 ***
## stfeco           0.854641   0.014166  60.332  < 2e-16 ***
## trstlgl         -0.044393   0.013572  -3.271  0.00108 ** 
## gndrmale         0.001836   0.051229   0.036  0.97142    
## eduES-ISCED II   0.168395   0.076925   2.189  0.02864 *  
## eduES-ISCED III  0.343037   0.076832   4.465 8.21e-06 ***
## eduES-ISCED IV   0.419061   0.085739   4.888 1.06e-06 ***
## eduES-ISCED V    0.870502   0.125865   6.916 5.29e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.716 on 4542 degrees of freedom
##   (450 observations deleted due to missingness)
## Multiple R-squared:  0.4643,	Adjusted R-squared:  0.4635 
## F-statistic: 562.3 on 7 and 4542 DF,  p-value: < 2.2e-16

Como a função lm() incorporou a variável politômica no modelo?

Qual é a categoria de referência?

E como seria a equação de regressão?

O efeito adicional das quatro categorias mais altas (ES-ISCED II, ES-ISCED III, ES-ISCED IV e ES-ISCED V) em relação à categoria mais baixa (ES-ISCED I) está sendo calculado.

A categoria de referência é, portanto, ES-ISCED I (categoria omitida).

\[\begin{align*}stfdem = &\beta_0 + \beta_1*stfeco + \beta_2*trstlgl + \beta_3*gndr + \\ &\beta_4*eduLevelII + \beta_5*eduLevelIII + \\ &\beta_6*eduLevelIV + \beta_7*eduLevelV + \\&e \end{align*}\]

Alterando a Categoria de Referência

Neste exemplo, automaticamente a categoria mais baixa (ou primeira) foi escolhida como categoria de referência. Mas e se você quiser, por exemplo, ter a categoria do meio (ES-ISCED III) como referência? Você pode fazer isso facilmente com a função relevel(). Para isso, você especifica a fonte de dados no primeiro argumento (variável pss$edu) e no segundo argumento ref a categoria correspondente (ou seja, "ES-ISCED III"). Importante: Você precisa salvar isso na variável no conjunto de dados com a seta de atribuição!

pss$edu <- relevel(
  pss$edu, 
  ref = "ES-ISCED III"
) 

Então você só precisa recalcular o modelo:

olsModel5 <- lm(
  stfdem ~ 1 + stfeco + trstlgl + gndr + edu,
  data = pss
)

summary(olsModel5)
## 
## Call:
## lm(formula = stfdem ~ 1 + stfeco + trstlgl + gndr + edu, data = pss)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -5.7867 -1.1246  0.0123  1.1391  5.8527 
## 
## Coefficients:
##                 Estimate Std. Error t value Pr(>|t|)    
## (Intercept)     0.879001   0.106299   8.269  < 2e-16 ***
## stfeco          0.854641   0.014166  60.332  < 2e-16 ***
## trstlgl        -0.044393   0.013572  -3.271  0.00108 ** 
## gndrmale        0.001836   0.051229   0.036  0.97142    
## eduES-ISCED I  -0.343037   0.076832  -4.465 8.21e-06 ***
## eduES-ISCED II -0.174643   0.066577  -2.623  0.00874 ** 
## eduES-ISCED IV  0.076024   0.075825   1.003  0.31610    
## eduES-ISCED V   0.527465   0.119052   4.431 9.62e-06 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 1.716 on 4542 degrees of freedom
##   (450 observations deleted due to missingness)
## Multiple R-squared:  0.4643,	Adjusted R-squared:  0.4635 
## F-statistic: 562.3 on 7 and 4542 DF,  p-value: < 2.2e-16

Interprete o modelo respecificado. Escreva algumas frases no script.

O modelo explica \(46.35 %\) da variância em stfdem. O efeito de stfeco é positivo e significativo (\(p<0.001\)). Pessoas com maior confiança no sistema legal têm uma satisfação menor (\(\beta_2 = -0.044393\), \(p<0.01\)). Entrevistados do sexo masculino e feminino não têm diferenças na satisfação (\(\beta_3 = 0.001836\). \(p>0.05\)). Em comparação com pessoas com nível educacional médio, pessoas com nível educacional muito baixo (ES-ISCED I) e baixo nível educacional (ES-ISCED II) têm uma confiança menor (\(\beta_4 = -0.343037\) ou \(\beta_5 = -0.174643\)). Ambos os efeitos são significativos. Pessoas com o mais alto nível educacional têm uma confiança significativamente maior do que pessoas com nível educacional médio (\(\beta_7 = 0.527465\), \(p<0.001\)). Pessoas com o segundo nível mais alto têm uma confiança ligeiramente maior (\(\beta_6 = 0.076024\)), mas esse efeito não é significativo.

Então você já pode adicionar variáveis categóricas politômicas e interpretar o modelo de regressão na saída em R!