Não só podemos adicionar variáveis categóricas dicotômicas, mas também variáveis categóricas politômicas ao modelo de regressão. Agora, vamos incluir a variável edu
no modelo. Esta variável representa o nível de educação mais alto alcançado pela pessoa entrevistada. Quais suposições teóricas poderíamos fazer sobre o efeito de edu
?
Basta adicionar a variável no modelo lm()
como fizemos anteriormente:
olsModel4 <- lm(
stfdem ~ 1 + stfeco + trstlgl + gndr + edu,
data = pss
)
summary(olsModel4)
##
## Call:
## lm(formula = stfdem ~ 1 + stfeco + trstlgl + gndr + edu, data = pss)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.7867 -1.1246 0.0123 1.1391 5.8527
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.535964 0.112218 4.776 1.84e-06 ***
## stfeco 0.854641 0.014166 60.332 < 2e-16 ***
## trstlgl -0.044393 0.013572 -3.271 0.00108 **
## gndrmale 0.001836 0.051229 0.036 0.97142
## eduES-ISCED II 0.168395 0.076925 2.189 0.02864 *
## eduES-ISCED III 0.343037 0.076832 4.465 8.21e-06 ***
## eduES-ISCED IV 0.419061 0.085739 4.888 1.06e-06 ***
## eduES-ISCED V 0.870502 0.125865 6.916 5.29e-12 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.716 on 4542 degrees of freedom
## (450 observations deleted due to missingness)
## Multiple R-squared: 0.4643, Adjusted R-squared: 0.4635
## F-statistic: 562.3 on 7 and 4542 DF, p-value: < 2.2e-16
Como a função lm()
incorporou a variável politômica no modelo?
Qual é a categoria de referência?
E como seria a equação de regressão?
O efeito adicional das quatro categorias mais altas (ES-ISCED II
, ES-ISCED III
, ES-ISCED IV
e ES-ISCED V
) em relação à categoria mais baixa (ES-ISCED I
) está sendo calculado.
A categoria de referência é, portanto, ES-ISCED I
(categoria omitida).
\[\begin{align*}stfdem = &\beta_0 + \beta_1*stfeco + \beta_2*trstlgl + \beta_3*gndr + \\ &\beta_4*eduLevelII + \beta_5*eduLevelIII + \\ &\beta_6*eduLevelIV + \beta_7*eduLevelV + \\&e \end{align*}\]
Neste exemplo, automaticamente a categoria mais baixa (ou primeira) foi escolhida como categoria de referência. Mas e se você quiser, por exemplo, ter a categoria do meio (ES-ISCED III
) como referência? Você pode fazer isso facilmente com a função relevel()
. Para isso, você especifica a fonte de dados no primeiro argumento (variável pss$edu
) e no segundo argumento ref
a categoria correspondente (ou seja, "ES-ISCED III"
). Importante: Você precisa salvar isso na variável no conjunto de dados com a seta de atribuição!
pss$edu <- relevel(
pss$edu,
ref = "ES-ISCED III"
)
Então você só precisa recalcular o modelo:
olsModel5 <- lm(
stfdem ~ 1 + stfeco + trstlgl + gndr + edu,
data = pss
)
summary(olsModel5)
##
## Call:
## lm(formula = stfdem ~ 1 + stfeco + trstlgl + gndr + edu, data = pss)
##
## Residuals:
## Min 1Q Median 3Q Max
## -5.7867 -1.1246 0.0123 1.1391 5.8527
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.879001 0.106299 8.269 < 2e-16 ***
## stfeco 0.854641 0.014166 60.332 < 2e-16 ***
## trstlgl -0.044393 0.013572 -3.271 0.00108 **
## gndrmale 0.001836 0.051229 0.036 0.97142
## eduES-ISCED I -0.343037 0.076832 -4.465 8.21e-06 ***
## eduES-ISCED II -0.174643 0.066577 -2.623 0.00874 **
## eduES-ISCED IV 0.076024 0.075825 1.003 0.31610
## eduES-ISCED V 0.527465 0.119052 4.431 9.62e-06 ***
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 1.716 on 4542 degrees of freedom
## (450 observations deleted due to missingness)
## Multiple R-squared: 0.4643, Adjusted R-squared: 0.4635
## F-statistic: 562.3 on 7 and 4542 DF, p-value: < 2.2e-16
Interprete o modelo respecificado. Escreva algumas frases no script.
O modelo explica \(46.35 %\) da variância em stfdem
. O efeito de stfeco
é positivo e significativo (\(p<0.001\)). Pessoas com maior confiança no sistema legal têm uma satisfação menor (\(\beta_2 = -0.044393\), \(p<0.01\)). Entrevistados do sexo masculino e feminino não têm diferenças na satisfação (\(\beta_3 = 0.001836\). \(p>0.05\)). Em comparação com pessoas com nível educacional médio, pessoas com nível educacional muito baixo (ES-ISCED I
) e baixo nível educacional (ES-ISCED II
) têm uma confiança menor (\(\beta_4 = -0.343037\) ou \(\beta_5 = -0.174643\)). Ambos os efeitos são significativos. Pessoas com o mais alto nível educacional têm uma confiança significativamente maior do que pessoas com nível educacional médio (\(\beta_7 = 0.527465\), \(p<0.001\)). Pessoas com o segundo nível mais alto têm uma confiança ligeiramente maior (\(\beta_6 = 0.076024\)), mas esse efeito não é significativo.
Então você já pode adicionar variáveis categóricas politômicas e interpretar o modelo de regressão na saída em R!