Em Estatística I, você já aprendeu sobre a padronização z e como comparar melhor as distribuições de variáveis. A padronização z recodifica uma variável para a unidade de desvio padrão, tornando as variáveis z-padronizadas comparáveis.
Variáveis não padronizadas também fornecem coeficientes de regressão não padronizados no R. Você viu isso na interpretação dos resultados da regressão: você sempre avaliou na unidade das variáveis. A desvantagem das variáveis não padronizadas é que os efeitos não são comparáveis em termos de magnitude. Isso só é possível com variáveis padronizadas.
Em alguns modelos (geralmente mais complexos), queremos avaliar a magnitude das variáveis independentes individualmente. Como as variáveis não têm a mesma unidade, como explicado acima, isso não é tão simples. No entanto, podemos padronizar as variáveis para que todas tenham a mesma unidade (desvios padrão). Para isso, é melhor usar a função scale()
do tidyverse (dplyr
). Em modelos de regressão mais complexos ou modelos avançados (como Modelos Multinível), as variáveis geralmente são padronizadas antes do cálculo do modelo.
Vamos agora fazer esse passo para as variáveis no olsModel2
:
pss <- pss %>%
mutate(
stfdemZ = scale(stfdem),
stfecoZ = scale(stfeco),
trstlglZ = scale(trstlgl)
)
Em seguida, recalculamos o modelo com as novas variáveis:
olsModel2Z <- lm(
stfdemZ ~ 1 + stfecoZ + trstlglZ,
data = pss
)
Como interpretamos o resultado?
summary(olsModel2Z)
##
## Call:
## lm(formula = stfdemZ ~ 1 + stfecoZ + trstlglZ, data = pss)
##
## Residuals:
## Min 1Q Median 3Q Max
## -2.42296 -0.46136 0.01681 0.49498 2.47445
##
## Coefficients:
## Estimate Std. Error t value Pr(>|t|)
## (Intercept) 0.004028 0.010511 0.383 0.70155
## stfecoZ 0.697244 0.010815 64.468 < 2e-16 ***
## trstlglZ -0.033592 0.010517 -3.194 0.00141 **
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 0.7352 on 4890 degrees of freedom
## (107 observations deleted due to missingness)
## Multiple R-squared: 0.4598, Adjusted R-squared: 0.4596
## F-statistic: 2081 on 2 and 4890 DF, p-value: < 2.2e-16
Resultado: Com cada aumento de um desvio padrão em stfeco
, stfdem
aumenta \(0.697244\) desvios padrão. Como pode ser visto, a interpretação é um pouco mais complicada. Mas agora os efeitos individuais entre variáveis métricas podem ser comparados. É visível que o efeito de stfeco
é mais forte do que o de trstlgl
(\(0.697244 > |-0.033592|\)).