Entre dois grupos

No Teste t de duas amostras, você precisa distinguir se são amostras pareadas ou não pareadas.

Teste t de duas amostras (não pareado)

Nesta situação de teste, duas diferentes grupos dentro de uma amostra (por exemplo, por gênero) são testados. Ambos os grupos não estão conectados ou pareados. A resposta de um caso não é influenciada pela resposta de outros casos ou não está relacionada a ela.

Queremos testar até que ponto o tempo de trabalho contratual (wkhtot) difere entre homens e mulheres (gndr) na amostra.

Como as variáveis estão codificadas? Verifique no Codebook:

Pressupostos

Para calcular o teste, dois pressupostos devem ser verificados:

  1. Igualdade de variâncias (Teste de Levene)

  2. Distribuição normal da variável métrica (uV)

O segundo pressuposto só precisa ser testado se \(n < 30\). Em situações com \(n > 30\), o teste fornece resultados assintoticamente corretos.

Para verificar se há igualdade de variâncias, você calcula o Teste de Levene. Para isso, utilize a função leveneTest() da biblioteca car:

install.packages("car")
library("car")
leveneTest(
  pss$wkhtot,      
  pss$gndr,        
  center = "mean"
)   
## Levene's Test for Homogeneity of Variance (center = "mean")
##         Df F value Pr(>F)
## group    1  0.5405 0.4623
##       4998

Como interpretar o teste?

A hipótese nula do teste (\(H_0\)) é que ambos os grupos na variável métrica têm variâncias iguais. Um valor p abaixo de \(0.05\) requer a rejeição da hipótese nula e, portanto, não se pode assumir variâncias iguais. Na realização do teste, você deve especificar essa propriedade.

O que o teste está indicando aqui?

Realização do Teste

Agora, você usará novamente a função t.test() para calcular o teste. As duas variáveis não são separadas por uma vírgula como argumento, mas são especificadas como uma fórmula. A variável métrica vem primeiro, seguida pela variável categórica (com apenas dois grupos!). Elas são separadas por um ~ (til). Você assume uma diferença de \(0\) por padrão (mu = 0) e no argumento paired = FALSE, você indica que são amostras não pareadas. O resultado do Teste de Levene é especificado no último argumento: var.equal = TRUE, pois há igualdade de variâncias.

t.test(
  pss$wkhtot ~ pss$gndr,     
  mu = 0,                        
  alternative = "two.sided",     
  paired = FALSE,    # ungepaarte Stichproben!            
  var.equal = TRUE  # Option des Levene-Tests!
)            
## 
## 	Two Sample t-test
## 
## data:  pss$wkhtot by pss$gndr
## t = 1.3509, df = 4998, p-value = 0.1768
## alternative hypothesis: true difference in means between group female and group male is not equal to 0
## 95 percent confidence interval:
##  -0.1436357  0.7803096
## sample estimates:
## mean in group female   mean in group male 
##             34.46080             34.14246

Agora você verá os seguintes valores:

  • \(t = 1.3509\) (valor-t)

  • \(p \approx 0.1768\) (valor p)

  • \(IC\approx[-0.1436357, 0.7803096]\) (intervalo de confiança)

  • Grupo feminino \(\approx 34.46080\)

  • Grupo masculino \(\approx 34.14246\)

Em média, os homens têm um pouco menos ($0.31834), mas a diferença não é estatisticamente significativa.

Realização do Teste (Variável politômica)

Agora queremos realizar este teste com uma variável que inclui mais de duas categorias (ou grupos). Para calcular um Teste t, você precisa definir dois grupos. Agora queremos testar a diferença com base no nível de educação (edu). As codificações podem ser encontradas no livro de códigos. No total, a variável tem \(5\) categorias. Vamos simplesmente escolher dois grupos para comparar.

Aqui está a tradução para o português brasileiro:

Auch hier musst du wieder den Test auf Varianzgleichheit zuerst durchführen:

# Test of homogeneity of variances
leveneTest(
  pss$wkhtot,
  pss$edu,
  center = "mean"
)
## Levene's Test for Homogeneity of Variance (center = "mean")
##         Df F value Pr(>F)
## group    4  0.4981 0.7372
##       4643

Agora você pode realizar o Teste t. Antes de realizá-lo, você precisa selecionar duas grupos da nova variável. Você irá comparar o menor e o maior nível de escolaridade. Como estamos comparando grupos específicos, não podemos usar a notação de fórmula. Em vez disso, você deve inserir a variável métrica duas vezes, restringindo os dados a cada grupo com []:

t.test(
  pss$wkhtot[pss$edu == "ES-ISCED I"],
  pss$wkhtot[pss$edu == "ES-ISCED V"], 
  mu = 0, 
  alternative = "two.sided", 
  paired = FALSE, 
  var.equal = TRUE
)
## 
## 	Two Sample t-test
## 
## data:  pss$wkhtot[pss$edu == "ES-ISCED I"] and pss$wkhtot[pss$edu == "ES-ISCED V"]
## t = 9.723, df = 1078, p-value < 2.2e-16
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  4.492021 6.763452
## sample estimates:
## mean of x mean of y 
##  36.19636  30.56863

Como você interpreta o resultado? Qual é a diferença?

É possível observar que, em média, pessoas com menor nível de educação (média de x) trabalham mais do que pessoas com maior nível de educação (média de y). O efeito é significativo e a diferença é de (5.62773) horas.

Teste t de duas amostras (pareado)

Agora vamos realizar um Teste t de duas amostras pareadas. Pareado significa que os valores de um grupo estão relacionados aos valores do outro grupo. Isso ocorre, por exemplo, quando um entrevistado responde a uma pergunta em dois momentos diferentes, ou quando cada pessoa do Grupo A pode ser associada a uma pessoa do Grupo B (mãe <-> filho, parceiro). Existe o conjunto de dados pss2, que foi coletado dois anos após o conjunto de dados original (com os mesmos entrevistados) e agora queremos testar se as médias diferem significativamente ao longo do tempo.

Verificação das premissas

  1. Variáveis são métricas \(\checkmark\)

  2. A diferença segue uma distribuição normal (relevante para \(n \leq 30\)) (\(\checkmark\))

É muito simples, pois agora você irá novamente usar a função t.test(). Você só precisa alterar o argumento paired:

t.test(
  pss$trstprl,
  pss2$trstprl, 
  alternative = "two.sided", 
  paired = TRUE
)
## 
## 	Paired t-test
## 
## data:  pss$trstprl and pss2$trstprl
## t = NaN, df = 4964, p-value = NA
## alternative hypothesis: true mean difference is not equal to 0
## 95 percent confidence interval:
##  NaN NaN
## sample estimates:
## mean difference 
##               0

Interpretação do resultado: Em média, a confiança no Parlamento não diferiu entre as duas pesquisas.

Vá agora para situações de teste com mais de dois grupos!