Aqui estão algumas funções para exibir estatísticas descritivas.
Quais são as medidas de tendência central e de dispersão?
Amplitude, Intervalo interquartil, Quartis
Variância, Desvio padrão
As funções para mínimo, máximo e amplitude são:
# Minimum
min(pss$wkhtot)
## [1] 6
# Maximum
max(pss$wkhtot)
## [1] 65
# Spannweite / Range
range(pss$wkhtot)
## [1] 6 65
Agora tente para a variável stfdem
. O que acontece?
min(pss$stfdem)
## [1] NA
Você receberá uma mensagem de erro informando que o valor não pode ser calculado. Isso ocorre porque nesta variável existem valores ausentes (NA's
). Algumas pessoas não forneceram um valor aqui, e isso é indicado em R como NA
! Portanto, não é possível calcular um valor.
\(\rightarrow\) Para poder calcular um valor mesmo assim, os valores faltantes devem ser excluídos.
min(
pss$stfdem,
na.rm = TRUE
)
## [1] 0
## na.rm: NA = missing values, rm = remove
Para a mediana e média, existem funções base do R que podem ser usadas diretamente:
## Median
median(
pss$stfdem,
na.rm = TRUE
)
## [1] 5
## arithm. Mittelwert
mean(
pss$stfdem,
na.rm = TRUE
)
## [1] 4.657492
Para a moda, não existe uma função direta, mas é possível usar a função table()
para exibir a tabela de dados de uma variável e então identificar a moda ou modas a partir dela:
## Moda (sem função integrada)
table(pss$stfdem)
##
## 0 1 2 3 4 5 6 7 8 9 10
## 226 268 436 618 754 850 631 522 338 179 83
max(table(pss$stfdem)) # não útil para distribuições bimodais (etc.)
## [1] 850
Às vezes, é necessário exibir diferentes intervalos de uma variável, como a renda em decis ou quintis. Para isso, a função quantile()
é utilizada. Ela é combinada com a função seq()
.
A função seq()
fornece uma sequência de números, que são definidos pelos três argumentos from, to e by. O argumento from define o valor inicial, o argumento to define o valor final e o argumento by define os passos. No exemplo, estamos indo de 0
para 1
, com passos de 0.1
!
seq(
from = 0,
to = 1,
by = 0.1
)
seq(
by = 0.1,
to = 1,
from = 0
)
# wird die Standardreihenfolge (from-to-by) eingehalten, kann man die Argumentbeschriftung auslassen.
seq(
0,
1,
0.1
)
Agora, os decis (0.1
de passo) podem ser exibidos:
quantile(
pss$stfdem,
probs = seq(
0,
1,
0.1
),
na.rm = TRUE
)
O que precisa ser alterado para exibir quintis?
Para obter quintis, é necessário avançar em incrementos de (0.2), resultando em cinco valores de (0) a (1).
quantile(
pss$stfdem,
probs = seq(
0,
1,
0.2
),
na.rm = TRUE
)
Para exibir uma série de valores descritivos, também é possível utilizar a função summary()
:
summary(pss$stfdem)
Continuar para as medidas de dispersão!