Você conhece os boxplots da aula de Estatística. Nos boxplots, os quartis são indicados, bem como o mínimo e o máximo (ou outliers). Agora você aprenderá mais sobre as funções individuais, como representar um boxplot. Apresentamos duas funções: geom_boxplot()
ou ggboxplot()
. Usamos boxplots para representar uma variável métrica. Os boxplots de uma variável métrica também podem ser divididos por uma variável de grupo.
Além disso, na última página, apresentamos também rainclouds. Eles são semelhantes a um boxplot, mas fornecem informações adicionais sobre como os valores estão distribuídos.
geom_boxplot()
Podemos facilmente criar os boxplots da idade. Para isso, usamos a função geom_boxplot()
:
boxplot <- ggplot(
pss,
aes(agea)
) +
geom_boxplot()
boxplot
## Warning: Removed 157 rows containing non-finite outside the scale range
## (`stat_boxplot()`).
A variável métrica Idade está agora representada no eixo x. A representação do eixo y pode ser um pouco confusa aqui, pois não é interpretada de forma significativa. No entanto, o
ggplot
precisa dela para a representação. Portanto, você pode simplesmente ajustá-la e girar o boxplot:
boxplot <- ggplot(
pss,
aes(agea)
) +
geom_boxplot() +
coord_flip() +
scale_y_continuous(breaks = NULL)
boxplot
## Warning: Removed 157 rows containing non-finite outside the scale range
## (`stat_boxplot()`).
A seguir, vamos exibir o boxplot da idade em relação ao distrito. Muitas vezes, queremos visualizar a distribuição de uma variável métrica em relação a uma variável categórica. Para fazer isso, basta adicionar a variável de grupo dentro da função ggplot()
no argumento aes
. Lembre-se: Invertemos os eixos, então a variável de grupo estará no eixo x (1º argumento em aes
), mesmo que apareça no gráfico no eixo y!
boxplotDistrict <- ggplot(
pss,
aes(
district,
agea,
fill = district
)
) +
geom_boxplot()
boxplotDistrict
## Warning: Removed 157 rows containing non-finite outside the scale range
## (`stat_boxplot()`).
Assim como antes, podemos ajustar o gráfico facilmente:
boxplotDistrict +
scale_fill_manual(
name = "Distrikt",
values = cbp1
) +
scale_x_discrete(
limits = c(
"Distrikt 10",
"Distrikt 7",
"Distrikt 12",
"Distrikt 5",
"Distrikt 1"
)
) +
scale_y_continuous(
breaks = seq(
0,
100,
5
)
) +
labs(
x = "District",
y = "Age in years",
title = "Boxplots of Age by District"
) +
coord_flip()
## Warning: Removed 157 rows containing non-finite outside the scale range
## (`stat_boxplot()`).
Na próxima página, você aprenderá uma alternativa!