Além de vetores e fatores, há o tipo de objeto data frame que é importante para nós. Um data frame é simplesmente uma combinação de vários vetores (variáveis) do mesmo comprimento em uma matriz. No formato convencional (formato largo), as variáveis estão nas colunas e os respondentes nas linhas.
Vamos exemplificar com o conjunto de dados que usaremos durante o curso: Panem Social Survey (pss
). Este é um conjunto de dados de treinamento baseado no European Social Survey, mas com muito menos variáveis/casos (apenas 10 casos e 4 variáveis):
idno | district | gndr | agea |
---|---|---|---|
10000 | Distrikt 1 | male | 41 |
10001 | Distrikt 1 | male | 65 |
10002 | Distrikt 1 | male | 48 |
10003 | Distrikt 1 | female | 49 |
10004 | Distrikt 1 | female | 48 |
10005 | Distrikt 1 | female | 64 |
10006 | Distrikt 1 | male | 63 |
10007 | Distrikt 1 | female | 70 |
10008 | Distrikt 1 | female | 80 |
10009 | Distrikt 1 | male | 57 |
Neste exemplo, temos quatro variáveis no conjunto de dados: idno
, district
, gndr
e agea
. Estes são autoexplicativos: idno
é o ID único, district
é o distrito do entrevistado, gndr
é o gênero e agea
é a idade. Muitas vezes, as variáveis não são intuitivas, então é necessário consultar um livro de códigos. Lidaremos com conjuntos de dados maiores no próximo bloco de aprendizado.
Vamos para o desafio final!