Além de vetores e fatores, há o tipo de objeto data frame que é importante para nós. Um data frame é simplesmente uma combinação de vários vetores (variáveis) do mesmo comprimento em uma matriz. No formato convencional (formato largo), as variáveis estão nas colunas e os respondentes nas linhas.
Vamos exemplificar com o conjunto de dados que usaremos durante o curso: Panem Social Survey (pss). Este é um conjunto de dados de treinamento baseado no European Social Survey, mas com muito menos variáveis/casos (apenas 10 casos e 4 variáveis):
| idno | district | gndr | agea |
|---|---|---|---|
| 10000 | Distrikt 1 | male | 41 |
| 10001 | Distrikt 1 | male | 65 |
| 10002 | Distrikt 1 | male | 48 |
| 10003 | Distrikt 1 | female | 49 |
| 10004 | Distrikt 1 | female | 48 |
| 10005 | Distrikt 1 | female | 64 |
| 10006 | Distrikt 1 | male | 63 |
| 10007 | Distrikt 1 | female | 70 |
| 10008 | Distrikt 1 | female | 80 |
| 10009 | Distrikt 1 | male | 57 |
Neste exemplo, temos quatro variáveis no conjunto de dados: idno, district, gndr e agea. Estes são autoexplicativos: idno é o ID único, district é o distrito do entrevistado, gndr é o gênero e agea é a idade. Muitas vezes, as variáveis não são intuitivas, então é necessário consultar um livro de códigos. Lidaremos com conjuntos de dados maiores no próximo bloco de aprendizado.
Vamos para o desafio final!