Dataframes

Além de vetores e fatores, há o tipo de objeto data frame que é importante para nós. Um data frame é simplesmente uma combinação de vários vetores (variáveis) do mesmo comprimento em uma matriz. No formato convencional (formato largo), as variáveis estão nas colunas e os respondentes nas linhas.

  • Colunas: Vetores, fatores (variáveis)
  • Linhas: Casos (unidades de observação individuais, por exemplo, entrevistados)

Vamos exemplificar com o conjunto de dados que usaremos durante o curso: Panem Social Survey (pss). Este é um conjunto de dados de treinamento baseado no European Social Survey, mas com muito menos variáveis/casos (apenas 10 casos e 4 variáveis):

idno district gndr agea
10000 Distrikt 1 male 41
10001 Distrikt 1 male 65
10002 Distrikt 1 male 48
10003 Distrikt 1 female 49
10004 Distrikt 1 female 48
10005 Distrikt 1 female 64
10006 Distrikt 1 male 63
10007 Distrikt 1 female 70
10008 Distrikt 1 female 80
10009 Distrikt 1 male 57

Neste exemplo, temos quatro variáveis no conjunto de dados: idno, district, gndr e agea. Estes são autoexplicativos: idno é o ID único, district é o distrito do entrevistado, gndr é o gênero e agea é a idade. Muitas vezes, as variáveis não são intuitivas, então é necessário consultar um livro de códigos. Lidaremos com conjuntos de dados maiores no próximo bloco de aprendizado.

Vamos para o desafio final!