Unidade 1 > Introdução à Linguagem R > Dataframes

Dataframes

Além de vetores e fatores, há o tipo de objeto data frame que é importante para nós. Um data frame é simplesmente uma combinação de vários vetores (variáveis) do mesmo comprimento em uma matriz. No formato convencional (formato largo), as variáveis estão nas colunas e os respondentes nas linhas.

Colunas: Vetores, fatores (variáveis)
Linhas: Casos (unidades de observação individuais, por exemplo, entrevistados)

Vamos exemplificar com o conjunto de dados que usaremos durante o curso: Panem Social Survey (pss). Este é um conjunto de dados de treinamento baseado no European Social Survey, mas com muito menos variáveis/casos (apenas 10 casos e 4 variáveis):

idno	district	gndr	agea
10000	Distrikt 1	male	41
10001	Distrikt 1	male	65
10002	Distrikt 1	male	48
10003	Distrikt 1	female	49
10004	Distrikt 1	female	48
10005	Distrikt 1	female	64
10006	Distrikt 1	male	63
10007	Distrikt 1	female	70
10008	Distrikt 1	female	80
10009	Distrikt 1	male	57

Neste exemplo, temos quatro variáveis no conjunto de dados: idno, district, gndr e agea. Estes são autoexplicativos: idno é o ID único, district é o distrito do entrevistado, gndr é o gênero e agea é a idade. Muitas vezes, as variáveis não são intuitivas, então é necessário consultar um livro de códigos. Lidaremos com conjuntos de dados maiores no próximo bloco de aprendizado.

Vamos para o desafio final!