Já demos os primeiros passos na conexão de valores individuais para vetores (variáveis) e vamos revisar isso aqui e introduzir alguns passos adicionais. Às vezes, os dados são coletados independentemente e agora estamos transformando os dados coletados em um conjunto de dados. Com os seguintes passos, você aprofundará seu entendimento do objeto data frame.
Em um exemplo fictício, entrevistamos \(5\) estudantes sobre sua satisfação com o refeitório usando \(5\) variáveis (avaliações em uma escala Likert de \(1\) muito insatisfeito a \(5\) muito satisfeito). Você pode ver isso na seguinte imagem:
Agora você pode criar \(5\) vetores, onde cada vetor representa uma pessoa. Importante: Fornecemos uma solução no Código, mas é importante para o seu progresso de aprendizado tentar por si mesmo primeiro. Depois de conseguir, você pode verificar a solução. Mas lembre-se: em R, há sempre mais de um caminho, então se o seu caminho for diferente, não significa que está errado, desde que o resultado final seja o mesmo!
Como primeiro passo, precisamos criar cinco vetores (para as cinco variáveis), cada um contendo os valores de todas as pessoas. Você pode realizar este passo com seu conhecimento. Tente fazer por conta própria primeiro e só depois confira a solução.
auswahl <- c(
4,
1,
3,
2,
5
) # Variable 1
geschmack <- c(
2,
5,
2,
1,
1
) # Variable 2
service <- c(
3,
3,
1,
5,
4
) # Variable 3
ambiente <- c(
1,
2,
4,
4,
3
) # Variable 4
preis <- c(
5,
1,
5,
3,
2
) # Variable 5
Agora você tem cinco variáveis individuais, mas elas ainda precisam ser combinadas em um conjunto de dados. Para isso, usamos a função cbind()
, onde o c
significa coluna: pois as variáveis são convencionalmente colocadas na coluna de um conjunto de dados. Com a função, os vetores individuais são combinados em um objeto:
df <- cbind(
auswahl,
geschmack,
service,
ambiente,
preis
)
Agora que criamos o novo objeto, se o chamarmos agora, ele não se parecerá com o conjunto de dados chamado anteriormente. Isso ocorre porque vetores do mesmo comprimento são automaticamente combinados em uma matriz:
df
## auswahl geschmack service ambiente preis
## [1,] 4 2 3 1 5
## [2,] 1 5 3 2 1
## [3,] 3 2 1 4 5
## [4,] 2 1 5 4 3
## [5,] 5 1 4 3 2
Agora precisamos especificar que se trata de um dataframe e que o R deve tratar o objeto adequadamente. Para isso, usamos a função data.frame()
, que converte um objeto (na forma de uma matriz) para o tipo de dados dataframe.
df2 <- data.frame(df)
df2
## auswahl geschmack service ambiente preis
## 1 4 2 3 1 5
## 2 1 5 3 2 1
## 3 3 2 1 4 5
## 4 2 1 5 4 3
## 5 5 1 4 3 2
O conjunto de dados está pronto!
Também no conjunto de dados, assim como em objetos de vetor, podemos extrair valores individuais. Como antes, fazemos isso usando o nome do objeto e colocando as condições entre colchetes []
imediatamente a seguir.
Importante: Agora temos duas dimensões - linhas e colunas. O primeiro argumento na linha é a seleção da linha, o segundo argumento é a seleção da coluna. Se você quiser saber o primeiro item, defina ambos os argumentos como 1.
df2[1, 1]
## [1] 4
# 1º item: 1ª linha, 1ª coluna
Em vez de valores individuais, você também pode exibir uma linha ou coluna inteira. Basta deixar o outro argumento vazio:
# dritte Zeile
df2[3, ]
## auswahl geschmack service ambiente preis
## 3 3 2 1 4 5
# fünfte Spalte
df2[, 5]
## [1] 5 1 5 3 2
Quando você deseja exibir várias colunas ou linhas ao mesmo tempo, basta usar a função conhecida c()
dentro dos colchetes.
# Spalte 1, 3 & 4
df2[,
c(
1,
3,
4
)
]
## auswahl service ambiente
## 1 4 3 1
## 2 1 3 2
## 3 3 1 4
## 4 2 5 4
## 5 5 4 3
Como alternativa ao c()
, você também pode usar dois pontos :
.
# Linhas 3 a 5
df2[3:5, ]
## auswahl geschmack service ambiente preis
## 3 3 2 1 4 5
## 4 2 1 5 4 3
## 5 5 1 4 3 2
Por fim, você não precisa sempre saber a posição das variáveis, em vez disso, você pode usar o nome da variável. No entanto, isso só é possível em combinação com a função c()
quando você deseja exibir várias colunas.
# Spalte auswahl, service und preis
df2[,
c(
"auswahl",
"service",
"preis"
)
]
## auswahl service preis
## 1 4 3 5
## 2 1 3 1
## 3 3 1 5
## 4 2 5 3
## 5 5 4 2
Agora que você entende como os conjuntos de dados são estruturados de forma básica! No próximo bloco de aprendizado, começaremos a usar conjuntos de dados reais e fictícios e a manipular e descrever os dados.
Antes de encerrar, no próximo capítulo haverá uma introdução ao gitlab. Isso é importante para o trabalho em grupo, pois o gitlab facilita muito essa colaboração!