Como discutido no Bloco de Aprendizagem 1, os arquivos sempre têm extensões de arquivo que indicam o formato de leitura/escrita. Para lembrar, por exemplo, .docx
para arquivos do Word ou .pptx
para arquivos do Powerpoint.
Para conjuntos de dados, existem formatos de arquivo globais que podem ser lidos pela maioria dos programas, mas também formatos de arquivo específicos de programas.
Os formatos de arquivo globais incluem:
.txt
(arquivos de texto, onde os dados geralmente são separados por tabulação)
.csv
(valores separados por vírgula)
No R, existem dois formatos de arquivo importantes: .RData
e .rds
. Arquivos com a extensão .RData
podem conter vários objetos, o que é útil, por exemplo, quando se deseja salvar todos os objetos em um único arquivo no final do script. O formato .rds
é um formato de arquivo comprimido no qual apenas um único objeto pode ser salvo. Para distribuição de conjuntos de dados, este é o formato mais comum usado no R.
Infelizmente, ainda há casos em que conjuntos de dados disponíveis publicamente são fornecidos apenas em um formato de arquivo compatível com o SPSS (.sav
). No entanto, isso não é um problema, pois com a ajuda de uma biblioteca podemos adicionar funções ao RStudio que podem ler esse formato de arquivo também.
O que é uma biblioteca afinal? R é uma linguagem de código aberto, na qual qualquer usuário pode escrever novas funções e disponibilizá-las para o mundo. Ao instalar, apenas as funções básicas são incluídas, representando apenas uma fração da gama de aplicações. Esta é uma das fortalezas em comparação com o SPSS ou Stata, pois muitos casos de uso podem ser incluídos. No entanto, isso também pode ser um grande desafio no início, pois muitas pessoas encontraram os mesmos problemas, resultando em mais de uma solução ou mais de uma possível biblioteca que pode ser adicionada. Neste curso, não forneceremos uma visão geral completa de diferentes bibliotecas para o mesmo problema, mas sempre apresentaremos apenas a biblioteca que preferimos. Isso não deve impedi-lo de procurar por outra biblioteca e encontrar a solução por meio dela.
No site oficial da biblioteca, atualmente (até março de 2022), estão listadas 18994 bibliotecas diferentes, que incluem funções adicionais para realizar aplicações estatísticas. Além disso, existem muitas bibliotecas em fase de desenvolvimento, que geralmente já podem ser utilizadas. No entanto, isso é algo apenas para usuários experientes - ou seja, para você após este curso.
A seguir, importaremos diferentes formatos de arquivos de conjunto de dados no R para trabalhar com eles posteriormente.