A primeira etapa do processo de análise de dados é a importação dos dados. Entretanto, é necessário obter o conhecimento dos métodos e as formas de poder realizar a coleta e o armazenamento.
O que é um dado
Dado é basicamente o registro do atributo de um ente, objeto ou fenômeno. Por exemplo, o envio de pedidos de clientes. Cada registro representa um cliente, enquanto os atributos do cliente, conhecido também como variáveis, como por exemplo, o nome, endereço, o número do pedido, etc.
Dados Estruturados x Não Estruturados
Os dados possuem dois tipos de estruturas:
Dados estruturados: dados formatados de forma padrão, organizados em formato tabular, contendo linhas e colunas;
Dados Não Estruturados: não possuem formatação padrão e são difíceis de processar.
Tipos de Arquivos
Para acessar os dados é necessário conhecer os tipos dos formatos de arquivos existentes.
Comma-separated values - csv
São arquivos comuns para dados estruturados. Cada coluna e suas observações são separadas por virgulas. São usualmente utilizadas com planilhas eletrônicas e com as linguagens R e Python.
Tab-separated values
São arquivos de texto nos quais os valores são separados por um espaço.
XLSX
São arquivos utilizados para representar as planilhas eletrônicas, normalmente do Excel.
JavaScript Object Notation - JSON
O formato é utilizado para a transferência de dados estruturados entre um servidor de Web e uma aplicação Web. Conseguem transmitir uma grande quantidade de informações entre o cliente e o servidor.
Bancos de dados - .db
Usualmente arquivos de banco de dados são salvos no formato .db, onde os Sistemas Gerenciadores de Bancos de Dados e também o R e Python podem abrir.
Métodos de obtenção
Para obter os arquivos dos dados, é necessário conhecer os procedimentos para que possamos transferir de forma a conseguir utiliza-los.
Download convencional
Usualmente realizados através de um navegador, e também com softwares, como por exemplo, linguagens como R e Python.
API’s
Application Programming Interface, ou, em português, Interface de Programação de Aplicativos.
Funcionam como tradutores com a função de conectar sistemas, softwares e aplicativos, permitindo consultar, alterar e armazenar dados e trocar dados de diferentes sistemas.
É possível ter um serviço de consulta direta aos dados sem precisar navegar pelo site ou utilizar robôs para a obtenção das informações de forma automática.
Web Scrapping - Raspagem web
É um conjunto de métodos que visam extrair dados de páginas web. É feito todo um processo de transformação de dados de uma página para a máquina do usuário utilizando uma linguagem de programação.
Exemplo: dados de uma pagina na internet que estão disponibilizados em uma tabela, entretanto, não possui a opção de download, sendo necessário o acesso ao código fonte da página para coletar.
SDMX
Acrônimo de Statistical Data and Metadata eXchange uma iniciativa internacional com o objetivo de desenvolver e empregar processos eficientes para troca e partilha de dados e metainformação estatística entre organizações internacionais e os seus países membros. Comum para obtenção de dados de órgãos internacionais, como por exemplo a OCDE.
Onde estão os dados?
Os dados são disponibilizados em diferentes formatos e com diferentes métodos de extração, mas onde podemos obtê-los?
Devemos separar as fontes dos dados em duas categorias: dados públicos e dados privados. Iremos elencar as fontes das quais podemos importar os dados públicos.
Dados públicos
Disponibilizados por entidades públicas e por empresas privadas, sem restrições, para qualquer usuário utilizar. Ex: Portal brasileiro de dados abertos.
Abaixo, elencamos algumas fontes utilizadas para obter dados econômicos e sociais.
Dados do Banco Central
Existem diversas bases de dados que o Banco Central do Brasil (BCB) disponibiliza para acesso público, dentre elas:
- Sistema Gerenciador de Séries Temporais (SGS): milhares de séries econômico-financeiras de diversas fontes;
- Sistema Expectativas de Mercado: dados de expectativas de agentes de mercado para indicadores econômicos, compilados no Relatório Focus.
- Sistema Financeiro Nacional: dados sobre as instituições financeiras e indicadores financeiros do país.
Dados do IPEADATA
O IPEADATA oferece um grande volume de dados com acesso público, organizados nos seguintes temas:
- Macroeconômico: dados econômicos e financeiros do Brasil em séries anuais, mensais e diárias na mesma unidade monetária;
- Regional: dados econômicos, demográficos e geográficos para estados, municípios (e suas áreas mínimas comparáveis), regiões administrativas e bacias hidrográficas brasileiras;
- Social: dados e indicadores sobre distribuição de renda, pobreza, educação, saúde, previdência social e segurança pública.
Dados do Sidra/IBGE
O Sidra é um sistema disponibilizado pelo IBGE com bases de dados públicas dos mais variados temas, organizados em tabelas agregadas (não identificam o informante). Estes dados são oriundos das pesquisas e diversos trabalhos que a instituição realiza, podendo conter informações atreladas a nível territorial, a um período de tempo, a classificações ou a unidades de medida/cálculos estatísticos.
Outros
Acima, elencamos as principais fontes de dados públicas sobre economia, entretanto, é possível coletar dados sobre temas também de como segurança, educação e saúde.
E uma forma de conseguir importar os dados dessas áreas, sem necessitar de realizar buscas extensas na internet, devido a desagregação das informações, é através da organização base dos dados.
A base dos dados é uma organização não governamental sem fins lucrativos e open source que atua para universalizar o acesso a dados de qualidade.
Portanto, se existem dados disponibilizados por entidades públicas, é possível que a base dos dados facilite o processo.
Dados privados
Dados criados por pessoas ou empresas e que se mantêm dentro da entidade. Obviamente, são dados que somente pessoas dentro da organização possuem e conseguem acessar, portanto, cada uma possui uma forma de extrair e transformar. Ex. informações de clientes e indicadores da empresa.
____________________________________________________
Quer aprender mais?
Veja nosso curso de Fundamentos de Análise de Dados, onde ensinamos todo o processo para aqueles que desejam entrar na área. O curso faz parte da trilha Ciência de Dados para Economia e Finanças.