Importação: onde estão os dados?

A primeira etapa do processo de análise de dados é a importação dos dados. Entretanto, é necessário obter o conhecimento dos métodos e as formas de poder realizar a coleta e o armazenamento.

O que é um dado

Dado é basicamente o registro do atributo de um ente, objeto ou fenômeno. Por exemplo, o envio de pedidos de clientes. Cada registro representa um cliente, enquanto os atributos do cliente, conhecido também como variáveis, como por exemplo, o nome, endereço, o número do pedido, etc.

Dados Estruturados x Não Estruturados

Os dados possuem dois tipos de estruturas:

Dados estruturados: dados formatados de forma padrão, organizados em formato tabular, contendo linhas e colunas;

Dados Não Estruturados: não possuem formatação padrão e são difíceis de processar.

Tipos de Arquivos

Para acessar os dados é necessário conhecer os tipos dos formatos de arquivos existentes.

Comma-separated values - csv

São arquivos comuns para dados estruturados. Cada coluna e suas observações são separadas por virgulas. São usualmente utilizadas com planilhas eletrônicas e com as linguagens R e Python.

Tab-separated values

São arquivos de texto nos quais os valores são separados por um espaço.

XLSX

São arquivos utilizados para representar as planilhas eletrônicas, normalmente do Excel.

JavaScript Object Notation - JSON

O formato é utilizado para a transferência de dados estruturados entre um servidor de Web e uma aplicação Web. Conseguem transmitir uma grande quantidade de informações entre o cliente e o servidor.

Bancos de dados - .db

Usualmente arquivos de banco de dados são salvos no formato .db, onde os Sistemas Gerenciadores de Bancos de Dados e também o R e Python podem abrir.

Métodos de obtenção

Para obter os arquivos dos dados, é necessário conhecer os procedimentos para que possamos transferir de forma a conseguir utiliza-los.

Download convencional

Usualmente realizados através de um navegador, e também com softwares, como por exemplo, linguagens como R e Python. 

API’s

Application Programming Interface, ou, em português, Interface de Programação de Aplicativos. 

Funcionam como tradutores com a função de conectar sistemas, softwares e aplicativos, permitindo consultar, alterar e armazenar dados e trocar dados de diferentes sistemas.

É possível ter um serviço de consulta direta aos dados sem precisar navegar pelo site ou utilizar robôs para a obtenção das informações de forma automática.

Web Scrapping - Raspagem web

É um conjunto de métodos que visam extrair dados de páginas web. É feito todo um processo de transformação de dados de uma página para a máquina do usuário utilizando uma linguagem de programação.

Exemplo: dados de uma pagina na internet que estão disponibilizados em uma tabela, entretanto, não possui a opção de download, sendo necessário o acesso ao código fonte da página para coletar.

SDMX

Acrônimo de Statistical Data and Metadata eXchange  uma iniciativa internacional com o objetivo de desenvolver e empregar processos eficientes para troca e partilha de dados e metainformação estatística entre organizações internacionais e os seus países membros. Comum para obtenção de dados de órgãos internacionais, como por exemplo a OCDE.

Onde estão os dados?

Os dados são disponibilizados em diferentes formatos e com diferentes métodos de extração, mas onde podemos obtê-los?

Devemos separar as fontes dos dados em duas categorias: dados públicos e dados privados. Iremos elencar as fontes das quais podemos importar os dados públicos.

Dados públicos

Disponibilizados por entidades públicas e por empresas privadas, sem restrições, para qualquer usuário utilizar. Ex: Portal brasileiro de dados abertos.

Abaixo, elencamos algumas fontes utilizadas para obter dados econômicos e sociais.

Dados do Banco Central

Existem diversas bases de dados que o Banco Central do Brasil (BCB) disponibiliza para acesso público, dentre elas:

  • Sistema Gerenciador de Séries Temporais (SGS): milhares de séries econômico-financeiras de diversas fontes;
  • Sistema Expectativas de Mercado: dados de expectativas de agentes de mercado para indicadores econômicos, compilados no Relatório Focus.
  • Sistema Financeiro Nacional: dados sobre as instituições financeiras e indicadores financeiros do país.

Dados do IPEADATA

O IPEADATA oferece um grande volume de dados com acesso público, organizados nos seguintes temas:

  • Macroeconômico: dados econômicos e financeiros do Brasil em séries anuais, mensais e diárias na mesma unidade monetária;
  • Regional: dados econômicos, demográficos e geográficos para estados, municípios (e suas áreas mínimas comparáveis), regiões administrativas e bacias hidrográficas brasileiras;
  • Social: dados e indicadores sobre distribuição de renda, pobreza, educação, saúde, previdência social e segurança pública.

Dados do Sidra/IBGE

O Sidra é um sistema disponibilizado pelo IBGE com bases de dados públicas dos mais variados temas, organizados em tabelas agregadas (não identificam o informante). Estes dados são oriundos das pesquisas e diversos trabalhos que a instituição realiza, podendo conter informações atreladas a nível territorial, a um período de tempo, a classificações ou a unidades de medida/cálculos estatísticos.

Outros

Acima, elencamos as principais fontes de dados públicas sobre economia, entretanto, é possível coletar dados sobre temas também  de como segurança, educação e saúde. 

E uma forma de conseguir importar os dados dessas áreas, sem necessitar de realizar buscas extensas na internet, devido a desagregação das informações, é através da organização base dos dados.

A base dos dados é uma organização não governamental sem fins lucrativos e open source que atua para universalizar o acesso a dados de qualidade.

Portanto, se existem dados disponibilizados por entidades públicas, é possível que a base dos dados facilite o processo.

Dados privados

Dados criados por pessoas ou empresas e que se mantêm dentro da entidade. Obviamente, são dados que somente pessoas dentro da organização possuem e conseguem acessar, portanto, cada uma possui uma forma de extrair e transformar.  Ex. informações de clientes e indicadores da empresa.

____________________________________________________

Quer aprender mais?

Veja nosso curso de Fundamentos de Análise de Dados, onde ensinamos todo o processo para aqueles que desejam entrar na área. O curso faz parte da trilha Ciência de Dados para Economia e Finanças.

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Análise regional do mercado de trabalho com dados do CAGED usando Python

Os microdados dos CAGED fornecem informações detalhadas a nível de cidade, sexo, raça, nível de instrução, idade, salário e outras sobre os trabalhadores formais do Brasil, possibilitando ricas análises regionais de dados. Neste artigo mostramos como acessar, processar e analisar estes dados utilizando o Python.

Transfer Learning: mostrando porque o Python está na ponta do desenvolvimento

A aprendizagem por transferência (transfer learning) é o reuso de um modelo pré-treinado em um novo problema. Portanto, sua utilização torna-se um avanço enorme para a previsão de diferentes tipos de variáveis, principalmente para aquelas ordenadas no tempo. Mostramos nesta postagem o uso do Transfer Learning com o Python para o caso de Séries Temporais.

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.