Importação: onde estão os dados?

A primeira etapa do processo de análise de dados é a importação dos dados. Entretanto, é necessário obter o conhecimento dos métodos e as formas de poder realizar a coleta e o armazenamento.

O que é um dado

Dado é basicamente o registro do atributo de um ente, objeto ou fenômeno. Por exemplo, o envio de pedidos de clientes. Cada registro representa um cliente, enquanto os atributos do cliente, conhecido também como variáveis, como por exemplo, o nome, endereço, o número do pedido, etc.

Dados Estruturados x Não Estruturados

Os dados possuem dois tipos de estruturas:

Dados estruturados: dados formatados de forma padrão, organizados em formato tabular, contendo linhas e colunas;

Dados Não Estruturados: não possuem formatação padrão e são difíceis de processar.

Tipos de Arquivos

Para acessar os dados é necessário conhecer os tipos dos formatos de arquivos existentes.

Comma-separated values - csv

São arquivos comuns para dados estruturados. Cada coluna e suas observações são separadas por virgulas. São usualmente utilizadas com planilhas eletrônicas e com as linguagens R e Python.

Tab-separated values

São arquivos de texto nos quais os valores são separados por um espaço.

XLSX

São arquivos utilizados para representar as planilhas eletrônicas, normalmente do Excel.

JavaScript Object Notation - JSON

O formato é utilizado para a transferência de dados estruturados entre um servidor de Web e uma aplicação Web. Conseguem transmitir uma grande quantidade de informações entre o cliente e o servidor.

Bancos de dados - .db

Usualmente arquivos de banco de dados são salvos no formato .db, onde os Sistemas Gerenciadores de Bancos de Dados e também o R e Python podem abrir.

Métodos de obtenção

Para obter os arquivos dos dados, é necessário conhecer os procedimentos para que possamos transferir de forma a conseguir utiliza-los.

Download convencional

Usualmente realizados através de um navegador, e também com softwares, como por exemplo, linguagens como R e Python. 

API’s

Application Programming Interface, ou, em português, Interface de Programação de Aplicativos. 

Funcionam como tradutores com a função de conectar sistemas, softwares e aplicativos, permitindo consultar, alterar e armazenar dados e trocar dados de diferentes sistemas.

É possível ter um serviço de consulta direta aos dados sem precisar navegar pelo site ou utilizar robôs para a obtenção das informações de forma automática.

Web Scrapping - Raspagem web

É um conjunto de métodos que visam extrair dados de páginas web. É feito todo um processo de transformação de dados de uma página para a máquina do usuário utilizando uma linguagem de programação.

Exemplo: dados de uma pagina na internet que estão disponibilizados em uma tabela, entretanto, não possui a opção de download, sendo necessário o acesso ao código fonte da página para coletar.

SDMX

Acrônimo de Statistical Data and Metadata eXchange  uma iniciativa internacional com o objetivo de desenvolver e empregar processos eficientes para troca e partilha de dados e metainformação estatística entre organizações internacionais e os seus países membros. Comum para obtenção de dados de órgãos internacionais, como por exemplo a OCDE.

Onde estão os dados?

Os dados são disponibilizados em diferentes formatos e com diferentes métodos de extração, mas onde podemos obtê-los?

Devemos separar as fontes dos dados em duas categorias: dados públicos e dados privados. Iremos elencar as fontes das quais podemos importar os dados públicos.

Dados públicos

Disponibilizados por entidades públicas e por empresas privadas, sem restrições, para qualquer usuário utilizar. Ex: Portal brasileiro de dados abertos.

Abaixo, elencamos algumas fontes utilizadas para obter dados econômicos e sociais.

Dados do Banco Central

Existem diversas bases de dados que o Banco Central do Brasil (BCB) disponibiliza para acesso público, dentre elas:

  • Sistema Gerenciador de Séries Temporais (SGS): milhares de séries econômico-financeiras de diversas fontes;
  • Sistema Expectativas de Mercado: dados de expectativas de agentes de mercado para indicadores econômicos, compilados no Relatório Focus.
  • Sistema Financeiro Nacional: dados sobre as instituições financeiras e indicadores financeiros do país.

Dados do IPEADATA

O IPEADATA oferece um grande volume de dados com acesso público, organizados nos seguintes temas:

  • Macroeconômico: dados econômicos e financeiros do Brasil em séries anuais, mensais e diárias na mesma unidade monetária;
  • Regional: dados econômicos, demográficos e geográficos para estados, municípios (e suas áreas mínimas comparáveis), regiões administrativas e bacias hidrográficas brasileiras;
  • Social: dados e indicadores sobre distribuição de renda, pobreza, educação, saúde, previdência social e segurança pública.

Dados do Sidra/IBGE

O Sidra é um sistema disponibilizado pelo IBGE com bases de dados públicas dos mais variados temas, organizados em tabelas agregadas (não identificam o informante). Estes dados são oriundos das pesquisas e diversos trabalhos que a instituição realiza, podendo conter informações atreladas a nível territorial, a um período de tempo, a classificações ou a unidades de medida/cálculos estatísticos.

Outros

Acima, elencamos as principais fontes de dados públicas sobre economia, entretanto, é possível coletar dados sobre temas também  de como segurança, educação e saúde. 

E uma forma de conseguir importar os dados dessas áreas, sem necessitar de realizar buscas extensas na internet, devido a desagregação das informações, é através da organização base dos dados.

A base dos dados é uma organização não governamental sem fins lucrativos e open source que atua para universalizar o acesso a dados de qualidade.

Portanto, se existem dados disponibilizados por entidades públicas, é possível que a base dos dados facilite o processo.

Dados privados

Dados criados por pessoas ou empresas e que se mantêm dentro da entidade. Obviamente, são dados que somente pessoas dentro da organização possuem e conseguem acessar, portanto, cada uma possui uma forma de extrair e transformar.  Ex. informações de clientes e indicadores da empresa.

____________________________________________________

Quer aprender mais?

Veja nosso curso de Fundamentos de Análise de Dados, onde ensinamos todo o processo para aqueles que desejam entrar na área. O curso faz parte da trilha Ciência de Dados para Economia e Finanças.

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Como Construir um Monitor de Política Monetária Automatizado com Python?

Descubra como transformar dados do Banco Central em inteligência de mercado com um Monitor de Política Monetária Automatizado. Neste artigo, exploramos o desenvolvimento de uma solução híbrida (Python + R) que integra análise de sentimento das atas do COPOM, cálculo da Regra de Taylor e monitoramento da taxa Selic. Aprenda a estruturar pipelines ETL eficientes e a visualizar insights econômicos em tempo real através de um dashboard interativo criado com Shiny, elevando o nível das suas decisões de investimento.

Qual o efeito de um choque de juros sobre a inadimplência?

Neste exercício, exploramos a relação dinâmica entre o custo do crédito (juros na ponta) e o risco realizado (taxa de inadimplência) através de uma análise exploratória de dados e modelagem econométrica utilizando a linguagem de programação R.

Qual a relação entre benefícios sociais e a taxa de participação do mercado de trabalho?

Este exercício apresenta uma investigação econométrica sobre a persistente estagnação da taxa de participação no mercado de trabalho brasileiro no período pós-pandemia. Utilizando a linguagem R e dados públicos do IBGE e Banco Central, construímos um modelo de regressão linear múltipla com correção de erros robustos (Newey-West). A análise testa a hipótese de que o aumento real das transferências de renda (Bolsa Família/Auxílio Brasil) elevou o salário de reserva, desincentivando o retorno à força de trabalho.

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.