Importação: onde estão os dados?

A primeira etapa do processo de análise de dados é a importação dos dados. Entretanto, é necessário obter o conhecimento dos métodos e as formas de poder realizar a coleta e o armazenamento.

O que é um dado

Dado é basicamente o registro do atributo de um ente, objeto ou fenômeno. Por exemplo, o envio de pedidos de clientes. Cada registro representa um cliente, enquanto os atributos do cliente, conhecido também como variáveis, como por exemplo, o nome, endereço, o número do pedido, etc.

Dados Estruturados x Não Estruturados

Os dados possuem dois tipos de estruturas:

Dados estruturados: dados formatados de forma padrão, organizados em formato tabular, contendo linhas e colunas;

Dados Não Estruturados: não possuem formatação padrão e são difíceis de processar.

Tipos de Arquivos

Para acessar os dados é necessário conhecer os tipos dos formatos de arquivos existentes.

Comma-separated values - csv

São arquivos comuns para dados estruturados. Cada coluna e suas observações são separadas por virgulas. São usualmente utilizadas com planilhas eletrônicas e com as linguagens R e Python.

Tab-separated values

São arquivos de texto nos quais os valores são separados por um espaço.

XLSX

São arquivos utilizados para representar as planilhas eletrônicas, normalmente do Excel.

JavaScript Object Notation - JSON

O formato é utilizado para a transferência de dados estruturados entre um servidor de Web e uma aplicação Web. Conseguem transmitir uma grande quantidade de informações entre o cliente e o servidor.

Bancos de dados - .db

Usualmente arquivos de banco de dados são salvos no formato .db, onde os Sistemas Gerenciadores de Bancos de Dados e também o R e Python podem abrir.

Métodos de obtenção

Para obter os arquivos dos dados, é necessário conhecer os procedimentos para que possamos transferir de forma a conseguir utiliza-los.

Download convencional

Usualmente realizados através de um navegador, e também com softwares, como por exemplo, linguagens como R e Python. 

API’s

Application Programming Interface, ou, em português, Interface de Programação de Aplicativos. 

Funcionam como tradutores com a função de conectar sistemas, softwares e aplicativos, permitindo consultar, alterar e armazenar dados e trocar dados de diferentes sistemas.

É possível ter um serviço de consulta direta aos dados sem precisar navegar pelo site ou utilizar robôs para a obtenção das informações de forma automática.

Web Scrapping - Raspagem web

É um conjunto de métodos que visam extrair dados de páginas web. É feito todo um processo de transformação de dados de uma página para a máquina do usuário utilizando uma linguagem de programação.

Exemplo: dados de uma pagina na internet que estão disponibilizados em uma tabela, entretanto, não possui a opção de download, sendo necessário o acesso ao código fonte da página para coletar.

SDMX

Acrônimo de Statistical Data and Metadata eXchange  uma iniciativa internacional com o objetivo de desenvolver e empregar processos eficientes para troca e partilha de dados e metainformação estatística entre organizações internacionais e os seus países membros. Comum para obtenção de dados de órgãos internacionais, como por exemplo a OCDE.

Onde estão os dados?

Os dados são disponibilizados em diferentes formatos e com diferentes métodos de extração, mas onde podemos obtê-los?

Devemos separar as fontes dos dados em duas categorias: dados públicos e dados privados. Iremos elencar as fontes das quais podemos importar os dados públicos.

Dados públicos

Disponibilizados por entidades públicas e por empresas privadas, sem restrições, para qualquer usuário utilizar. Ex: Portal brasileiro de dados abertos.

Abaixo, elencamos algumas fontes utilizadas para obter dados econômicos e sociais.

Dados do Banco Central

Existem diversas bases de dados que o Banco Central do Brasil (BCB) disponibiliza para acesso público, dentre elas:

  • Sistema Gerenciador de Séries Temporais (SGS): milhares de séries econômico-financeiras de diversas fontes;
  • Sistema Expectativas de Mercado: dados de expectativas de agentes de mercado para indicadores econômicos, compilados no Relatório Focus.
  • Sistema Financeiro Nacional: dados sobre as instituições financeiras e indicadores financeiros do país.

Dados do IPEADATA

O IPEADATA oferece um grande volume de dados com acesso público, organizados nos seguintes temas:

  • Macroeconômico: dados econômicos e financeiros do Brasil em séries anuais, mensais e diárias na mesma unidade monetária;
  • Regional: dados econômicos, demográficos e geográficos para estados, municípios (e suas áreas mínimas comparáveis), regiões administrativas e bacias hidrográficas brasileiras;
  • Social: dados e indicadores sobre distribuição de renda, pobreza, educação, saúde, previdência social e segurança pública.

Dados do Sidra/IBGE

O Sidra é um sistema disponibilizado pelo IBGE com bases de dados públicas dos mais variados temas, organizados em tabelas agregadas (não identificam o informante). Estes dados são oriundos das pesquisas e diversos trabalhos que a instituição realiza, podendo conter informações atreladas a nível territorial, a um período de tempo, a classificações ou a unidades de medida/cálculos estatísticos.

Outros

Acima, elencamos as principais fontes de dados públicas sobre economia, entretanto, é possível coletar dados sobre temas também  de como segurança, educação e saúde. 

E uma forma de conseguir importar os dados dessas áreas, sem necessitar de realizar buscas extensas na internet, devido a desagregação das informações, é através da organização base dos dados.

A base dos dados é uma organização não governamental sem fins lucrativos e open source que atua para universalizar o acesso a dados de qualidade.

Portanto, se existem dados disponibilizados por entidades públicas, é possível que a base dos dados facilite o processo.

Dados privados

Dados criados por pessoas ou empresas e que se mantêm dentro da entidade. Obviamente, são dados que somente pessoas dentro da organização possuem e conseguem acessar, portanto, cada uma possui uma forma de extrair e transformar.  Ex. informações de clientes e indicadores da empresa.

____________________________________________________

Quer aprender mais?

Veja nosso curso de Fundamentos de Análise de Dados, onde ensinamos todo o processo para aqueles que desejam entrar na área. O curso faz parte da trilha Ciência de Dados para Economia e Finanças.

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Tratamento e transformação de séries temporais macroeconômicas para modelagem

"Garbage in, garbage out" é a regra de ouro na previsão macroeconômica. Antes de aplicar qualquer modelo de IA ou econometria para prever indicadores como o IPCA ou o PIB, existe um trabalho crucial de tratamento de dados. Neste post, abrimos os bastidores do nosso dashboard de previsões e mostramos o passo a passo para transformar dados brutos de múltiplas fontes (como BCB, IBGE e FRED) em séries prontas para modelagem. Veja como lidamos com diferentes frequências, aplicamos transformações e usamos metadados para criar um pipeline de dados robusto e automatizado.

Como planejar um pipeline de previsão macroeconômica: da coleta ao dashboard

Montar um pipeline de previsão macroeconômica não é apenas uma tarefa técnica — é um exercício de integração entre dados, modelos e automação. Neste post, apresento uma visão geral de como estruturar esse processo de ponta a ponta, da coleta de dados até a construção de um dashboard interativo, que exibe previsões automatizadas de inflação, câmbio, PIB e taxa Selic.

Coletando e integrando dados do BCB, IBGE e IPEA de forma automatizada

Quem trabalha com modelagem e previsão macroeconômica sabe o quanto é demorado reunir dados de diferentes fontes — Banco Central, IBGE, IPEA, FRED, IFI... Cada um com sua API, formato, frequência e estrutura. Esse gargalo de coleta e padronização consome tempo que poderia estar sendo usado na análise, nos modelos ou na comunicação dos resultados.

Foi exatamente por isso que criamos uma rotina de coleta automatizada, que busca, trata e organiza séries temporais econômicas diretamente das APIs oficiais, pronta para ser integrada a pipelines de previsão, dashboards ou agentes de IA econometristas.

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.