Importação: onde estão os dados?

A primeira etapa do processo de análise de dados é a importação dos dados. Entretanto, é necessário obter o conhecimento dos métodos e as formas de poder realizar a coleta e o armazenamento.

O que é um dado

Dado é basicamente o registro do atributo de um ente, objeto ou fenômeno. Por exemplo, o envio de pedidos de clientes. Cada registro representa um cliente, enquanto os atributos do cliente, conhecido também como variáveis, como por exemplo, o nome, endereço, o número do pedido, etc.

Dados Estruturados x Não Estruturados

Os dados possuem dois tipos de estruturas:

Dados estruturados: dados formatados de forma padrão, organizados em formato tabular, contendo linhas e colunas;

Dados Não Estruturados: não possuem formatação padrão e são difíceis de processar.

Tipos de Arquivos

Para acessar os dados é necessário conhecer os tipos dos formatos de arquivos existentes.

Comma-separated values - csv

São arquivos comuns para dados estruturados. Cada coluna e suas observações são separadas por virgulas. São usualmente utilizadas com planilhas eletrônicas e com as linguagens R e Python.

Tab-separated values

São arquivos de texto nos quais os valores são separados por um espaço.

XLSX

São arquivos utilizados para representar as planilhas eletrônicas, normalmente do Excel.

JavaScript Object Notation - JSON

O formato é utilizado para a transferência de dados estruturados entre um servidor de Web e uma aplicação Web. Conseguem transmitir uma grande quantidade de informações entre o cliente e o servidor.

Bancos de dados - .db

Usualmente arquivos de banco de dados são salvos no formato .db, onde os Sistemas Gerenciadores de Bancos de Dados e também o R e Python podem abrir.

Métodos de obtenção

Para obter os arquivos dos dados, é necessário conhecer os procedimentos para que possamos transferir de forma a conseguir utiliza-los.

Download convencional

Usualmente realizados através de um navegador, e também com softwares, como por exemplo, linguagens como R e Python. 

API’s

Application Programming Interface, ou, em português, Interface de Programação de Aplicativos. 

Funcionam como tradutores com a função de conectar sistemas, softwares e aplicativos, permitindo consultar, alterar e armazenar dados e trocar dados de diferentes sistemas.

É possível ter um serviço de consulta direta aos dados sem precisar navegar pelo site ou utilizar robôs para a obtenção das informações de forma automática.

Web Scrapping - Raspagem web

É um conjunto de métodos que visam extrair dados de páginas web. É feito todo um processo de transformação de dados de uma página para a máquina do usuário utilizando uma linguagem de programação.

Exemplo: dados de uma pagina na internet que estão disponibilizados em uma tabela, entretanto, não possui a opção de download, sendo necessário o acesso ao código fonte da página para coletar.

SDMX

Acrônimo de Statistical Data and Metadata eXchange  uma iniciativa internacional com o objetivo de desenvolver e empregar processos eficientes para troca e partilha de dados e metainformação estatística entre organizações internacionais e os seus países membros. Comum para obtenção de dados de órgãos internacionais, como por exemplo a OCDE.

Onde estão os dados?

Os dados são disponibilizados em diferentes formatos e com diferentes métodos de extração, mas onde podemos obtê-los?

Devemos separar as fontes dos dados em duas categorias: dados públicos e dados privados. Iremos elencar as fontes das quais podemos importar os dados públicos.

Dados públicos

Disponibilizados por entidades públicas e por empresas privadas, sem restrições, para qualquer usuário utilizar. Ex: Portal brasileiro de dados abertos.

Abaixo, elencamos algumas fontes utilizadas para obter dados econômicos e sociais.

Dados do Banco Central

Existem diversas bases de dados que o Banco Central do Brasil (BCB) disponibiliza para acesso público, dentre elas:

  • Sistema Gerenciador de Séries Temporais (SGS): milhares de séries econômico-financeiras de diversas fontes;
  • Sistema Expectativas de Mercado: dados de expectativas de agentes de mercado para indicadores econômicos, compilados no Relatório Focus.
  • Sistema Financeiro Nacional: dados sobre as instituições financeiras e indicadores financeiros do país.

Dados do IPEADATA

O IPEADATA oferece um grande volume de dados com acesso público, organizados nos seguintes temas:

  • Macroeconômico: dados econômicos e financeiros do Brasil em séries anuais, mensais e diárias na mesma unidade monetária;
  • Regional: dados econômicos, demográficos e geográficos para estados, municípios (e suas áreas mínimas comparáveis), regiões administrativas e bacias hidrográficas brasileiras;
  • Social: dados e indicadores sobre distribuição de renda, pobreza, educação, saúde, previdência social e segurança pública.

Dados do Sidra/IBGE

O Sidra é um sistema disponibilizado pelo IBGE com bases de dados públicas dos mais variados temas, organizados em tabelas agregadas (não identificam o informante). Estes dados são oriundos das pesquisas e diversos trabalhos que a instituição realiza, podendo conter informações atreladas a nível territorial, a um período de tempo, a classificações ou a unidades de medida/cálculos estatísticos.

Outros

Acima, elencamos as principais fontes de dados públicas sobre economia, entretanto, é possível coletar dados sobre temas também  de como segurança, educação e saúde. 

E uma forma de conseguir importar os dados dessas áreas, sem necessitar de realizar buscas extensas na internet, devido a desagregação das informações, é através da organização base dos dados.

A base dos dados é uma organização não governamental sem fins lucrativos e open source que atua para universalizar o acesso a dados de qualidade.

Portanto, se existem dados disponibilizados por entidades públicas, é possível que a base dos dados facilite o processo.

Dados privados

Dados criados por pessoas ou empresas e que se mantêm dentro da entidade. Obviamente, são dados que somente pessoas dentro da organização possuem e conseguem acessar, portanto, cada uma possui uma forma de extrair e transformar.  Ex. informações de clientes e indicadores da empresa.

____________________________________________________

Quer aprender mais?

Veja nosso curso de Fundamentos de Análise de Dados, onde ensinamos todo o processo para aqueles que desejam entrar na área. O curso faz parte da trilha Ciência de Dados para Economia e Finanças.

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Como usar automação com Python e IA na análise de ações

No cenário atual, profissionais de finanças buscam formas mais rápidas, eficientes e precisas para analisar dados e tomar decisões. Uma das grandes revoluções para isso é o uso combinado de Python, automação e modelos de linguagem grande (LLMs), como o Google Gemini. O dashboard que criamos é um ótimo exemplo prático dessa integração, reunindo dados, cálculos, visualizações e análise textual em um único ambiente.

Análise de ações com IA - um guia inicial

Neste artigo, você vai aprender a integrar IA na análise de ações de forma automatizada utilizando Python. Ao final, você terá um pipeline completo capaz de coletar dados de mercado, gerar gráficos, elaborar relatórios com linguagem natural.

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.