Onde encontrar dados e ferramentas para text mining?

A aplicação das técnicas de mineração de texto pode trazer análises quantitativas informativas sobre a emoção, tom, categoria e outros padrões de interesse em documentos textuais. O primeiro passo é identificar, coletar e preparar estes dados brutos. Neste artigo, apresentamos bases de dados públicas de Economia e Finanças que podem ser exploradas, assim como ferramentas de programação úteis.

Bases de dados

Documentos textuais podem ser encontrados com facilidade em qualquer lugar, principalmente online. Um post de rede social, um artigo em um site, um ebook publicado, etc., são todos exemplos de documentos textuais que podem ser suprimento para as técnicas de mineração de texto. Aqui vamos focar em exempos de Economia e Finanças que permitem acesso aos dados de forma relativamente fácil.

  • Banco Central do Brasil

    A instituição publica regularmente atas e comunicados sobre as decisões de política monetária, através de um comitê, onde há informações sobre o que foi discutido pelos diretores do banco nas reuniões.

    Possíveis aplicaçõesanálise de sentimento e análise de tópicos.

    Disponibilização dos dados: via web scraping ou via API.

  • Bank for International Settlements

    A instituição publica regularmente uma base de dados com os discursos proferidos por diretores de bancos centrais de diversos países, em formato compilado e tabular.

    Possíveis aplicaçõesclassificação textual e análise de incerteza.

    Disponibilização dos dados: via arquivo de download.

  • Fundos de Investimento

    Diversos fundos de investimento publicam regularmente as chamadas “Cartas do Gestor”, onde há informações sobre o fundo, sobre a economia e sobre a visão do gestor, em geral.

    Possíveis aplicaçõessumarização textual.

    Disponibilização dos dados: via arquivo de download.

É importante mencionar que estes dados estão disponibilizados, geralmente, de forma não estruturada. Em outras palavras, são textos espalhados e muitas vezes não organizados em uma tabela de fácil manejo.

Ferramentas

Existem diversas ferramentas para aplicar técnicas de mineração de texto. Dentre elas, o Python se destaca como uma linguagem de programação versátil e com um amplo conjunto de bibliotecas úteis para trabalhar com este formato de dado.

Dentre as bibliotecas que podem ser utilizadas para coletar e realizar alguns processamentos de dados textuais, destaque-se o Pandas, além de outras bibliotecas como Requests e as de fábrica da linguagem, json e urllib.

  • Exemplo 1

Abaixo mostramos como coletar os dados de uma ata do COPOM, conforme a documentação da API. O procedimento pode ser generalizado para coletar todos os dados disponíveis.

Para obter o código e o tutorial deste exercício faça parte do Clube AM e receba toda semana os códigos em R/Python, vídeos, tutoriais e suporte completo para dúvidas.

  • Exemplo 2

Abaixo mostramos como coletar os dados dos discursos de diretores de bancos centrais disponíveis no BIS.

  • Exemplo 3

Abaixo mostramos como coletar os dados de uma carta de gestor disponível online em formato PDF.

Conclusão

A aplicação das técnicas de mineração de texto pode trazer análises quantitativas informativas sobre a emoção, tom, categoria e outros padrões de interesse em documentos textuais. O primeiro passo é identificar, coletar e preparar estes dados brutos. Neste artigo, apresentamos bases de dados públicas de Economia e Finanças que podem ser exploradas, assim como ferramentas de programação úteis.

Quer aprender mais?

Clique aqui para fazer seu cadastro no Boletim AM e baixar o código que produziu este exercício, além de receber novos exercícios com exemplos reais de análise de dados envolvendo as áreas de Data Science, Econometria, Machine Learning, Macroeconomia Aplicada, Finanças Quantitativas e Políticas Públicas diretamente em seu e-mail.

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

O que é e como funcionam Sistemas Multi-Agentes

Sistemas multi-agentes (MAS) representam uma nova forma de estruturar aplicações de inteligência artificial, especialmente úteis para lidar com problemas complexos e distribuídos. Em vez de depender de um único agente generalista, esses sistemas são compostos por múltiplos agentes especializados que colaboram, competem ou se coordenam para executar tarefas específicas. Neste post, explicamos o que são os MAS, seus principais componentes (como LLMs, ferramentas e processos) e as arquiteturas mais comuns.

O que é um Vector Database e como criar um com LangChain

Nesta postagem, mostramos como construir um pipeline simples de RAG (Retrieval-Augmented Generation) usando o LangChain, o modelo Gemini 2.0 Flash e o Vector Database Chroma. Utilizamos como exemplo o Relatório de Inflação de junho de 2025 do Banco Central do Brasil. O fluxo envolve o download e leitura do PDF, divisão do texto com RecursiveCharacterTextSplitter, geração de embeddings com Gemini, armazenamento vetorial com Chroma e busca semântica para responder perguntas com base no conteúdo do relatório. É uma aplicação prática e didática para economistas que desejam integrar IA ao seu fluxo de análise.

Automatizando a Construção de Códigos em Python com LangGraph

Neste post, mostramos como construir um agente de código em Python utilizando LangGraph, LangChain e Gemini. A proposta é construir um protótipo para automatizar o ciclo completo de geração, execução e correção de código com o uso de LLMs, organizando o processo em um grafo de estados.

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.