Onde encontrar dados e ferramentas para text mining?

A aplicação das técnicas de mineração de texto pode trazer análises quantitativas informativas sobre a emoção, tom, categoria e outros padrões de interesse em documentos textuais. O primeiro passo é identificar, coletar e preparar estes dados brutos. Neste artigo, apresentamos bases de dados públicas de Economia e Finanças que podem ser exploradas, assim como ferramentas de programação úteis.

Bases de dados

Documentos textuais podem ser encontrados com facilidade em qualquer lugar, principalmente online. Um post de rede social, um artigo em um site, um ebook publicado, etc., são todos exemplos de documentos textuais que podem ser suprimento para as técnicas de mineração de texto. Aqui vamos focar em exempos de Economia e Finanças que permitem acesso aos dados de forma relativamente fácil.

Banco Central do Brasil
A instituição publica regularmente atas e comunicados sobre as decisões de política monetária, através de um comitê, onde há informações sobre o que foi discutido pelos diretores do banco nas reuniões.

Possíveis aplicações: análise de sentimento e análise de tópicos.

Disponibilização dos dados: via web scraping ou via API.
Bank for International Settlements
A instituição publica regularmente uma base de dados com os discursos proferidos por diretores de bancos centrais de diversos países, em formato compilado e tabular.

Possíveis aplicações: classificação textual e análise de incerteza.

Disponibilização dos dados: via arquivo de download.
Fundos de Investimento
Diversos fundos de investimento publicam regularmente as chamadas “Cartas do Gestor”, onde há informações sobre o fundo, sobre a economia e sobre a visão do gestor, em geral.

Possíveis aplicações: sumarização textual.

Disponibilização dos dados: via arquivo de download.

É importante mencionar que estes dados estão disponibilizados, geralmente, de forma não estruturada. Em outras palavras, são textos espalhados e muitas vezes não organizados em uma tabela de fácil manejo.

Ferramentas

Existem diversas ferramentas para aplicar técnicas de mineração de texto. Dentre elas, o Python se destaca como uma linguagem de programação versátil e com um amplo conjunto de bibliotecas úteis para trabalhar com este formato de dado.

Dentre as bibliotecas que podem ser utilizadas para coletar e realizar alguns processamentos de dados textuais, destaque-se o Pandas, além de outras bibliotecas como Requests e as de fábrica da linguagem, json e urllib.

Exemplo 1

Abaixo mostramos como coletar os dados de uma ata do COPOM, conforme a documentação da API. O procedimento pode ser generalizado para coletar todos os dados disponíveis.

Para obter o código e o tutorial deste exercício faça parte do Clube AM e receba toda semana os códigos em R/Python, vídeos, tutoriais e suporte completo para dúvidas.

Exemplo 2

Abaixo mostramos como coletar os dados dos discursos de diretores de bancos centrais disponíveis no BIS.

Exemplo 3

Abaixo mostramos como coletar os dados de uma carta de gestor disponível online em formato PDF.

Conclusão

Quer aprender mais?

Clique aqui para fazer seu cadastro no Boletim AM e baixar o código que produziu este exercício, além de receber novos exercícios com exemplos reais de análise de dados envolvendo as áreas de Data Science, Econometria, Machine Learning, Macroeconomia Aplicada, Finanças Quantitativas e Políticas Públicas diretamente em seu e-mail.

Onde encontrar dados e ferramentas para text mining?

Bases de dados

Ferramentas

Conclusão

Quer aprender mais?

Compartilhe esse artigo

Boletim AM

Encontre o seu conteúdo

Categorias

Artigos mais acessados

Agente de IA que coleta dados do BCB e do IBGE sozinho

Como construímos um agente de IA que lê as atas do Copom

Pipeline de relatório de IPCA com agentes no Claude Code

Skills no Claude Code: o que são, onde ficam e como acionar

Context Engineering: o que o modelo lê quando responde

MCP: como conectar o Claude ao mundo real