Onde encontrar dados e ferramentas para text mining?

A aplicação das técnicas de mineração de texto pode trazer análises quantitativas informativas sobre a emoção, tom, categoria e outros padrões de interesse em documentos textuais. O primeiro passo é identificar, coletar e preparar estes dados brutos. Neste artigo, apresentamos bases de dados públicas de Economia e Finanças que podem ser exploradas, assim como ferramentas de programação úteis.

Bases de dados

Documentos textuais podem ser encontrados com facilidade em qualquer lugar, principalmente online. Um post de rede social, um artigo em um site, um ebook publicado, etc., são todos exemplos de documentos textuais que podem ser suprimento para as técnicas de mineração de texto. Aqui vamos focar em exempos de Economia e Finanças que permitem acesso aos dados de forma relativamente fácil.

  • Banco Central do Brasil

    A instituição publica regularmente atas e comunicados sobre as decisões de política monetária, através de um comitê, onde há informações sobre o que foi discutido pelos diretores do banco nas reuniões.

    Possíveis aplicaçõesanálise de sentimento e análise de tópicos.

    Disponibilização dos dados: via web scraping ou via API.

  • Bank for International Settlements

    A instituição publica regularmente uma base de dados com os discursos proferidos por diretores de bancos centrais de diversos países, em formato compilado e tabular.

    Possíveis aplicaçõesclassificação textual e análise de incerteza.

    Disponibilização dos dados: via arquivo de download.

  • Fundos de Investimento

    Diversos fundos de investimento publicam regularmente as chamadas “Cartas do Gestor”, onde há informações sobre o fundo, sobre a economia e sobre a visão do gestor, em geral.

    Possíveis aplicaçõessumarização textual.

    Disponibilização dos dados: via arquivo de download.

É importante mencionar que estes dados estão disponibilizados, geralmente, de forma não estruturada. Em outras palavras, são textos espalhados e muitas vezes não organizados em uma tabela de fácil manejo.

Ferramentas

Existem diversas ferramentas para aplicar técnicas de mineração de texto. Dentre elas, o Python se destaca como uma linguagem de programação versátil e com um amplo conjunto de bibliotecas úteis para trabalhar com este formato de dado.

Dentre as bibliotecas que podem ser utilizadas para coletar e realizar alguns processamentos de dados textuais, destaque-se o Pandas, além de outras bibliotecas como Requests e as de fábrica da linguagem, json e urllib.

  • Exemplo 1

Abaixo mostramos como coletar os dados de uma ata do COPOM, conforme a documentação da API. O procedimento pode ser generalizado para coletar todos os dados disponíveis.

Para obter o código e o tutorial deste exercício faça parte do Clube AM e receba toda semana os códigos em R/Python, vídeos, tutoriais e suporte completo para dúvidas.

  • Exemplo 2

Abaixo mostramos como coletar os dados dos discursos de diretores de bancos centrais disponíveis no BIS.

  • Exemplo 3

Abaixo mostramos como coletar os dados de uma carta de gestor disponível online em formato PDF.

Conclusão

A aplicação das técnicas de mineração de texto pode trazer análises quantitativas informativas sobre a emoção, tom, categoria e outros padrões de interesse em documentos textuais. O primeiro passo é identificar, coletar e preparar estes dados brutos. Neste artigo, apresentamos bases de dados públicas de Economia e Finanças que podem ser exploradas, assim como ferramentas de programação úteis.

Quer aprender mais?

Clique aqui para fazer seu cadastro no Boletim AM e baixar o código que produziu este exercício, além de receber novos exercícios com exemplos reais de análise de dados envolvendo as áreas de Data Science, Econometria, Machine Learning, Macroeconomia Aplicada, Finanças Quantitativas e Políticas Públicas diretamente em seu e-mail.

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Coletando dados para monitoramento climático com Python

As condições climatológicas influenciam desde a safra de grãos até a decisão de um vendedor ambulante levar seu carrinho para a praia ou não. Por sua importância e impactos na economia do país, neste exercício mostramos como coletar e elaborar análises de dados sobre o clima usando o Python.

Coletando dados de secas e queimadas no Brasil com Python

Neste artigo exploramos fontes públicas de dados sobre secas e queimadas no Brasil. Mostramos como acessar, coletar e preparar os dados para elaboração de análises. Usamos a linguagem Python para desenvolver uma rotina automatizada.

Como analisar demonstrações contábeis usando IA

Neste post, vamos explorar como utilizar o modelo de linguagem Gemini do Google para analisar demonstrações contábeis anuais da Eletrobras e extrair informações relevantes para tomada de decisão. Através de um código Python, vamos importar os dados direto da CVM, conectar com o Gemini e gerar resumos sobre as contas das demonstrações e perspectivas futuras sobre as finanças da empresa.

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.