Onde encontrar dados e ferramentas para text mining?

A aplicação das técnicas de mineração de texto pode trazer análises quantitativas informativas sobre a emoção, tom, categoria e outros padrões de interesse em documentos textuais. O primeiro passo é identificar, coletar e preparar estes dados brutos. Neste artigo, apresentamos bases de dados públicas de Economia e Finanças que podem ser exploradas, assim como ferramentas de programação úteis.

Bases de dados

Documentos textuais podem ser encontrados com facilidade em qualquer lugar, principalmente online. Um post de rede social, um artigo em um site, um ebook publicado, etc., são todos exemplos de documentos textuais que podem ser suprimento para as técnicas de mineração de texto. Aqui vamos focar em exempos de Economia e Finanças que permitem acesso aos dados de forma relativamente fácil.

  • Banco Central do Brasil

    A instituição publica regularmente atas e comunicados sobre as decisões de política monetária, através de um comitê, onde há informações sobre o que foi discutido pelos diretores do banco nas reuniões.

    Possíveis aplicaçõesanálise de sentimento e análise de tópicos.

    Disponibilização dos dados: via web scraping ou via API.

  • Bank for International Settlements

    A instituição publica regularmente uma base de dados com os discursos proferidos por diretores de bancos centrais de diversos países, em formato compilado e tabular.

    Possíveis aplicaçõesclassificação textual e análise de incerteza.

    Disponibilização dos dados: via arquivo de download.

  • Fundos de Investimento

    Diversos fundos de investimento publicam regularmente as chamadas “Cartas do Gestor”, onde há informações sobre o fundo, sobre a economia e sobre a visão do gestor, em geral.

    Possíveis aplicaçõessumarização textual.

    Disponibilização dos dados: via arquivo de download.

É importante mencionar que estes dados estão disponibilizados, geralmente, de forma não estruturada. Em outras palavras, são textos espalhados e muitas vezes não organizados em uma tabela de fácil manejo.

Ferramentas

Existem diversas ferramentas para aplicar técnicas de mineração de texto. Dentre elas, o Python se destaca como uma linguagem de programação versátil e com um amplo conjunto de bibliotecas úteis para trabalhar com este formato de dado.

Dentre as bibliotecas que podem ser utilizadas para coletar e realizar alguns processamentos de dados textuais, destaque-se o Pandas, além de outras bibliotecas como Requests e as de fábrica da linguagem, json e urllib.

  • Exemplo 1

Abaixo mostramos como coletar os dados de uma ata do COPOM, conforme a documentação da API. O procedimento pode ser generalizado para coletar todos os dados disponíveis.

Para obter o código e o tutorial deste exercício faça parte do Clube AM e receba toda semana os códigos em R/Python, vídeos, tutoriais e suporte completo para dúvidas.

  • Exemplo 2

Abaixo mostramos como coletar os dados dos discursos de diretores de bancos centrais disponíveis no BIS.

  • Exemplo 3

Abaixo mostramos como coletar os dados de uma carta de gestor disponível online em formato PDF.

Conclusão

A aplicação das técnicas de mineração de texto pode trazer análises quantitativas informativas sobre a emoção, tom, categoria e outros padrões de interesse em documentos textuais. O primeiro passo é identificar, coletar e preparar estes dados brutos. Neste artigo, apresentamos bases de dados públicas de Economia e Finanças que podem ser exploradas, assim como ferramentas de programação úteis.

Quer aprender mais?

Clique aqui para fazer seu cadastro no Boletim AM e baixar o código que produziu este exercício, além de receber novos exercícios com exemplos reais de análise de dados envolvendo as áreas de Data Science, Econometria, Machine Learning, Macroeconomia Aplicada, Finanças Quantitativas e Políticas Públicas diretamente em seu e-mail.

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Efeitos da transparência sobre a mortalidade infantil com RDD usando R

Este exercício visa analisar o impacto da Lei da Transparência (LAI) na mortalidade infantil em municípios brasileiros usando a linguagem de programação R. A LAI, que entrou em vigor em 2012, garante o acesso público à informação governamental, e espera-se que sua implementação tenha contribuído para a redução da mortalidade infantil.

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.