Onde encontrar dados e ferramentas para text mining?

A aplicação das técnicas de mineração de texto pode trazer análises quantitativas informativas sobre a emoção, tom, categoria e outros padrões de interesse em documentos textuais. O primeiro passo é identificar, coletar e preparar estes dados brutos. Neste artigo, apresentamos bases de dados públicas de Economia e Finanças que podem ser exploradas, assim como ferramentas de programação úteis.

Bases de dados

Documentos textuais podem ser encontrados com facilidade em qualquer lugar, principalmente online. Um post de rede social, um artigo em um site, um ebook publicado, etc., são todos exemplos de documentos textuais que podem ser suprimento para as técnicas de mineração de texto. Aqui vamos focar em exempos de Economia e Finanças que permitem acesso aos dados de forma relativamente fácil.

  • Banco Central do Brasil

    A instituição publica regularmente atas e comunicados sobre as decisões de política monetária, através de um comitê, onde há informações sobre o que foi discutido pelos diretores do banco nas reuniões.

    Possíveis aplicaçõesanálise de sentimento e análise de tópicos.

    Disponibilização dos dados: via web scraping ou via API.

  • Bank for International Settlements

    A instituição publica regularmente uma base de dados com os discursos proferidos por diretores de bancos centrais de diversos países, em formato compilado e tabular.

    Possíveis aplicaçõesclassificação textual e análise de incerteza.

    Disponibilização dos dados: via arquivo de download.

  • Fundos de Investimento

    Diversos fundos de investimento publicam regularmente as chamadas “Cartas do Gestor”, onde há informações sobre o fundo, sobre a economia e sobre a visão do gestor, em geral.

    Possíveis aplicaçõessumarização textual.

    Disponibilização dos dados: via arquivo de download.

É importante mencionar que estes dados estão disponibilizados, geralmente, de forma não estruturada. Em outras palavras, são textos espalhados e muitas vezes não organizados em uma tabela de fácil manejo.

Ferramentas

Existem diversas ferramentas para aplicar técnicas de mineração de texto. Dentre elas, o Python se destaca como uma linguagem de programação versátil e com um amplo conjunto de bibliotecas úteis para trabalhar com este formato de dado.

Dentre as bibliotecas que podem ser utilizadas para coletar e realizar alguns processamentos de dados textuais, destaque-se o Pandas, além de outras bibliotecas como Requests e as de fábrica da linguagem, json e urllib.

  • Exemplo 1

Abaixo mostramos como coletar os dados de uma ata do COPOM, conforme a documentação da API. O procedimento pode ser generalizado para coletar todos os dados disponíveis.

Para obter o código e o tutorial deste exercício faça parte do Clube AM e receba toda semana os códigos em R/Python, vídeos, tutoriais e suporte completo para dúvidas.

  • Exemplo 2

Abaixo mostramos como coletar os dados dos discursos de diretores de bancos centrais disponíveis no BIS.

  • Exemplo 3

Abaixo mostramos como coletar os dados de uma carta de gestor disponível online em formato PDF.

Conclusão

A aplicação das técnicas de mineração de texto pode trazer análises quantitativas informativas sobre a emoção, tom, categoria e outros padrões de interesse em documentos textuais. O primeiro passo é identificar, coletar e preparar estes dados brutos. Neste artigo, apresentamos bases de dados públicas de Economia e Finanças que podem ser exploradas, assim como ferramentas de programação úteis.

Quer aprender mais?

Clique aqui para fazer seu cadastro no Boletim AM e baixar o código que produziu este exercício, além de receber novos exercícios com exemplos reais de análise de dados envolvendo as áreas de Data Science, Econometria, Machine Learning, Macroeconomia Aplicada, Finanças Quantitativas e Políticas Públicas diretamente em seu e-mail.

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Como avaliar modelos de IA na previsão macroeconômica?

Descubra como economistas e cientistas de dados estão combinando econometria e inteligência artificial para aprimorar previsões macroeconômicas. Neste post, você vai entender as principais etapas de avaliação de modelos — da preparação dos dados à validação cruzada — e conhecer as métricas e técnicas que revelam quais métodos realmente entregam as melhores previsões. Uma leitura essencial para quem quer compreender o futuro da análise econômica orientada por dados.

Análise exploratória e seleção de séries temporais econômicas para modelagem

Quer entender como transformar dados econômicos brutos em previsões macroeconômicas precisas? Neste post, mostramos passo a passo como realizar a análise exploratória e seleção de séries temporais com Python — desde o tratamento de dados e remoção de multicolinearidade até a escolha das variáveis mais relevantes usando técnicas de machine learning e econometria. Um guia essencial para quem quer unir teoria econômica e inteligência artificial na prática da previsão macroeconômica.

Transformers para Análise de Séries Temporais

Neste tutorial, mostramos passo a passo como aplicar dados de séries temporais em modelos baseados na arquitetura Transformer, utilizando a biblioteca Darts no Python. Você aprenderá como transformar dados temporais em um formato compatível, ajustar o modelo e gerar previsões. Uma introdução prática e didática à união entre Deep Learning e análise de séries temporais.

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.