Como importar os textos do COPOM para análise de sentimentos no Python?

Os textos divulgados pelo COPOM, sejam os comunicados ou atas, são o ponto de partida para diversos tipos de análises quantitativas, como a análise de sentimentos, e qualitativas, como uma análise de cenário econômico. Neste artigo, mostramos como coletar estes textos de forma automatizada usando web scrapping e Python.

Para o propósito deste artigo, que é a primeira parte de um exercício maior de análise de sentimentos, vamos focar em coletas as atas do COPOM na versão em inglês.

Para obter o código e o tutorial deste exercício faça parte do Clube AM e receba toda semana os códigos em R/Python, vídeos, tutoriais e suporte completo para dúvidas.

Bibliotecas

Primeiro, importamos as bibliotecas de Python necessárias no código.

  • pandas
  • requests
  • os
  • langchain_community

Coleta de dados

Em seguida, usando o navegador Google Chrome, siga estas etapas:

  1. Acessar o site em inglês das atas do COPOM: https://www.bcb.gov.br/en/publications/copomminutes
  2. Clicar com botão direito em cima do botão Download

  3. Clicar em Inspecionar
  4. Clicar em Network

  5. Pressionar Ctrl+R
  6. No campo Filter, pesquisar por “minutes”

  7. Nos resultados, encontrar o serviço de API “ultimas” e copiar o link até a parte “filtro=”, assim: https://www.bcb.gov.br/api/servico/sitebcb/copomminutes/ultimas?quantidade=3&filtro=

  8. Requisitar os metadados das últimas 50 atas, mudando o parâmetro “quantidate” no link acima, através das bibliotecas requests e pandas

Como resultado, temos uma tabela DataFrame com os links para os PDFs das últimas 50 atas:

Em seguida, usamos a biblioteca requests para baixar cada PDF de cada link. Como resultado, teremos 50 arquivos PDFs salvos na pasta de trabalho corrente:

Importação de dados

Por fim, com os textos disponibilizados localmente em formato PDF, podemos avançar para a etapa de transformar as informações de PDF para texto (string) diretamente no Python. Usamos a biblioteca pypdf e a langchain_community para fazer esta transformações em poucas linhas de código.

Como resultado, teremos uma tabela com os metadados da ata do COPOM e o texto bruto associado:

Conclusão

Os textos divulgados pelo COPOM, sejam os comunicados ou atas, são o ponto de partida para diversos tipos de análises quantitativas, como a análise de sentimentos, e qualitativas, como uma análise de cenário econômico. Neste artigo, mostramos como coletar estes textos de forma automatizada usando web scrapping e Python.

Tenha acesso ao código e suporte desse e de mais 500 exercícios no Clube AM!

Quer o código desse e de mais de 500 exercícios de análise de dados com ideias validadas por nossos especialistas em problemas reais de análise de dados do seu dia a dia? Além de acesso a vídeos, materiais extras e todo o suporte necessário para você reproduzir esses exercícios? Então, fale com a gente no Whatsapp e veja como fazer parte do Clube AM, clicando aqui.

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Modelo de Previsão da Dívida Bruta do Governo Geral (DBGG) para 2025

Neste exercício, contruímos um algoritmo simples de cenarização para a Dívida Bruta do Governo Geral (DBGG) em % do PIB, usando apenas dados públicos, simulações estatísticas, a literatura recente e a linguagem R. Em uma abordagem semi-automatizada, as simulações do modelo se aproximam das previsões do mercado para o ano de 2025.

Modelo de Previsão do Resultado Primário para 2025

Neste exercício, contruímos um modelo simples de previsão para o Resultado Primário do Setor Público Consolidado (acumulado em 12 meses, % PIB), usando apenas dados públicos, modelos econométricos, a literatura recente e a linguagem R. Em uma abordagem automatizada, as previsões do modelo se aproximam das previsões do mercado para o ano de 2025.

Estimando o Hiato do Produto do Brasil usando a linguagem R

Este exercício estima o Hiato do Produto do Brasil utilizando quatro métodos univariados distintos. Para lidar com o problema de fim de amostra causado por filtros univariados, incorporamos previsões do PIB provenientes de agentes econômicos e projeções simples, estendendo a série temporal além da amostra original. Todo o processo de coleta, tratamento, estimação e visualização dos hiatos foi realizado na linguagem de programação R.

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.