Como importar os textos do COPOM para análise de sentimentos no Python?

Os textos divulgados pelo COPOM, sejam os comunicados ou atas, são o ponto de partida para diversos tipos de análises quantitativas, como a análise de sentimentos, e qualitativas, como uma análise de cenário econômico. Neste artigo, mostramos como coletar estes textos de forma automatizada usando web scrapping e Python.

Para o propósito deste artigo, que é a primeira parte de um exercício maior de análise de sentimentos, vamos focar em coletas as atas do COPOM na versão em inglês.

Para obter o código e o tutorial deste exercício faça parte do Clube AM e receba toda semana os códigos em R/Python, vídeos, tutoriais e suporte completo para dúvidas.

Bibliotecas

Primeiro, importamos as bibliotecas de Python necessárias no código.

  • pandas
  • requests
  • os
  • langchain_community

Coleta de dados

Em seguida, usando o navegador Google Chrome, siga estas etapas:

  1. Acessar o site em inglês das atas do COPOM: https://www.bcb.gov.br/en/publications/copomminutes
  2. Clicar com botão direito em cima do botão Download

  3. Clicar em Inspecionar
  4. Clicar em Network

  5. Pressionar Ctrl+R
  6. No campo Filter, pesquisar por “minutes”

  7. Nos resultados, encontrar o serviço de API “ultimas” e copiar o link até a parte “filtro=”, assim: https://www.bcb.gov.br/api/servico/sitebcb/copomminutes/ultimas?quantidade=3&filtro=

  8. Requisitar os metadados das últimas 50 atas, mudando o parâmetro “quantidate” no link acima, através das bibliotecas requests e pandas

Como resultado, temos uma tabela DataFrame com os links para os PDFs das últimas 50 atas:

Em seguida, usamos a biblioteca requests para baixar cada PDF de cada link. Como resultado, teremos 50 arquivos PDFs salvos na pasta de trabalho corrente:

Importação de dados

Por fim, com os textos disponibilizados localmente em formato PDF, podemos avançar para a etapa de transformar as informações de PDF para texto (string) diretamente no Python. Usamos a biblioteca pypdf e a langchain_community para fazer esta transformações em poucas linhas de código.

Como resultado, teremos uma tabela com os metadados da ata do COPOM e o texto bruto associado:

Conclusão

Os textos divulgados pelo COPOM, sejam os comunicados ou atas, são o ponto de partida para diversos tipos de análises quantitativas, como a análise de sentimentos, e qualitativas, como uma análise de cenário econômico. Neste artigo, mostramos como coletar estes textos de forma automatizada usando web scrapping e Python.

Tenha acesso ao código e suporte desse e de mais 500 exercícios no Clube AM!

Quer o código desse e de mais de 500 exercícios de análise de dados com ideias validadas por nossos especialistas em problemas reais de análise de dados do seu dia a dia? Além de acesso a vídeos, materiais extras e todo o suporte necessário para você reproduzir esses exercícios? Então, fale com a gente no Whatsapp e veja como fazer parte do Clube AM, clicando aqui.

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Qual o efeito de um choque de juros sobre a inadimplência?

Neste exercício, exploramos a relação dinâmica entre o custo do crédito (juros na ponta) e o risco realizado (taxa de inadimplência) através de uma análise exploratória de dados e modelagem econométrica utilizando a linguagem de programação R.

Qual a relação entre benefícios sociais e a taxa de participação do mercado de trabalho?

Este exercício apresenta uma investigação econométrica sobre a persistente estagnação da taxa de participação no mercado de trabalho brasileiro no período pós-pandemia. Utilizando a linguagem R e dados públicos do IBGE e Banco Central, construímos um modelo de regressão linear múltipla com correção de erros robustos (Newey-West). A análise testa a hipótese de que o aumento real das transferências de renda (Bolsa Família/Auxílio Brasil) elevou o salário de reserva, desincentivando o retorno à força de trabalho.

Estamos em pleno emprego no mercado de trabalho?

Este artigo investiga se o mercado de trabalho brasileiro atingiu o nível de pleno emprego, utilizando uma estimativa da NAIRU (Non-Accelerating Inflation Rate of Unemployment) baseada na metodologia de Ball e Mankiw (1997). Através de uma modelagem em Python que unifica dados históricos da PME e PNAD Contínua com as expectativas do Boletim Focus, comparamos a taxa de desocupação corrente com a taxa neutra estrutural. A análise visual e quantitativa sugere o fechamento do hiato de desemprego, sinalizando potenciais pressões inflacionárias. O texto detalha o tratamento de dados, a aplicação do Filtro Hodrick-Prescott e discute as vantagens e limitações da metodologia econométrica adotada.

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.