Clube AM

Extraindo tabelas de arquivos PDF com o R

By 7 de abril de 2017 No Comments

Na edição 28 do Clube do Código, abordamos um problema prático: extrair tabelas de arquivos PDF. Isso pode ser um transtorno, não é mesmo? Já pensou ter que pegar dados de uma tabela, um a um, e colocar em outro programa? Com o R, isso, claro, é feito de outra forma. Utilizamos o pacote tabulizer para essa empreitada. Por exemplo, podemos estar interessados em pegar uma tabela do Relatório Trimestral de Inflação. Assim, começamos o nosso código, como abaixo.

library(tabulizer)
url = 'http://www.bcb.gov.br/htms/relinf/port/2017/03/ri201703c2p.pdf'
out = extract_tables(url)

Com três linhas de código, nós extraimos as tabelas do arquivo PDF. Agora, basta limpar um pouco os dados e utilizar a função stargazer para colocar essa tabela abaixo.

Projeção da inflação no cenário com taxas de juros e câmbio da pesquisa Focus
Trimestre50% Lower30% Lower10% LowerCentral10% Upper30% Upper50% Upper
2017 14,64,64,64,64,64,64,6
2017 23,53,73,83,94,04,14,3
2017 32,83,13,33,43,53,74,0
2017 43,23,63,94,04,14,44,8
2018 13,53,94,24,44,64,95,3
2018 23,23,74,04,24,44,75,2
2018 33,23,74,04,24,44,75,2
2018 43,54,04,34,54,75,05,5
2019 13,64,14,44,64,85,15,6
Fonte: Relatório de Inflação BCB - Março de 2017.

Aqui, para colocar no Blog, estou usando um código html. Mas é possível usar LaTeX e colocar essa tabela em outro pdf, como faço na edição 28 do Clube do Código. Bacana, não? 🙂

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais
e conteúdos exclusivos sobre Análise de Dados!

Assinar Gratuitamente