Extraindo informações de PDFs com Inteligência Artificial e Python

Arquivos de PDF são muito utilizados para compartilhar relatórios de análise, informações e dados diversos. Muitas vezes precisamos dos dados ali disponibilizados, tal como uma tabela. Então surge a pergunta: como extrair as informações com precisão e agilidade?

Neste artigo vamos mostrar um exemplo simples de extração de dados tabulares a partir de um arquivo PDF proveniente do site do Banco Central do Brasil. Utilizamos Inteligência Artificial para facilitar, simplificar e agilizar o processo, além do Python para possibilitar a automação.

Passo 01: abrir o Google Colab

Primeiro, abrimos o ambiente online Google Colab para usar o Python no procedimento. Basta ter uma conta de cadastro para usar e acessar o endereço https://colab.new/.

Passo 02: bibliotecas de Python

Em seguida, vamos importar as bibliotecas da linguagem Python com funções prontas que facilitam todo o processo, através do seguinte código:

Para obter o código e o tutorial deste exercício faça parte do Clube AM e receba toda semana os códigos em R/Python, vídeos, tutoriais e suporte completo para dúvidas.

Passo 03: arquivo PDF de exemplo

Neste exemplo vamos utilizar o arquivo PDF chamado “Atualização dos modelos semiestruturais de pequeno porte”, publicado no site do Banco Central do Brasil através deste link.

Escrevemos o seguinte código para baixar online o arquivo PDF acima, através do link, diretamente para o Google Colab:

A informação que queremos extrair nesse exemplo é a “Tabela 1” do PDF:

Passo 04: instrução para modelo de IA

Agora, vamos escrever uma instrução (prompt) para um modelo de Inteligência Artificial, chamado Google Gemini, ler o arquivo PDF baixado e extrair a tabela de interesse. Para isso funcionar é necessário configurar a chave de API e, então, enviar a instrução com o arquivo PDF para o modelo processar.

Passo 05: converter resposta em tabela Pandas

Por fim, convertemos a resposta textual do modelo de IA generativa para um tabela do Pandas (DataFrame), assim fica mais fácil trabalhar na sequência com os dados.

O resultado final é este:

Nada mal, né? Com alguns poucos ajustes adicionais (nomes de colunas e caracteres especiais), a tabela já está disponível com os dados extraídos!

Conclusão

Apesar de serem muito utilizados para compartilhar informações, os arquivos PDFs podem ser um empecilho para extrair dados. Neste artigo mostramos como usar IA para superar este desafio facilmente através do Python.

Quer aprender mais?

Clique aqui para fazer seu cadastro no Boletim AM e baixar o código que produziu este exercício, além de receber novos exercícios com exemplos reais de análise de dados envolvendo as áreas de Data Science, Econometria, Machine Learning, Macroeconomia Aplicada, Finanças Quantitativas e Políticas Públicas diretamente em seu e-mail.

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Coletando dados para monitoramento climático com Python

As condições climatológicas influenciam desde a safra de grãos até a decisão de um vendedor ambulante levar seu carrinho para a praia ou não. Por sua importância e impactos na economia do país, neste exercício mostramos como coletar e elaborar análises de dados sobre o clima usando o Python.

Coletando dados de secas e queimadas no Brasil com Python

Neste artigo exploramos fontes públicas de dados sobre secas e queimadas no Brasil. Mostramos como acessar, coletar e preparar os dados para elaboração de análises. Usamos a linguagem Python para desenvolver uma rotina automatizada.

Como analisar demonstrações contábeis usando IA

Neste post, vamos explorar como utilizar o modelo de linguagem Gemini do Google para analisar demonstrações contábeis anuais da Eletrobras e extrair informações relevantes para tomada de decisão. Através de um código Python, vamos importar os dados direto da CVM, conectar com o Gemini e gerar resumos sobre as contas das demonstrações e perspectivas futuras sobre as finanças da empresa.

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.