Extraindo informações de PDFs com Inteligência Artificial e Python

Arquivos de PDF são muito utilizados para compartilhar relatórios de análise, informações e dados diversos. Muitas vezes precisamos dos dados ali disponibilizados, tal como uma tabela. Então surge a pergunta: como extrair as informações com precisão e agilidade?

Neste artigo vamos mostrar um exemplo simples de extração de dados tabulares a partir de um arquivo PDF proveniente do site do Banco Central do Brasil. Utilizamos Inteligência Artificial para facilitar, simplificar e agilizar o processo, além do Python para possibilitar a automação.

Passo 01: abrir o Google Colab

Primeiro, abrimos o ambiente online Google Colab para usar o Python no procedimento. Basta ter uma conta de cadastro para usar e acessar o endereço https://colab.new/.

Passo 02: bibliotecas de Python

Em seguida, vamos importar as bibliotecas da linguagem Python com funções prontas que facilitam todo o processo, através do seguinte código:

Para obter o código e o tutorial deste exercício faça parte do Clube AM e receba toda semana os códigos em R/Python, vídeos, tutoriais e suporte completo para dúvidas.

Passo 03: arquivo PDF de exemplo

Neste exemplo vamos utilizar o arquivo PDF chamado “Atualização dos modelos semiestruturais de pequeno porte”, publicado no site do Banco Central do Brasil através deste link.

Escrevemos o seguinte código para baixar online o arquivo PDF acima, através do link, diretamente para o Google Colab:

A informação que queremos extrair nesse exemplo é a “Tabela 1” do PDF:

Passo 04: instrução para modelo de IA

Agora, vamos escrever uma instrução (prompt) para um modelo de Inteligência Artificial, chamado Google Gemini, ler o arquivo PDF baixado e extrair a tabela de interesse. Para isso funcionar é necessário configurar a chave de API e, então, enviar a instrução com o arquivo PDF para o modelo processar.

Passo 05: converter resposta em tabela Pandas

Por fim, convertemos a resposta textual do modelo de IA generativa para um tabela do Pandas (DataFrame), assim fica mais fácil trabalhar na sequência com os dados.

O resultado final é este:

Nada mal, né? Com alguns poucos ajustes adicionais (nomes de colunas e caracteres especiais), a tabela já está disponível com os dados extraídos!

Conclusão

Apesar de serem muito utilizados para compartilhar informações, os arquivos PDFs podem ser um empecilho para extrair dados. Neste artigo mostramos como usar IA para superar este desafio facilmente através do Python.

Quer aprender mais?

Clique aqui para fazer seu cadastro no Boletim AM e baixar o código que produziu este exercício, além de receber novos exercícios com exemplos reais de análise de dados envolvendo as áreas de Data Science, Econometria, Machine Learning, Macroeconomia Aplicada, Finanças Quantitativas e Políticas Públicas diretamente em seu e-mail.

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Onde encontrar dados e ferramentas para text mining?

A aplicação das técnicas de mineração de texto pode trazer análises quantitativas informativas sobre a emoção, tom, categoria e outros padrões de interesse em documentos textuais. O primeiro passo é identificar, coletar e preparar estes dados brutos. Neste artigo, apresentamos bases de dados públicas de Economia e Finanças que podem ser exploradas, assim como ferramentas de programação úteis.

O que é mineração de textos e sua relação com IA?

Com uma matéria prima em comum, a mineração de textos e a inteligência artificial generativa usam grandes volumes de dados não estruturados para fins distintos e com aplicações em Economia, Finanças, Marketing e outras áreas. Mas quando devemos usar uma técnica e não a outra? O que é possível fazer e o que é mineração de textos? Neste artigo introduzimos estes tópicos e fornecemos alguns exemplos de aplicações.

Avaliando a evolução do Funcionalismo Público nos Estados Brasileiros usando Controle Sintético no R

O objetivo deste exercício é introduzir o uso do método de Controle Sintético na linguagem de programação R, aplicando-o a um exemplo prático relevante para a análise de políticas públicas. Vamos focar na utilização dessa técnica para avaliar o impacto do Regime de Recuperação Fiscal (RRF) sobre o número de vínculos do poder executivo nos estados brasileiros, com ênfase no caso do Rio de Janeiro.

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.