O que é mineração de textos e sua relação com IA?

Com uma matéria prima em comum, a mineração de textos e a inteligência artificial generativa usam grandes volumes de dados não estruturados para fins distintos e com aplicações em Economia, Finanças, Marketing e outras áreas. Mas quando devemos usar uma técnica e não a outra? O que é possível fazer e o que é mineração de textos? Neste artigo introduzimos estes tópicos e fornecemos alguns exemplos de aplicações.

O que é mineração de texto?

A mineração de textos, ou text mining, é o processo de obter informação qualificada a partir de dados textuais. De acordo com o prof. Marti Hearst (UC Berkeley) “é a descoberta digital de informações novas e até então desconhecidas, extraindo automaticamente informações de diferentes dados textuais” (tradução livre).

Em outras palavras, mineração de textos é um termo que engloba um conjunto variado de técnicas que buscam extrair informações úteis de documentos textuais através da identificação e exploração de padrões de interesse nos dados não estruturados.

A matéria prima da mineração de textos são os dados textuais, que podem ser:

  • Websites
  • Livros
  • Emails
  • Avaliações
  • Artigos
  • Postagens

Em geral, estes dados estão disponíveis de forma não estruturada, havendo a necessidade de coletar e processar os mesmos para posterior representação que possibilite sua análise.

O que dá para fazer com mineração de texto?

Ao coletar, processar e analisar dados textuais de diferentes fontes, profissionais de dados e pesquisadores conseguem responder perguntas sobre padrões de consumo, tendências e diversos outros fenômenos sociais.

A mineração de texto é utilizada em diversas áreas, tais como:

  • Economia
  • Finanças
  • Marketing
  • Segurança da informação
  • Sociologia

Dentre as principais aplicações da mineração de texto, destacam-se:

  • Agrupamento de textosÉ o agrupamento de documentos com similaridades, visando colocar no mesmo grupo documentos que são distintos de outros.

    Exemplo: agrupamento de tópicos quentes discutidos na rede social Twitter (X).

  • Categorização de textosÉ a identificação em qual categoria um texto pertence, classificando o documento em áreas ou de acordo com outros atributos.

    Exemplo: caixa de email “spam”.

  • Análise de sentimentoÉ a determinação da emoção textual de um documento, em termos de negatividade, neutralidade, positividade ou, ainda, em escalas numéricas.

    Exemplo: indicador de sentimentos do COPOM produzido pela Análise Macro.

  • Sumarização de documentosÉ o processo de reduzir um documento textual de forma a criar um resumo contendo os pontos principais do dado original.

    Exemplo: aplicativo online de leitura/sumarização de cartas do gestor de fundos de investimentos criado pela Análise Macro.

O que é inteligência artificial?

Inteligência artificial é a capacidade que as máquinas possuem de fazerem coisas que normalmente exigiriam inteligência humana, tais como:

  • compreender informações
  • resolver problemas
  • tomar decisões

As tecnologias de IA existentes hoje em dia, como ChatGPT e Google Gemini, são capazes de compreender textos, resolver equações matemáticas e seguir uma linha de pensamento para tomar uma decisão, de forma similar a um ser humano.

Inteligência artificial generativa e sua relação com a mineração de texto

A Inteligência Artificial Generativa (GenAI) é um braço da IA capaz de gerar textos e outros formatos de informação usando modelos generativos através de um prompt. Estes modelos são treinados com dados, muitas vezes não estruturados, para aprender padrões e, então, geram novos dados com padrões e características similares.

Alguns exemplos de modelos de GenAI são:

  • GPT-3
  • GPT-4
  • PaLM 2
  • Gemini
  • Llama 2
  • Llama 3.1

Este tipo de inteligência artificial tem sido utilizado para diversas aplicações, tais como:

  • Escrita criativa
  • Análise de dados
  • Assistência de código
  • Sumarização de textos
  • Classificação de textos
  • Robô de auto-atendimento

Nestes termos, modelos de GenAI usam, em grande parte, da mesma matéria prima que as técnicas de mineração de texto. Em muitas aplicações, inclusive, ambas as abordagens podem ser utilizadas para resolver o mesmo problema, como no caso de classificação textual.

Por fim, destaca-se que as técnicas de mineração de texto constituem uma boa base para o aprendizado de inteligência artificial generativa. O domínio deste conhecimento auxilia no entendimento e aproveitamento destas novas tecnologias.

Conclusão

Com uma matéria prima em comum, a mineração de textos e a inteligência artificial generativa usam grandes volumes de dados não estruturados para fins distintos e com aplicações em Economia, Finanças, Marketing e outras áreas. Mas quando devemos usar uma técnica e não a outra? O que é possível fazer e o que é mineração de textos? Neste artigo introduzimos estes tópicos e fornecemos alguns exemplos de aplicações.

Quer aprender mais?

Clique aqui para fazer seu cadastro no Boletim AM e baixar o código que produziu este exercício, além de receber novos exercícios com exemplos reais de análise de dados envolvendo as áreas de Data Science, Econometria, Machine Learning, Macroeconomia Aplicada, Finanças Quantitativas e Políticas Públicas diretamente em seu e-mail.

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Coletando dados para monitoramento climático com Python

As condições climatológicas influenciam desde a safra de grãos até a decisão de um vendedor ambulante levar seu carrinho para a praia ou não. Por sua importância e impactos na economia do país, neste exercício mostramos como coletar e elaborar análises de dados sobre o clima usando o Python.

Coletando dados de secas e queimadas no Brasil com Python

Neste artigo exploramos fontes públicas de dados sobre secas e queimadas no Brasil. Mostramos como acessar, coletar e preparar os dados para elaboração de análises. Usamos a linguagem Python para desenvolver uma rotina automatizada.

Como analisar demonstrações contábeis usando IA

Neste post, vamos explorar como utilizar o modelo de linguagem Gemini do Google para analisar demonstrações contábeis anuais da Eletrobras e extrair informações relevantes para tomada de decisão. Através de um código Python, vamos importar os dados direto da CVM, conectar com o Gemini e gerar resumos sobre as contas das demonstrações e perspectivas futuras sobre as finanças da empresa.

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.