O que é mineração de textos e sua relação com IA?

Com uma matéria prima em comum, a mineração de textos e a inteligência artificial generativa usam grandes volumes de dados não estruturados para fins distintos e com aplicações em Economia, Finanças, Marketing e outras áreas. Mas quando devemos usar uma técnica e não a outra? O que é possível fazer e o que é mineração de textos? Neste artigo introduzimos estes tópicos e fornecemos alguns exemplos de aplicações.

O que é mineração de texto?

A mineração de textos, ou text mining, é o processo de obter informação qualificada a partir de dados textuais. De acordo com o prof. Marti Hearst (UC Berkeley) “é a descoberta digital de informações novas e até então desconhecidas, extraindo automaticamente informações de diferentes dados textuais” (tradução livre).

Em outras palavras, mineração de textos é um termo que engloba um conjunto variado de técnicas que buscam extrair informações úteis de documentos textuais através da identificação e exploração de padrões de interesse nos dados não estruturados.

A matéria prima da mineração de textos são os dados textuais, que podem ser:

  • Websites
  • Livros
  • Emails
  • Avaliações
  • Artigos
  • Postagens

Em geral, estes dados estão disponíveis de forma não estruturada, havendo a necessidade de coletar e processar os mesmos para posterior representação que possibilite sua análise.

O que dá para fazer com mineração de texto?

Ao coletar, processar e analisar dados textuais de diferentes fontes, profissionais de dados e pesquisadores conseguem responder perguntas sobre padrões de consumo, tendências e diversos outros fenômenos sociais.

A mineração de texto é utilizada em diversas áreas, tais como:

  • Economia
  • Finanças
  • Marketing
  • Segurança da informação
  • Sociologia

Dentre as principais aplicações da mineração de texto, destacam-se:

  • Agrupamento de textosÉ o agrupamento de documentos com similaridades, visando colocar no mesmo grupo documentos que são distintos de outros.

    Exemplo: agrupamento de tópicos quentes discutidos na rede social Twitter (X).

  • Categorização de textosÉ a identificação em qual categoria um texto pertence, classificando o documento em áreas ou de acordo com outros atributos.

    Exemplo: caixa de email “spam”.

  • Análise de sentimentoÉ a determinação da emoção textual de um documento, em termos de negatividade, neutralidade, positividade ou, ainda, em escalas numéricas.

    Exemplo: indicador de sentimentos do COPOM produzido pela Análise Macro.

  • Sumarização de documentosÉ o processo de reduzir um documento textual de forma a criar um resumo contendo os pontos principais do dado original.

    Exemplo: aplicativo online de leitura/sumarização de cartas do gestor de fundos de investimentos criado pela Análise Macro.

O que é inteligência artificial?

Inteligência artificial é a capacidade que as máquinas possuem de fazerem coisas que normalmente exigiriam inteligência humana, tais como:

  • compreender informações
  • resolver problemas
  • tomar decisões

As tecnologias de IA existentes hoje em dia, como ChatGPT e Google Gemini, são capazes de compreender textos, resolver equações matemáticas e seguir uma linha de pensamento para tomar uma decisão, de forma similar a um ser humano.

Inteligência artificial generativa e sua relação com a mineração de texto

A Inteligência Artificial Generativa (GenAI) é um braço da IA capaz de gerar textos e outros formatos de informação usando modelos generativos através de um prompt. Estes modelos são treinados com dados, muitas vezes não estruturados, para aprender padrões e, então, geram novos dados com padrões e características similares.

Alguns exemplos de modelos de GenAI são:

  • GPT-3
  • GPT-4
  • PaLM 2
  • Gemini
  • Llama 2
  • Llama 3.1

Este tipo de inteligência artificial tem sido utilizado para diversas aplicações, tais como:

  • Escrita criativa
  • Análise de dados
  • Assistência de código
  • Sumarização de textos
  • Classificação de textos
  • Robô de auto-atendimento

Nestes termos, modelos de GenAI usam, em grande parte, da mesma matéria prima que as técnicas de mineração de texto. Em muitas aplicações, inclusive, ambas as abordagens podem ser utilizadas para resolver o mesmo problema, como no caso de classificação textual.

Por fim, destaca-se que as técnicas de mineração de texto constituem uma boa base para o aprendizado de inteligência artificial generativa. O domínio deste conhecimento auxilia no entendimento e aproveitamento destas novas tecnologias.

Conclusão

Com uma matéria prima em comum, a mineração de textos e a inteligência artificial generativa usam grandes volumes de dados não estruturados para fins distintos e com aplicações em Economia, Finanças, Marketing e outras áreas. Mas quando devemos usar uma técnica e não a outra? O que é possível fazer e o que é mineração de textos? Neste artigo introduzimos estes tópicos e fornecemos alguns exemplos de aplicações.

Quer aprender mais?

Clique aqui para fazer seu cadastro no Boletim AM e baixar o código que produziu este exercício, além de receber novos exercícios com exemplos reais de análise de dados envolvendo as áreas de Data Science, Econometria, Machine Learning, Macroeconomia Aplicada, Finanças Quantitativas e Políticas Públicas diretamente em seu e-mail.

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Análise exploratória para modelagem preditiva no Python

Antes de desenvolver bons modelos preditivos é necessário organizar e conhecer muito bem os dados. Neste artigo, damos algumas dicas de recursos, como gráficos, análises e estatísticas, que podem ser usados para melhorar o entendimento sobre os dados usando Python.

Como usar modelos do Sklearn para previsão? Uma introdução ao Skforecast

Prever séries temporais é uma tarefa frequente em diversas áreas, porém exige conhecimento e ferramentas específicas. Os modelos de machine learning do Sklearn são populadores, porém são difíceis de aplicar em estruturas temporais de dados. Neste sentido, introduzimos a biblioteca Skforecast, que integra os modelos do Sklearn e a previsão de séries temporais de forma simples.

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.