Como usar o Sabiá-3, um modelo de IA em português?

Captar nuances de linguagem, características culturais e diferenças de dialetos pode ser difícil para modelos de IA generativa treinados com a maior parte dos textos em inglês. A depender do tipo de tarefa que o usuário solicite, estas particularidades podem impossibilitar uma solução adequada por parte da IA generativa.

Neste exercício mostramos como utilizar um LLM brasileiro, o Sabiá-3, desenvolvido pela empresa Maritaca AI. De acordo com a empresa, o modelo possui um custo-benefício melhor do que outras opções famosas, como GPT-4o. Isso significa que o custo de inferência é menor ou equivalente para um mesmo nível acurácia do modelo.

A seguir mostramos como usar o Sabiá-3 pela linguagem de programação Python.

Passo 01: criar conta na Maritaca e obter chave de API

Para usar a IA brasileira fornecida pela Maritaca via Python, é necessário ter uma conta cadastrada e gerar um chave de API. Para fazer isso, siga os procedimentos abaixo:

  1. Acessar o link https://plataforma.maritaca.ai/
  2. Clicar em “Entrar”
  3. Digitar informações de login e/ou se cadastrar
  4. Clicar em “Chaves de API” no menu esquerdo
  5. Clicar em “Criar Nova Chave”
  6. Clicar em “Criar”
  7. Clicar em “Copiar” e armazenar em local protegido/seguro (importante: essa é uma informação sensível)

Passo 02: cadastrar forma de pagamento para uso da API

Atualmente, a Maritaca oferece modelos pagos de IA, mas disponibiliza gratuitamente créditos de utilização para testar os modelos via Python. Para obter os créditos, no entanto, é necessário cadastrar um cartão de crédito. Para fazer isso, siga os procedimentos abaixo:

  1. Ainda em https://plataforma.maritaca.ai/, clicar em “Recarga”
  2. Em “Cartões Cadastrados”, clicar em “Gerenciar”
  3. Clicar no botão de adicionar
  4. Digitar informações do seu cartão de crédito e clicar em “Save card”

Passo 03: enviar prompt via API usando Python

Por fim, podemos escrever um código simples de Python para se conectar à API da Maritaca para uso do modelo de IA generativa Sabiá-3. Para fazer isso, siga os procedimentos abaixo:

  1. Acessar o Google Colab pelo link https://colab.new/
  2. Clicar em Secrets na lateral esquerda do Colab
  3. Clicar no botão “Add new secret”
  4. Clicar no botão de habilitar embaixo de “Notebook access”
  5. Digitar “MARITALK_API_KEY” no campo “Name”
  6. Digitar a chave de API obtida acima no campo “Value”
  7. Instalar a biblioteca maritalk via comando pip install maritalk
  8. Importar as bibliotecas via comando
    import maritalk
    from google.colab import userdata
  9. Definir o modelo e se autenticar via comando
    model = maritalk.MariTalk(key = userdata.get("MARITALK_API_KEY"), model = "sabia-3")
  10. Enviar prompt e obter resposta via comando
    response = model.generate("Explique o que é altinha em um parágrafo.")
    print(response["answer"])

A resposta obtida do modelo Sabiá-3 neste exemplo foi:

“A altinha é uma prática esportiva e recreativa que envolve manter uma bola de futebol no ar utilizando diversas partes do corpo, especialmente os pés, pernas, coxas, peito, cabeça e ombros, sem deixá-la cair. É uma atividade que exige habilidade, coordenação motora e resistência, muitas vezes realizada em grupo, onde os participantes passam a bola uns para os outros sem deixar a bola tocar o solo. Popular no Brasil e em outras partes do mundo, a altinha é uma expressão cultural que mistura esporte, arte e diversão, sendo também uma forma eficaz de treinamento para jogadores de futebol, pois melhora o controle de bola e a agilidade.”

Já a resposta obtida do modelo GPT-4o, da OpenAI, foi:

“Altinha é um jogo desportivo e recreativo originário do Brasil, popular especialmente nas praias. Trata-se de uma variação do futebol de areia, onde o objetivo principal é manter a bola no ar sem deixá-la tocar o chão, usando qualquer parte do corpo, exceto as mãos. Os jogadores formam um círculo ou uma linha e trocam passes curtos e rápidos, valorizando a habilidade e o controle de bola. A atmosfera competitiva, porém descontraída, atrai praticantes de todas as idades e promove tanto a prática de atividade física quanto a socialização em ambientes ao ar livre.”

Conclusão

Modelos de IA costumam ser treinados majoritariamente em inglês, mas para algumas tarefas os modelos em português podem ser mais adequados. Neste exercício mostramos como utilizar um LLM brasileiro, o Sabiá-3, que apresenta um custo-benefício melhor do que outras opções famosas.

Compartilhe esse artigo

Facebook
Twitter
LinkedIn
WhatsApp
Telegram
Email
Print

Comente o que achou desse artigo

Outros artigos relacionados

Coletando dados regionais do CAGED no Python

Os dados regionais do CAGED permitem analisar o mercado de trabalho de forma detalhada, em termos de setores, educação, rendimento e características pessoais dos trabalhadores brasileiros. Neste exercício mostramos como acessar estas informações online via Python.

Coletando dados de Setores Censitários do Censo 2022 no Python

Dados sobre a demografia e o território são primordiais para definir e implementar políticas públicas, áreas de atuação comercial e/ou estratégias de marketing. Sendo assim, saber usar os dados do Censo 2022 pode trazer vantagens competitivas. Neste exercício mostramos como obter os dados da Malha de Setores Censitários no formato vetorial (GeoJson) usando o Python.

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

Boletim AM

Receba diretamente em seu e-mail gratuitamente nossas promoções especiais e conteúdos exclusivos sobre Análise de Dados!

como podemos ajudar?

Preencha os seus dados abaixo e fale conosco no WhatsApp

Boletim AM

Preencha o formulário abaixo para receber nossos boletins semanais diretamente em seu e-mail.