Context Engineering: o que o modelo lê quando responde

Context engineering é o trabalho de escolher e organizar tudo o que um modelo de IA lê antes de responder: instruções do sistema, documentos buscados, histórico da conversa, descrições de ferramentas e a sua pergunta.

A habilidade central de quem trabalha com LLM hoje deixou de ser escrever um prompt mais bonito e passou a ser decidir o que entra na janela de contexto a cada interação — porque o modelo só responde com base no que está ali, não no que ele "sabe".

Este guia mostra por que o foco migrou do prompt para o contexto, o que vive na janela a cada turno e quais alavancas você usa no Claude Code para controlar isso. O caminho passa por seis peças encaixadas (token, previsão, treino, alucinação, RAG e agente) que terminam todas no mesmo lugar: o contexto.

O que o modelo lê a cada turno na janela de contexto: system prompt, tools disponíveis, conteúdo buscado, histórico e a sua mensagem — A janela de contexto é uma pilha de fatias, montada de novo a cada turno. O seu prompt é só a última delas — context engineering cuida de todas.

Como o modelo lê: tudo vira token

O computador opera com números, não com letras. Quando você manda um pedido para o Claude, a primeira coisa que acontece é a quebra do texto em pedaços chamados tokens: cada token é um trecho (uma palavra inteira, um fragmento ou um sinal de pontuação) com um número associado num dicionário interno do modelo, que costuma ter entre 50 e 200 mil entradas.

Palavras comuns viram um token só; siglas e termos raros se quebram em pedaços. Como o corpus de treino é majoritariamente em inglês, textos em português consomem mais tokens para a mesma informação.

Isso não é detalhe técnico solto: token é a unidade que você paga na API e a unidade que enche a janela de contexto. Um documento de mil palavras em português tende a ocupar de 1.500 a 1.800 tokens.

Saber estimar isso é o primeiro passo para entender por que o contexto é um recurso escasso que precisa ser gerenciado.

Tokenização da frase Vou rodar um modelo VAR no IPCA: palavras comuns viram um token só e siglas como VAR e IPCA se quebram em fragmentos — "Modelo" entra inteiro; "VAR" e "IPCA" se partem em dois tokens cada. O tokenizador aprendeu quais sequências de letras aparecem juntas com frequência.

A tarefa única do LLM: prever o próximo token

Com o texto virado em sequência de números, o modelo faz uma coisa só: recebe a sequência vista até agora e devolve, para cada token possível do dicionário, a probabilidade de ele ser o próximo. Escolhe um (geralmente o mais provável, com algum ruído controlado), anexa à sequência e repete, e toda resposta sai desse loop.

Não há raciocínio no sentido humano, e sim um modelo estatístico de larguíssima escala que aprendeu, observando bilhões de páginas, quais sequências de tokens fazem sentido. É por isso que o que você coloca antes da pergunta muda tanto a resposta: você está inclinando a distribuição de probabilidade do próximo token.

O loop que produz a resposta do LLM um token por vez: sequência atual, calcula probabilidades, escolhe e anexa, volta com a sequência maior — Previsão do próximo token, iterada: a cada passo o modelo calcula a probabilidade de cada token do vocabulário, escolhe um e recomeça.

Por que o modelo não sabe a Selic de hoje

O treinamento de um LLM passa por três fases: o pré-treino (bilhões de páginas, custo de centenas de milhões de dólares), o fine-tuning supervisionado (milhares de pares "pergunta → resposta boa") e o alinhamento (humanos comparam respostas e o modelo aprende a preferência).

Cada fase ajusta o que a anterior aprendeu. Pré-treinar do zero é raríssimo justamente pelo custo, e por isso o mercado é dominado por meia dúzia de empresas.

O ponto prático é o que acontece quando o treino termina: o conhecimento do modelo congela num marco chamado knowledge cutoff, e eventos posteriores ele não conhece.

Perguntar "qual a Selic atual?" para um LLM puro, sem ferramenta de busca, equivale a pedir um chute baseado no que era verdade meses ou anos atrás — e a resposta pode soar confiante mesmo estando errada. Esse é o cenário-mãe da alucinação, e é o primeiro motivo pelo qual os fatos atuais precisam entrar pelo contexto.

As três fases do treinamento de um LLM: pré-treino, fine-tuning supervisionado e alinhamento, cada camada ajustando a anterior — Cada fase ajusta o que a de baixo aprendeu. O conhecimento congela no fim do pré-treino, no knowledge cutoff.

Alucinação é estrutural, não um deslize ocasional

O LLM alucina: produz texto fluente e factualmente errado com a mesma confiança com que produz texto certo. O comportamento decorre de como ele funciona, prevendo o token mais provável em vez de consultar uma base de dados.

Os casos típicos são três: fato fora do cutoff (chuta com base no treino), fato muito específico (mistura fontes vizinhas e inventa, por exemplo, a bibliografia de um autor pouco famoso) e cálculo aritmético (estima o resultado de uma conta em vez de computá-lo).

Qualquer pipeline que dependa de fato atual ou específico precisa de um mecanismo para alimentar o modelo com os fatos certos no momento do pedido. Não dá para confiar que o modelo "sabe".

Quer entender IA por dentro, sem hype?

Toda semana publicamos guias práticos de Python, R e IA aplicados à economia, com o mecanismo explicado por dentro. Assine o Boletim AM e receba direto no e-mail. Para acesso a todos os cursos e materiais da casa, conheça o AM Black.

Assinar o Boletim AM →Conhecer o AM Black →

RAG: a resposta da indústria à alucinação

A solução mais comum para a alucinação chama-se RAG (Retrieval-Augmented Generation): em vez de torcer para o modelo lembrar, você busca os documentos relevantes antes e os cola no contexto junto com a pergunta.

A busca pode ser por palavra-chave clássica, por similaridade semântica via embeddings ou híbrida, e o princípio é o mesmo: o modelo responde sobre o que está no contexto, não sobre o que ele lembra. RAG transforma um chute estatístico numa resposta ancorada em fontes.

Não elimina a alucinação (se a busca trouxer o trecho errado, a resposta sai errada), mas reduz bastante. E abre a porta para o passo seguinte: se o modelo pode ler um documento que você buscou, por que não deixar que ele busque sozinho quando precisar? É aí que o modelo deixa de ser assistente e vira agente.

RAG, Retrieval-Augmented Generation: a pergunta do usuário soma trechos buscados, forma um prompt enriquecido, o modelo prevê e a resposta sai ancorada nas fontes — O modelo continua prevendo token. O que muda é o que ele lê antes de responder: pergunta mais trechos buscados, colados no contexto.

De assistente a agente: o modelo aciona ferramentas

Até aqui o modelo era passivo: você manda um prompt, ele responde, fim. A virada foi dar a ele a capacidade de acionar ferramentas durante a resposta.

A mecânica é uma extensão direta do que já vimos: o modelo continua prevendo tokens, mas foi treinado para às vezes emitir uma sequência especial que o servidor interpreta como "quero chamar a ferramenta X com estes argumentos".

O servidor executa, devolve o resultado em forma de mais tokens no contexto, e o modelo continua. Esse ciclo de pensar, agir, observar e repetir é o agentic loop.

O agentic loop: o agente pensa se precisa de ferramenta, age com uma tool call, observa o resultado virar novo contexto e repete até ter a resposta — O agentic loop: pensar, agir, observar o resultado, repetir — até o modelo decidir que tem a resposta final.

No Claude Code, uma ferramenta é uma tripla: nome, descrição do que faz e esquema dos argumentos. As built-in cobrem o trabalho local (Read lê arquivo, Bash roda comando, Grep busca por texto).

O MCP é o jeito padrão de ensinar ferramentas novas ao agente, ligando serviços como GitHub ou Notion sem integrar código a código. Cada tool call traz dados de volta para o contexto, e é o agente que decide qual chamar a cada turno.

Context engineering: escolher o que entra na janela

As peças se encaixam. O modelo só responde com base no contexto; o conhecimento dele congela no cutoff, então fatos atuais vêm pelo contexto; RAG injeta documentos no contexto; as ferramentas injetam resultados de ação no contexto; a memória persistente injeta conversas anteriores no contexto.

Ao longo de 2024 e 2025, a percepção que se consolidou na prática profissional é que escolher o que entra na janela de contexto a cada chamada é a habilidade central. O ofício ganhou nome próprio: context engineering, e o prompt engineering, que cuida só da última mensagem do usuário, virou um caso particular dele.

A janela funciona como uma pilha de fatias que compete por espaço, e cada chamada monta essa pilha de novo. A do Claude Sonnet hoje vai até 200 mil tokens (1 milhão na variante estendida), o que parece muito até você notar que um repositório médio de código estoura esse limite. Daí o trabalho real, que é decidir o que merece estar lá:

📌

Sempre presente

Instruções que valem em toda chamada (CLAUDE.md, system prompt). Caras, então precisam ser densas.

🔍

Buscado por turno

Arquivos via @-mention, resultado de ferramentas, trechos relevantes. Variam por interação.

🗜️

Resumido ou descartado

Histórico antigo: o Claude Code comprime turnos quando a janela enche, perdendo detalhe mas mantendo a direção.

🚫

Nunca deve estar

Token gasto em "olá, tudo bem?", explicação repetida ou dump bruto de um arquivo gigante quando só três linhas importam.

As alavancas de context engineering no Claude Code

Você provavelmente já usou várias destas sem dar o nome. Cada uma é uma decisão sobre o que entra na janela:

CLAUDE.md — sobe automaticamente como parte do system prompt; é onde você ensina o agente sobre o projeto. Densidade alta vale ouro porque entra em toda chamada.
@arquivo — inclusão pontual de conteúdo no contexto da pergunta, mais preciso do que pedir "lê o projeto inteiro".
/clear — zera o histórico ao mudar de tarefa, porque manter o que veio antes só polui a previsão de token.
/compact — resume o histórico em vez de jogar fora, quando você quer continuar mas o contexto começou a apertar.
MCP, skills e subagentes — ampliam as ferramentas e deixam tarefas específicas rodarem com contexto próprio, sem poluir a conversa principal.

Pensar a interação como context engineering muda a pergunta que você faz a si mesmo. Em vez de "como reformulo este prompt", a pergunta passa a ser "o que precisa estar no contexto para a resposta sair certa de primeira?". Quase sempre a resposta envolve colocar menos lixo e a informação certa, não polir a frase final.

O que a prática consolidou

Prompt mágico não existe. Não há frase secreta que multiplique a inteligência do modelo; a maior parte do ganho vem da qualidade do contexto, não do floreio.
Janela maior importa menos do que se pensava. Um modelo com 1 milhão de contexto mal-curado responde pior que um com 200 mil bem-curado.
As ferramentas mudaram o jogo. A maior parte do trabalho útil hoje envolve o modelo agindo — buscando, executando, escrevendo arquivo — e não só respondendo.
Alucinação não foi resolvida. Foi mitigada por RAG, ferramentas e modelos melhores, mas continua sendo o risco operacional número um em pipelines que dependem de fato.

Perguntas frequentes

O que é context engineering?

É o trabalho de decidir, organizar e otimizar tudo o que o modelo lê antes de responder: instruções do sistema, documentos buscados, histórico relevante, descrições de ferramentas, formato de saída e a pergunta do usuário. Como o modelo só responde com base no que está no contexto, escolher o que entra na janela a cada chamada é o que mais determina a qualidade da resposta.

Qual a diferença entre context engineering e prompt engineering?

Prompt engineering cuida da última mensagem do usuário — como formular a pergunta. Context engineering cuida de tudo o que entra na janela de contexto, sendo o prompt apenas uma das fatias.

A mudança de foco reflete a percepção de que o prompt é um pedaço pequeno do problema: antes dele já há system prompt, ferramentas, documentos buscados e histórico, e é a soma disso que o modelo lê.

Por que o LLM alucina?

Porque ele prevê o token mais provável dada a sequência, em vez de consultar uma base de dados. Quando o fato está fora do conhecimento congelado no treino (knowledge cutoff), é muito específico ou exige um cálculo, o modelo produz texto fluente e confiante que pode estar errado.

A alucinação é estrutural, e a defesa é alimentar o contexto com os fatos certos no momento do pedido, via RAG ou ferramentas.

O que é RAG?

RAG (Retrieval-Augmented Generation) é buscar os documentos relevantes antes de perguntar e colá-los no contexto junto com a pergunta. O modelo responde ancorado nesses trechos em vez de chutar com base na memória. Reduz bastante a alucinação, mas depende da qualidade da busca: trecho errado no contexto vira resposta errada.

Do conceito ao agente que roda no seu projeto

Entender context engineering é o primeiro passo; o seguinte é aplicar — montar o CLAUDE.md certo, ligar os MCPs, desenhar o loop e detectar o erro num agente que trabalha com dados econômicos reais. É isso que a imersão Claude Code para Economistas ensina, da instalação ao agente em produção.

Conhecer a imersão →

Leia também:

Context Engineering: o que o modelo lê quando responde

Como o modelo lê: tudo vira token

A tarefa única do LLM: prever o próximo token

Por que o modelo não sabe a Selic de hoje

Alucinação é estrutural, não um deslize ocasional

Quer entender IA por dentro, sem hype?

RAG: a resposta da indústria à alucinação

De assistente a agente: o modelo aciona ferramentas

Context engineering: escolher o que entra na janela

As alavancas de context engineering no Claude Code

O que a prática consolidou

Perguntas frequentes

O que é context engineering?

Qual a diferença entre context engineering e prompt engineering?

Por que o LLM alucina?

O que é RAG?

Do conceito ao agente que roda no seu projeto

Compartilhe esse artigo

Boletim AM

Encontre o seu conteúdo

Categorias

Artigos mais acessados

Agente de IA que coleta dados do BCB e do IBGE sozinho

Como construímos um agente de IA que lê as atas do Copom

Context Engineering: o que o modelo lê quando responde

Claude Code para Economistas

Claude Code: Como Instalar e Começar a Usar

Construindo um Índice de Tom das Atas do Copom com LLMs e Python