Economizando tokens sem perder qualidade

Token caro não é o que você gasta — é o que você desperdiça. Contexto inflado piora a resposta e a fatura. Algumas práticas que cortam bem o gasto:

1. CLAUDE.md enxuto

Cada linha do CLAUDE.md entra em toda sessão. Se tem 500 linhas, você paga 500 linhas x N mensagens. Um CLAUDE.md de 80 linhas bem escolhidas funciona melhor que um de 400 cheio de “seja cuidadoso”.

Mede: wc -l CLAUDE.md. Passou de 150 linhas, provavelmente tem gordura.

2. Skills no lugar de contexto permanente

Procedimento que só importa em 10% das tarefas não deveria morar no CLAUDE.md. Vira skill — ela só carrega quando a description bate com a tarefa. Zero token quando não usa.

Exemplo: “como gerar migration” no CLAUDE.md custa tokens em toda sessão mesmo quando você tá mexendo no frontend. Vira skill, só pesa quando tem a ver.

3. Subagents pra coisa grande

Precisa ler log de 5000 linhas, ou explorar 20 arquivos? Delega pra subagent. O contexto dele é descartado — você recebe só o resumo.

Na prática: uma exploração que inflaria sua sessão em 40k tokens volta como resumo de 500 tokens. Você paga a exploração uma vez, não a cada mensagem subsequente.

4. Sonnet é o default, não Opus

Opus é caro — algo como 5x o custo do Sonnet por token. Pra maioria do trabalho (implementar feature razoável, corrigir bug, escrever teste), Sonnet entrega.

Regra prática:

Sonnet: default
Opus: planejamento de tarefa complexa, arquitetura, debug cabeludo, código onde erro custa caro
Haiku: tasks simples em volume (classificar, extrair, formatar)

Troca com /model. Costuma valer a pena começar em Sonnet e subir pra Opus só se empacar.

5. `/effort low` quando dá

Raciocínio extra custa token (e tempo). Pra pergunta factual, lookup, ou edição óbvia, /effort low é mais que suficiente. Guarda high pra decisões que importam.

6. `/clear` e `/compact` agressivos

A cada tarefa terminada, /clear. Não fica com contexto velho “por via das dúvidas”. No meio de tarefa longa com contexto passando de 70%, /compact — resume e segue com 30%.

Contexto em 90% não é só caro, é pior: o modelo começa a esquecer e alucinar. Economia aqui é dupla.

7. Prompt específico gasta menos

“Arruma esse bug” faz o Claude ler o mundo. “O teste auth.test.ts:42 falha com TypeError: x is undefined, acho que é no parseUser — investiga aí” vai direto. Prompt preguiçoso custa caro porque o modelo tem que fazer o trabalho que você não fez.

Números que dão dimensão

Num dia típico de dev, a diferença entre alguém que:

Deixa contexto acumular o dia todo sem /clear
Usa Opus pra tudo
Tem CLAUDE.md de 600 linhas

Versus alguém que:

/clear entre tarefas, /compact quando precisa
Sonnet default, Opus só em momentos específicos
CLAUDE.md enxuto + skills

Pode ser 3-5x de custo no fim do mês. Pra mesmo trabalho, às vezes melhor qualidade.

Dica prática

Abre o /cost no começo e no fim do dia por uma semana. Vai ver onde o dinheiro vai. Geralmente a resposta é “sessão que nunca foi limpa” e “Opus onde Sonnet daria conta”. Ajusta esses dois e metade do gasto some.