Pular para o conteúdo
MÓDULO 1.2

⛏️ Gordura vs Ouro — e o Mito do Raciocínio Minerável

Nem tudo no log é ouro. Neste módulo você aprende a separar a gordura (saída ecoada, dumps, blobs) do ouro (decisões, ritmo, sequência) — e encara o mito mais importante do curso: o texto do raciocínio vem cifrado. Você minera a presença, não o pensamento literal.

6
Tópicos
25
Minutos
Básico
Nível
Teoria
Tipo
sessão bruta .jsonl pesado GORDURA — descartar tool_result · dumps · base64 · usage 🗑️ OURO — manter prompts · texto · presença · sequência 💎 transcrição leve −74%
1

🍔 A gordura

A maior parte do peso de um log é gordura: bytes que não dizem nada sobre como o modelo trabalha. O campeão é o tool_result — a saída de cada ferramenta ecoada de volta. Junto vêm os dumps de arquivo inteiros, a saída de comando, os blobs de anexo (base64) e a contabilidade do harness (usage, sidechain, isMeta).

🗑️ O que é gordura (descartar)

  • tool_result — a saída da ferramenta, ecoada na íntegra.
  • Dumps de arquivo inteiros (conteúdo de Read).
  • Saída de comando (stdout/stderr longos).
  • Blobs de anexo (imagens base64, PDFs).
  • Contabilidade do harness: usage, sidechain, isMeta.

💡 Dica prática

Descartar o tool_result não apaga a decisão de usar a ferramenta — o tool_use (ouro) permanece. Você joga fora a resposta, não o pedido.

tool_result

saída ecoada

dumps

arquivos inteiros

blobs

base64

harness

usage/meta

2

💎 O ouro

O ouro é pequeno mas denso: seus prompts, o texto do assistente, a presença de raciocínio, a sequência de tool_use e os timestamps. Junte isso e você tem o material que revela como cada modelo realmente trabalha.

💎 O que é ouro (manter)

  • Seus prompts — o que você pediu.
  • O texto do assistente — a fala visível.
  • A presença de raciocínio — houve thinking ou não.
  • A sequência de tool_use — a ordem das ações.
  • Os timestamps — a cadência no tempo.

🧭 A regra de bolso

Gordura é saída ecoada e bytes opacos. Ouro é decisão, ordem e cadência. Se o byte conta o que o modelo escolheu fazer, é ouro. Se conta o que a ferramenta respondeu, é gordura.

prompts

o pedido

texto

a fala

tool_use

a sequência

timestamps

a cadência

3

🔐 O MITO do raciocínio minerável

Este é o achado honesto que define o curso. A intuição diz: "se há raciocínio nos logs, vou ler o pensamento do modelo". Errado. O texto do thinking vem VAZIO ou cifrado — só a signature sobrevive. Você não minera o pensamento literal do modelo.

{"type":"thinking",
  "thinking":"",                         # vazio
  "signature":"EqoBCkgI...assinado..."  # só prova que pensou
}

🧨 Desfaça o mito

O que você NÃO consegue extrair dos logs:

  • O conteúdo literal do raciocínio (as palavras que o modelo "pensou").
  • A cadeia de inferência interna passo a passo.

O que você minera de verdade

  • A presença do raciocínio (houve bloco thinking, atestado pela signature).
  • O texto visível que o modelo escolheu mostrar.
  • A sequência de ferramentas — a ordem em que agiu.
Presença

✓ minerável

Texto visível

✓ minerável

Sequência

✓ minerável

Pensamento literal

✗ cifrado

4

🎵 Por que isso ainda é poderoso

Se o pensamento literal está fora de alcance, por que ainda vale a pena? Porque o ritmo é o que transfere. A presença de raciocínio + a cadência de ferramentas + a ordem de ações revelam como um modelo aborda o trabalho — e isso é exatamente o que vira regra de playbook.

1

Presença de raciocínio

"Este modelo pensa antes de agir em 99% dos turnos?" é uma pergunta respondível — e transferível como regra: pense antes de agir.

2

Cadência de ferramentas

Quantas ferramentas por turno? Denso ou econômico? Revela disciplina (ou thrashing).

3

Ordem de ações

Lê antes de editar? Testa depois de editar? A sequência é uma assinatura de boa prática.

💡 A ideia-chave

Você não precisa do pensamento literal para copiar o hábito. "Pense antes de agir" é uma instrução simples — e o log prova que o Fable a segue 99% das vezes. Isso basta para virar regra.

⚠ Atualização: medido depois em amostra grande (4.892 passos), o número honesto é ~85% (não 99%) e o gap cai pra +31 pts — e aparece um gap escondido em teste-após-editar (41% vs 2%). Veja a Trilha 4 · A Prova Real.

Presença

pensa-antes

Cadência

ferr./turno

Ordem

read→edit→test

= Ritmo

transferível

5

📉 Quanto dá pra encolher

Na prática, descartar a gordura encolhe uma sessão típica em cerca de 74%. Não é um número mágico — é o reflexo direto de que a gordura é, mesmo, a maior parte do arquivo. O ouro que sobra cabe numa transcrição leve e legível.

📊 O número real

~74%

de redução numa sessão típica após o debloat.

A barra mostra a fração que era gordura. O que resta (26%) é o ouro.

💡 Por que importa

Uma transcrição 74% menor é mais barata de ler, de analisar e de passar para outra etapa. E é honesta: ela mostra exatamente o que o modelo decidiu, sem o ruído da saída das ferramentas.

Redução

~74%

Sobra

o ouro (~26%)

Resultado

transcrição leve

Ganho

barato de analisar

6

🔏 Ética e privacidade

Um lembrete que não pode faltar: os logs têm o SEU código e os SEUS dados. Caminhos de arquivo, trechos de fonte, às vezes segredos colados num prompt. Trate o corpus como sensível e redija antes de compartilhar.

✓ Boas práticas

  • Trate o corpus como dado pessoal.
  • Redija segredos/chaves antes de exportar.
  • Compartilhe só o ouro (ritmo), não os dados.

✗ Evite

  • Colar logs brutos num lugar público.
  • Assumir que "é só metadado".
  • Subir o corpus sem revisar o conteúdo.

🔒 Lembre-se

O objetivo do curso é minerar ritmo, não dados. Sempre que possível, derive as métricas e descarte o conteúdo bruto — você quase nunca precisa do código original para medir o comportamento.

Sensível

seu código/dados

Redija

antes de compartilhar

Minere

ritmo, não dado

Descarte

o bruto

⛏️ Resumo do Módulo

Gordura = saída ecoada + bytes opacos — tool_result, dumps, blobs, harness.
Ouro = decisão, ordem e cadência — prompts, texto, presença, sequência, timestamps.
O texto do raciocínio vem cifrado — só a signature; você minera presença, não conteúdo.
Presença + cadência + ordem = ritmo — e o ritmo é transferível.
Debloat encolhe ~74% — a gordura é a maior parte.
O corpus é sensível — redija antes de compartilhar.

Próxima Trilha:

Trilha 2 — A Mão na Massa: debloat na prática, corpus e o delta Fable vs Opus.