TRILHA 2

🛠️ A Mão na Massa

Sabendo onde o ouro está, agora você o garimpa. Esta trilha roda os scripts de verdade: o debloat que destila uma sessão pesada numa transcrição leve, e o extract/compare que tira o corpus de cada modelo e mede o delta Fable vs Opus em números reais.

Módulos

Tópicos

~55 min

Duração

Prático

Nível

Progresso da Trilha 2 0%

0 de 0

Mapa da trilha

2.1 ~25 min

🧪 Debloat

Joga a gordura fora

2.2 ~30 min

📊 Corpus e o Delta

Os números não mentem

Conteúdo detalhado

2.1 ~25 min

🧪 Debloat: Destilando a Transcrição

O que jogar fora, o que guardar, o script que faz isso e os ~74% que somem — sem perder o ritmo.

O que é:

A maior parte de uma sessão JSONL é gordura: tool_result com a saída ecoada, dumps de arquivo inteiros, saída de comando e anexos em base64. Carregar o cru no contexto é desperdício.

Por que aprender:

Sem destilar, qualquer análise afoga o sinal em bytes opacos — e custa contexto à toa.

Conceitos-chave:

Saída ecoada + blobs = peso, não comportamento; o cru não cabe no contexto.

O que é:

Preserva seus prompts, o texto do assistente, o message.model, 1 linha por tool_use (nome + alvo curto) e a PRESENÇA de raciocínio (marca 🧠, já que o texto vem cifrado).

Por que aprender:

É exatamente o ouro — decisões, ordem das ações e cadência — que o playbook vai usar.

Conceitos-chave:

Mantém o ritmo, não a saída; marca 🧠 = pensou (sem revelar o quê).

O que é:

Joga fora os payloads de tool_result, os blobs de anexo e a contabilidade do harness — usage, uuids, isMeta, sidechain.

Por que aprender:

É o que pesa e não carrega sinal de comportamento — descartar não muda o ritmo medido.

Conceitos-chave:

Saída ecoada e metadados do harness saem; o "o quê foi feito" fica.

O que é:

Roda no demo_session.jsonl por padrão; aceita -o (saída), --no-thinking e --no-open; imprime o tamanho antes/depois.

Por que aprender:

É a primeira ferramenta da mão na massa — você vê o formato leve na prática.

Conceitos-chave:

Default = demo; -o escolhe a saída; mostra antes → depois.

O que é:

Numa sessão típica o debloat corta cerca de 74% do peso — a gordura era a maior parte do arquivo.

Por que aprender:

Calibra a expectativa: o sinal cabe num arquivo pequeno e legível.

Conceitos-chave:

−74% típico; o ~26% restante é o ouro que você analisa.

O que é:

Cada bloco do assistente é uma LINHA separada; o debloat preserva a ordem, então você vê o assistente em vários cabeçalhos seguidos. É normal.

Por que aprender:

É por isso que a análise agrupa em TURNO LÓGICO — senão o sinal se dilui por linha.

Conceitos-chave:

Ordem preservada; vários cabeçalhos = um turno; agrupe por prompt humano.

Ver Completo

2.2 ~30 min

📊 Corpus, Números e o Delta Fable vs Opus

Extrair o corpus por modelo, medir o ritmo em números reais, comparar dois modelos e ler o delta com honestidade.

O que é:

extract_corpus.py --model claude-fable-5 extrai TODOS os turnos de um modelo de todo o histórico (todos os projetos). --list mostra os modelos presentes.

Por que aprender:

É o que separa o corpus de cada modelo — a base de toda comparação.

Conceitos-chave:

Filtra por message.model; varre projetos inteiros; --list revela os modelos.

O que é:

Um turno lógico é 1 prompt humano até o próximo. Como cada bloco é uma linha, medir por linha distorce — por isso as métricas são por turno lógico.

Por que aprender:

É a unidade que revela "quanto o modelo fez para responder àquele prompt" — o ritmo real.

Conceitos-chave:

Prompt → prompt; agrupa blocos; toda métrica é por turno lógico.

O que é:

Turnos lógicos, % que pensaram antes, ferramentas/turno (média e mediana), read-antes-de-edit e teste-depois-de-edit — tudo medido, não estimado de cabeça.

Por que aprender:

Trocar impressão por número é o que torna o achado defensável e transferível.

Conceitos-chave:

Presença de raciocínio + densidade de ferramentas + ordem (read→edit→test).

O que é:

compare_models.py --a claude-fable-5 --b claude-opus-4-8 imprime a tabela lado a lado e a coluna Δ; --out compare.json grava o resultado.

Por que aprender:

O Δ é a matéria-prima do playbook — a diferença entre os dois ritmos.

Conceitos-chave:

Duas colunas + Δ; cada linha é uma métrica; salva em compare.json.

O que é:

Fable-5 pensou antes em 99% dos turnos vs Opus 54% (+45 pontos). Ferramentas/turno: 6,57 vs 7,86 (Fable mais econômico).

⚠ Atualização: medido depois em amostra grande (4.892 passos), o número honesto é ~85% (não 99%) e o gap cai pra +31 pts — e aparece um gap escondido em teste-após-editar (41% vs 2%). Veja a Trilha 4 · A Prova Real.

Por que aprender:

É o achado forte e transferível — vira a regra-âncora "pense antes de agir".

Conceitos-chave:

Honestidade: mais ferramentas ≠ melhor (densidade vs thrashing).

O que é:

A amostra de Fable é pequena (7 sessões), o que deixa read-before-edit/test-after-edit ruidosos; e o texto do raciocínio vem cifrado — mede-se a presença, não o conteúdo.

Por que aprender:

Saber o que NÃO afirmar é o que mantém o curso honesto e defensável.

Conceitos-chave:

Onde o Fable era fraco: over-thinking no trivial, verbosidade.

Ver Completo

← Trilha 1: Os Logs São Ouro Próxima Trilha: Do Delta ao Playbook →