Pular para o conteúdo
TRILHA 4

🛡️ A Prova Real

Antes de acreditar em qualquer número, é preciso confiar na régua. Esta trilha mostra como a gente mediu três vezes — 7 sessões locais, depois amostra igualada, depois 4.892 passos do dataset aberto — e descobriu que amostra pequena engana nas duas direções. E quais soluções aplicar para medir, injetar e reproduzir sem se enganar.

7 sessões ±instável amostra 1 ~950 passos igualada · ruidosa amostra 2 4.892 passos 30 sessões · HF sólida amostra 3 85% vs 54% +31pp · defensável
3
Módulos
18
Tópicos
~75 min
Duração
Avançado
Nível
Progresso da Trilha 4 0%
0 de 0

Mapa da trilha

Conteúdo detalhado

4.1 ~25 min

🪤 A Armadilha da Amostra

Como a amostra pequena engana nas duas direções — a jornada dos três testes até o número defensável.

O que é:

A jornada da medição em três rodadas: 7 sessões locais → amostra igualada (~950 passos) → 4.892 passos do dataset aberto do HF.

Por que aprender:

Cada rodada corrige um viés da anterior; ver a sequência ensina a não confiar na primeira medição.

Conceitos-chave:

Medir três vezes; cada amostra maior; do empolgante (enganoso) ao defensável (sólido).

O que é:

7 sessões / ~950 passos do Fable local deram 99% de "pensa antes de agir" contra 54% do Opus — um delta de +45pp.

Por que aprender:

O número empolga, mas vem de apenas 7 sessões: é o tipo de resultado que parece prova e é só ruído.

Conceitos-chave:

99% vs 54% (+45pp); amostra de 7 sessões; empolgante ≠ confiável.

O que é:

Igualando o tamanho (~950 passos de cada), o Opus salta para 94% num recorte de só 4 sessões.

Por que aprender:

Capar o tamanho ajuda a comparar, MAS 4 sessões ainda é pouco: o número balança conforme o recorte.

Conceitos-chave:

Amostra igualada; recorte de 4 sessões; instável; tamanho igual não basta sem volume.

O que é:

4.892 passos / 30 sessões do dataset aberto Glint-Research/Fable-5-traces: Fable 85% vs Opus 54% (+31pp).

Por que aprender:

Amostra grande dos dois lados é o que torna o número defensável — a régua que vale levar pra frente.

Conceitos-chave:

85% vs 54% (+31pp); 4.892 passos / 30 sessões; dataset aberto; defensável.

O que é:

A amostra pequena INFLOU o "pensar antes de agir" (99→85) E ESCONDEU o "teste após editar" (local dava 0%, o real é 41%).

Por que aprender:

É o ponto central da trilha: amostra pequena não erra só pra cima — ela erra pros dois lados.

Conceitos-chave:

Inflar (99→85) e esconder (0→41%); o viés tem duas direções; presença, não conteúdo.

O que é:

Nunca conclua de amostra pequena; equilibre os tamanhos antes de comparar; confirme em amostra grande antes de crer.

Por que aprender:

É o destilado prático da armadilha — a disciplina que separa um número de uma opinião.

Conceitos-chave:

Não concluir cedo; equilibrar tamanhos; confirmar no grande; ceticismo até o volume bater.

Ver Completo
4.2 ~25 min

🛠️ As Soluções Aplicáveis

O playbook corrigido e como medir, injetar e reproduzir direito — honestidade acima de hype.

O que é:

Só duas regras transferem com lastro: pensar antes de agir (85 vs 54) e fechar o loop com teste após editar (41 vs 2).

Por que aprender:

Foco vale mais que volume: um playbook de duas regras com lastro bate um de dez sem prova.

Conceitos-chave:

Pensar-antes (85 vs 54); testar-depois (41 vs 2); só o que transfere de verdade.

O que é:

Um hook SessionStart lê um .md separado (editável sem mexer no settings), é fail-open e MESCLA no array de hooks — não sobrescreve.

{
  "hooks": {
    "SessionStart": [
      { "hooks": [
        { "type": "command",
          "command": "cat ~/.claude/fable-playbook.md 2>/dev/null || true" }
      ] }
    ]
  }
}
Por que aprender:

Separar a regra num .md deixa você iterar o playbook sem tocar no settings, e o || true garante que nunca quebra a sessão.

Conceitos-chave:

SessionStart; .md editável; fail-open; mesclar (não sobrescrever) o array.

O que é:

Balancear a amostra (capar pelo nº de passos, ex.: ~950) e avisar quando os tamanhos divergem demais entre os modelos.

Por que aprender:

É exatamente o que evita o +45pp falso: sem balanceamento, o modelo com mais dados parece "melhor".

Conceitos-chave:

Capar por passos; alerta de divergência; comparação só com tamanhos próximos.

O que é:

Baixar o dump CRU de Glint-Research/Fable-5-traces (são .jsonl do Claude Code, não chat achatado) via API do HF — sem a lib datasets — e rodar no fable_lib.

BASE=https://huggingface.co/datasets/Glint-Research/Fable-5-traces/resolve/main
curl -sL "$BASE/<arquivo>.jsonl" -o sessao.jsonl
python -m fable_lib.measure sessao.jsonl
Por que aprender:

É como obter uma referência grande mesmo sem dados próprios — e preservar o formato de eventos que o medidor precisa.

Conceitos-chave:

Dump CRU; .jsonl de eventos; API do HF; sem datasets; rodar no fable_lib.

O que é:

Os comandos que reproduzem a medição (extract_corpus.py, compare_models.py, o medidor do HF) e salvar um baseline DATADO num lugar durável — não em /tmp.

Por que aprender:

Sem baseline durável e datado, você não tem com o que comparar depois — e perde a prova de que algo mudou.

Conceitos-chave:

extract_corpus / compare_models; medidor do HF; baseline datado; lugar durável (não /tmp).

O que é:

Presença ≠ conteúdo (o raciocínio vem cifrado nos logs); os pesos do modelo não atravessam; o playbook precisa ser iterado com novos dados.

Por que aprender:

Saber os limites é o que mantém o método honesto — você copia o ritmo, não o cérebro do modelo.

Conceitos-chave:

Raciocínio cifrado; pesos não transferem; iterar com novos dados; honestidade acima de hype.

Ver Completo
4.3 ~25 min

🧰 Exemplos de Utilidade

Onde isso é útil de verdade — escolher modelo, diagnosticar o seu, onboarding, provar mudança e derrubar hype.

O que é:

Sonnet pensa só 10% e usa poucas ferramentas (ótimo p/ tarefa rápida, mecânica e barata); Opus e Fable para trabalho que exige planejar e fechar o loop.

Por que aprender:

A régua vira critério de roteamento: você escolhe o modelo pela natureza da tarefa, com número na mão.

Conceitos-chave:

Sonnet 10% / poucas ferramentas; Opus e Fable para planejar+fechar loop; modelo por tarefa.

O que é:

Meça os seus próprios logs e veja onde você falha. Ex.: se o seu Opus testa após editar só 2%, a maior alavanca é fechar o loop — não "pensar mais".

Por que aprender:

Transforma conselho genérico em diagnóstico pessoal: você corrige a falha que os SEUS dados mostram.

Conceitos-chave:

Medir os próprios logs; achar a falha real; alavanca = onde o número é mais baixo.

O que é:

Injetar o ritmo bom por default (hook SessionStart ou CLAUDE.md) para todo dev começar a sessão com pensar-antes + testar-depois.

Por que aprender:

Padroniza o bom comportamento sem depender de cada pessoa lembrar — o playbook vira cultura, não folclore.

Conceitos-chave:

Default via hook/CLAUDE.md; pensar-antes + testar-depois; não depender de memória individual.

O que é:

Baseline datado ANTES, aplica o playbook, mede DEPOIS com amostra suficiente — transforma "acho que melhorou" em número.

Por que aprender:

É a diferença entre impressão e evidência. Cuidado com diluição: isole as sessões novas para o efeito não sumir na média.

Conceitos-chave:

Antes/depois; baseline datado; amostra suficiente; isolar sessões novas (anti-diluição).

O que é:

O mesmo método mede Codex e modelos open-source — basta ter os logs no formato de eventos. O campo model é a chave.

Por que aprender:

A régua não é específica de um fornecedor: onde houver eventos com model, você mede.

Conceitos-chave:

Codex e open-source; formato de eventos; campo model como chave; método agnóstico.

O que é:

Use a régua para exigir número de amostra grande antes de acreditar em qualquer "modelo X é melhor que Y".

Por que aprender:

Foi exatamente assim que derrubamos o "+45pp": cobrar amostra é o que separa marketing de medição.

Conceitos-chave:

Exigir amostra grande; ceticismo com claims; foi assim que o +45pp caiu.

Ver Completo