Módulo 4.1 · A Armadilha da Amostra

🧪 Os três testes, em ordem

O delta Fable vs Opus não saiu de uma medição só — saiu de uma jornada de três. Primeiro um punhado de sessões locais. Depois uma tentativa de equilibrar o tamanho. Por fim, um dataset aberto com milhares de passos. Cada rodada deu um número diferente — e é justamente essa diferença que ensina a não confiar no primeiro resultado.

7 sessões locais

O primeiro recorte: ~950 passos do Fable local. Empolgante, mas minúsculo — e foi onde a armadilha começou.

Amostra igual (~950 cada)

Tentamos equilibrar capando pelo nº de passos. Ajuda — mas se o lado contrário ainda é minúsculo, continua ruído.

4.892 passos do HF

Dataset aberto Fable-5-traces: 30 sessões. Amostra grande dos dois lados = número defensável.

💡 Por que medir três vezes?

Porque o primeiro número foi bonito demais. Quando um resultado parece grande demais para ser verdade, a primeira pergunta não é "uau, quanto?" — é "de quantas sessões saiu isso?". Repetir com mais dados é o que separa o achado da ilusão.

1️⃣ Teste 1 — o sample minúsculo

O primeiro recorte foram 7 sessões / 950 passos do Fable local. O número saiu redondo e empolgante: 99% pensa no Fable contra 54% no Opus — um delta de +45pp. Parece a prova definitiva. Mas 99% de uma amostra de 7 sessões é exatamente o tipo de número que deveria acender o alerta, não fechar a conta.

✓ O que o sample parecia mostrar

✓Fable pensa antes de agir 99% das vezes.
✓Opus pensa 54% — um abismo de +45pp.
✓"Pronto, está provado: Fable é muito melhor."

✗ O que a amostra de 7 escondia

✗7 sessões não representam o comportamento típico.
✗99% quase nunca sobrevive a mais dados (caiu pra 85%).
✗O +45pp era um artefato do tamanho, não um fato.

🔎 A pegadinha do 99%

Um valor tão extremo (99%) num n pequeno é um sinal clássico de sobre-ajuste à amostra: poucas sessões, todas parecidas, e a estatística "satura". O número certo não é zero nem 99% — é os 85% que só aparecem quando você joga milhares de passos na conta.

⚖️ Teste 2 — amostra igual

Desconfiados do +45pp, tentamos o óbvio: equilibrar os tamanhos. Capamos os dois lados em ~950 passos cada. Resultado surpreendente — o Opus saltou para 94%. Só que esse recorte do Opus veio de apenas 4 sessões. Capar o tamanho ajudou a tirar o viés do volume, mas trocou um problema por outro: 4 sessões ainda é ruído, e o número virou instável.

📊 O que aprendemos com o teste 2

Equilibrar tamanho é necessário — comparar 950 vs 42k passos sempre vai distorcer.
Mas não basta — se o lado balanceado tem 4 sessões, você só trocou um viés por variância.
94% de 4 sessões ≠ verdade — é o mesmo erro do teste 1, agora do outro lado.

💡 Dica prática

Balancear amostra resolve uma das duas ameaças (o viés de volume). A outra — variância de amostra pequena — só some com mais sessões. Equilibre o tamanho e garanta volume suficiente nos dois lados antes de tirar conclusão.

📊 Teste 3 — 4.892 passos do HF

A resposta veio do dataset aberto Glint-Research/Fable-5-traces: 4.892 passos em 30 sessões do Fable, comparados contra a base ampla do Opus. Agora o "pensar antes de agir" estabilizou em Fable 85% vs Opus 54% (+31pp). Não é o +45pp eufórico nem o 94% invertido — é o número que sobrevive ao volume. Amostra grande dos dois lados é o que torna a comparação defensável.

Teste	Sample	Sessões	% pensa (Fable vs Opus)	Leitura
1️⃣ local	~950 passos	7 sessões	99% vs 54% (+45pp)	enganoso
⚖️ igual	~950 cada	4 sessões (Opus)	Opus salta p/ 94%	instável
📊 HF	4.892 passos	30 sessões	85% vs 54% (+31pp)	sólido

Dataset

Fable-5-traces (HF)

Passos

4.892 / 262 turnos

Sessões

Delta sólido

85 vs 54 = +31pp

🔀 Engano em DUAS direções

Este é o ponto central do módulo. Amostra pequena não erra só "pra mais" — ela erra nas duas direções ao mesmo tempo. No nosso caso, ela inflou o "pensar antes de agir" (mostrou 99%, o real é 85%) e ao mesmo tempo escondeu uma vantagem real: o "teste após editar", que o local marcava em 0%, na amostra grande é 41%. Ou seja: o sample pequeno mentiu pra cima num eixo e pra baixo no outro.

↑ Direção 1 — inflou

↑"Pensar antes de agir": local dizia 99%.
↑Amostra grande corrige para 85%.
↑O excesso virou um +45pp falso sobre o Opus.

↓ Direção 2 — escondeu

↓"Teste após editar": local marcava 0%.
↓Na amostra grande o Fable testa 41% (Opus 2%).
↓Uma vantagem real ficou invisível no sample pequeno.

💡 Lembre da honestidade da medida

O texto do thinking vem cifrado nos logs — então medimos a presença do pensar, não o conteúdo. Mesmo assim, a presença já basta para mostrar que a amostra pequena distorceu nos dois sentidos: inflou onde havia pouco e apagou onde havia muito.

📐 A regra de ouro

Tudo isso destila em três mandamentos. Nunca conclua de amostra pequena. Equilibre os tamanhos antes de comparar (capar pelo nº de passos). E confirme em amostra grande antes de acreditar. Foi seguindo essa régua que o +45pp eufórico virou o +31pp defensável — e que a vantagem escondida do "testar" (0→41%) finalmente apareceu.

✓ Faça assim

✓Balanceie a amostra (ex.: ~950 passos cada lado).
✓Exija volume nos dois lados, não só num.
✓Confirme num dataset grande antes de crer.

✗ Nunca faça

✗Fechar conta com 7 sessões só porque o número é bonito.
✗Comparar 950 passos contra 42k sem balancear.
✗Crer no 99% (ou no 94%) sem repetir com mais dados.

🔎 A régua em uma frase

Antes de acreditar que "modelo X é melhor que Y", pergunte: de quantas sessões saiu isso, e os dois lados estavam equilibrados? Se a resposta é "poucas" ou "não", você ainda não tem um número — tem uma impressão.

🪤 Resumo do Módulo

✓

Três testes, em ordem — 7 sessões → amostra igual → 4.892 passos do HF.

✓

Teste 1 — o sample minúsculo — 99% vs 54% (+45pp) de só 7 sessões. Enganoso.

✓

Teste 2 — amostra igual — Opus salta p/ 94% num recorte de 4 sessões. Instável.

✓

Teste 3 — 4.892 passos do HF — Fable 85% vs Opus 54% (+31pp). Sólido.

✓

Engano em DUAS direções — inflou o "pensar" (99→85) E escondeu o "testar" (0→41%).

✓

A regra de ouro — nunca conclua de amostra pequena; equilibre; confirme em amostra grande.

A seguir:

Sabendo o que enganou, vamos às soluções aplicáveis — medir honesto, injetar a regra focada e reproduzir tudo.

← Trilha 3 Módulo 4.2 →