🧪 Os três testes, em ordem
O delta Fable vs Opus não saiu de uma medição só — saiu de uma jornada de três. Primeiro um punhado de sessões locais. Depois uma tentativa de equilibrar o tamanho. Por fim, um dataset aberto com milhares de passos. Cada rodada deu um número diferente — e é justamente essa diferença que ensina a não confiar no primeiro resultado.
7 sessões locais
O primeiro recorte: ~950 passos do Fable local. Empolgante, mas minúsculo — e foi onde a armadilha começou.
Amostra igual (~950 cada)
Tentamos equilibrar capando pelo nº de passos. Ajuda — mas se o lado contrário ainda é minúsculo, continua ruído.
4.892 passos do HF
Dataset aberto Fable-5-traces: 30 sessões. Amostra grande dos dois lados = número defensável.
💡 Por que medir três vezes?
Porque o primeiro número foi bonito demais. Quando um resultado parece grande demais para ser verdade, a primeira pergunta não é "uau, quanto?" — é "de quantas sessões saiu isso?". Repetir com mais dados é o que separa o achado da ilusão.
1️⃣ Teste 1 — o sample minúsculo
O primeiro recorte foram 7 sessões / 950 passos do Fable local. O número saiu redondo e empolgante: 99% pensa no Fable contra 54% no Opus — um delta de +45pp. Parece a prova definitiva. Mas 99% de uma amostra de 7 sessões é exatamente o tipo de número que deveria acender o alerta, não fechar a conta.
✓ O que o sample parecia mostrar
- ✓Fable pensa antes de agir 99% das vezes.
- ✓Opus pensa 54% — um abismo de +45pp.
- ✓"Pronto, está provado: Fable é muito melhor."
✗ O que a amostra de 7 escondia
- ✗7 sessões não representam o comportamento típico.
- ✗99% quase nunca sobrevive a mais dados (caiu pra 85%).
- ✗O +45pp era um artefato do tamanho, não um fato.
🔎 A pegadinha do 99%
Um valor tão extremo (99%) num n pequeno é um sinal clássico de sobre-ajuste à amostra: poucas sessões, todas parecidas, e a estatística "satura". O número certo não é zero nem 99% — é os 85% que só aparecem quando você joga milhares de passos na conta.
⚖️ Teste 2 — amostra igual
Desconfiados do +45pp, tentamos o óbvio: equilibrar os tamanhos. Capamos os dois lados em ~950 passos cada. Resultado surpreendente — o Opus saltou para 94%. Só que esse recorte do Opus veio de apenas 4 sessões. Capar o tamanho ajudou a tirar o viés do volume, mas trocou um problema por outro: 4 sessões ainda é ruído, e o número virou instável.
📊 O que aprendemos com o teste 2
- Equilibrar tamanho é necessário — comparar 950 vs 42k passos sempre vai distorcer.
- Mas não basta — se o lado balanceado tem 4 sessões, você só trocou um viés por variância.
- 94% de 4 sessões ≠ verdade — é o mesmo erro do teste 1, agora do outro lado.
💡 Dica prática
Balancear amostra resolve uma das duas ameaças (o viés de volume). A outra — variância de amostra pequena — só some com mais sessões. Equilibre o tamanho e garanta volume suficiente nos dois lados antes de tirar conclusão.
📊 Teste 3 — 4.892 passos do HF
A resposta veio do dataset aberto Glint-Research/Fable-5-traces: 4.892 passos
em 30 sessões do Fable, comparados contra a base ampla do Opus. Agora o "pensar antes de agir" estabilizou em
Fable 85% vs Opus 54% (+31pp). Não é o +45pp eufórico nem o 94% invertido — é o número que
sobrevive ao volume. Amostra grande dos dois lados é o que torna a comparação defensável.
| Teste | Sample | Sessões | % pensa (Fable vs Opus) | Leitura |
|---|---|---|---|---|
| 1️⃣ local | ~950 passos | 7 sessões | 99% vs 54% (+45pp) | enganoso |
| ⚖️ igual | ~950 cada | 4 sessões (Opus) | Opus salta p/ 94% | instável |
| 📊 HF | 4.892 passos | 30 sessões | 85% vs 54% (+31pp) | sólido |
Fable-5-traces (HF)
4.892 / 262 turnos
30
85 vs 54 = +31pp
🔀 Engano em DUAS direções
Este é o ponto central do módulo. Amostra pequena não erra só "pra mais" — ela erra nas duas direções ao mesmo tempo. No nosso caso, ela inflou o "pensar antes de agir" (mostrou 99%, o real é 85%) e ao mesmo tempo escondeu uma vantagem real: o "teste após editar", que o local marcava em 0%, na amostra grande é 41%. Ou seja: o sample pequeno mentiu pra cima num eixo e pra baixo no outro.
↑ Direção 1 — inflou
- ↑"Pensar antes de agir": local dizia 99%.
- ↑Amostra grande corrige para 85%.
- ↑O excesso virou um +45pp falso sobre o Opus.
↓ Direção 2 — escondeu
- ↓"Teste após editar": local marcava 0%.
- ↓Na amostra grande o Fable testa 41% (Opus 2%).
- ↓Uma vantagem real ficou invisível no sample pequeno.
💡 Lembre da honestidade da medida
O texto do thinking vem cifrado nos logs — então medimos a presença do pensar, não o conteúdo. Mesmo assim, a presença já basta para mostrar que a amostra pequena distorceu nos dois sentidos: inflou onde havia pouco e apagou onde havia muito.
📐 A regra de ouro
Tudo isso destila em três mandamentos. Nunca conclua de amostra pequena. Equilibre os tamanhos antes de comparar (capar pelo nº de passos). E confirme em amostra grande antes de acreditar. Foi seguindo essa régua que o +45pp eufórico virou o +31pp defensável — e que a vantagem escondida do "testar" (0→41%) finalmente apareceu.
✓ Faça assim
- ✓Balanceie a amostra (ex.: ~950 passos cada lado).
- ✓Exija volume nos dois lados, não só num.
- ✓Confirme num dataset grande antes de crer.
✗ Nunca faça
- ✗Fechar conta com 7 sessões só porque o número é bonito.
- ✗Comparar 950 passos contra 42k sem balancear.
- ✗Crer no 99% (ou no 94%) sem repetir com mais dados.
🔎 A régua em uma frase
Antes de acreditar que "modelo X é melhor que Y", pergunte: de quantas sessões saiu isso, e os dois lados estavam equilibrados? Se a resposta é "poucas" ou "não", você ainda não tem um número — tem uma impressão.
🪤 Resumo do Módulo
A seguir:
Sabendo o que enganou, vamos às soluções aplicáveis — medir honesto, injetar a regra focada e reproduzir tudo.