Pular para o conteúdo
MÓDULO 4.1

🪤 A Armadilha da Amostra

Medimos o mesmo delta três vezes — e o número mudou cada vez. Aqui você vê como uma amostra pequena engana nas duas direções: ela inflou uma vantagem que não existia (+45pp) e escondeu outra que era real. A régua honesta só aparece com amostra grande dos dois lados.

6
Tópicos
~25
Minutos
Avançado
Nível
Conceitual
Tipo
7 7 sessões ~950 passos ~950 amostra igual 4 sessões (Opus) 4.9k 4.892 passos (HF) 30 sessões +45pp enganoso 94% Opus instável +31pp sólido / defensável
1

🧪 Os três testes, em ordem

O delta Fable vs Opus não saiu de uma medição só — saiu de uma jornada de três. Primeiro um punhado de sessões locais. Depois uma tentativa de equilibrar o tamanho. Por fim, um dataset aberto com milhares de passos. Cada rodada deu um número diferente — e é justamente essa diferença que ensina a não confiar no primeiro resultado.

1

7 sessões locais

O primeiro recorte: ~950 passos do Fable local. Empolgante, mas minúsculo — e foi onde a armadilha começou.

2

Amostra igual (~950 cada)

Tentamos equilibrar capando pelo nº de passos. Ajuda — mas se o lado contrário ainda é minúsculo, continua ruído.

3

4.892 passos do HF

Dataset aberto Fable-5-traces: 30 sessões. Amostra grande dos dois lados = número defensável.

💡 Por que medir três vezes?

Porque o primeiro número foi bonito demais. Quando um resultado parece grande demais para ser verdade, a primeira pergunta não é "uau, quanto?" — é "de quantas sessões saiu isso?". Repetir com mais dados é o que separa o achado da ilusão.

2

1️⃣ Teste 1 — o sample minúsculo

O primeiro recorte foram 7 sessões / 950 passos do Fable local. O número saiu redondo e empolgante: 99% pensa no Fable contra 54% no Opus — um delta de +45pp. Parece a prova definitiva. Mas 99% de uma amostra de 7 sessões é exatamente o tipo de número que deveria acender o alerta, não fechar a conta.

✓ O que o sample parecia mostrar

  • Fable pensa antes de agir 99% das vezes.
  • Opus pensa 54% — um abismo de +45pp.
  • "Pronto, está provado: Fable é muito melhor."

✗ O que a amostra de 7 escondia

  • 7 sessões não representam o comportamento típico.
  • 99% quase nunca sobrevive a mais dados (caiu pra 85%).
  • O +45pp era um artefato do tamanho, não um fato.

🔎 A pegadinha do 99%

Um valor tão extremo (99%) num n pequeno é um sinal clássico de sobre-ajuste à amostra: poucas sessões, todas parecidas, e a estatística "satura". O número certo não é zero nem 99% — é os 85% que só aparecem quando você joga milhares de passos na conta.

3

⚖️ Teste 2 — amostra igual

Desconfiados do +45pp, tentamos o óbvio: equilibrar os tamanhos. Capamos os dois lados em ~950 passos cada. Resultado surpreendente — o Opus saltou para 94%. Só que esse recorte do Opus veio de apenas 4 sessões. Capar o tamanho ajudou a tirar o viés do volume, mas trocou um problema por outro: 4 sessões ainda é ruído, e o número virou instável.

📊 O que aprendemos com o teste 2

  • Equilibrar tamanho é necessário — comparar 950 vs 42k passos sempre vai distorcer.
  • Mas não basta — se o lado balanceado tem 4 sessões, você só trocou um viés por variância.
  • 94% de 4 sessões ≠ verdade — é o mesmo erro do teste 1, agora do outro lado.

💡 Dica prática

Balancear amostra resolve uma das duas ameaças (o viés de volume). A outra — variância de amostra pequena — só some com mais sessões. Equilibre o tamanho e garanta volume suficiente nos dois lados antes de tirar conclusão.

4

📊 Teste 3 — 4.892 passos do HF

A resposta veio do dataset aberto Glint-Research/Fable-5-traces: 4.892 passos em 30 sessões do Fable, comparados contra a base ampla do Opus. Agora o "pensar antes de agir" estabilizou em Fable 85% vs Opus 54% (+31pp). Não é o +45pp eufórico nem o 94% invertido — é o número que sobrevive ao volume. Amostra grande dos dois lados é o que torna a comparação defensável.

Teste Sample Sessões % pensa (Fable vs Opus) Leitura
1️⃣ local ~950 passos 7 sessões 99% vs 54% (+45pp) enganoso
⚖️ igual ~950 cada 4 sessões (Opus) Opus salta p/ 94% instável
📊 HF 4.892 passos 30 sessões 85% vs 54% (+31pp) sólido
Dataset

Fable-5-traces (HF)

Passos

4.892 / 262 turnos

Sessões

30

Delta sólido

85 vs 54 = +31pp

5

🔀 Engano em DUAS direções

Este é o ponto central do módulo. Amostra pequena não erra só "pra mais" — ela erra nas duas direções ao mesmo tempo. No nosso caso, ela inflou o "pensar antes de agir" (mostrou 99%, o real é 85%) e ao mesmo tempo escondeu uma vantagem real: o "teste após editar", que o local marcava em 0%, na amostra grande é 41%. Ou seja: o sample pequeno mentiu pra cima num eixo e pra baixo no outro.

o que a amostra pequena mostrou INFLOU o "pensar" 99% → 85% real é menor ESCONDEU o "testar" 0% → 41% real é maior

↑ Direção 1 — inflou

  • "Pensar antes de agir": local dizia 99%.
  • Amostra grande corrige para 85%.
  • O excesso virou um +45pp falso sobre o Opus.

↓ Direção 2 — escondeu

  • "Teste após editar": local marcava 0%.
  • Na amostra grande o Fable testa 41% (Opus 2%).
  • Uma vantagem real ficou invisível no sample pequeno.

💡 Lembre da honestidade da medida

O texto do thinking vem cifrado nos logs — então medimos a presença do pensar, não o conteúdo. Mesmo assim, a presença já basta para mostrar que a amostra pequena distorceu nos dois sentidos: inflou onde havia pouco e apagou onde havia muito.

6

📐 A regra de ouro

Tudo isso destila em três mandamentos. Nunca conclua de amostra pequena. Equilibre os tamanhos antes de comparar (capar pelo nº de passos). E confirme em amostra grande antes de acreditar. Foi seguindo essa régua que o +45pp eufórico virou o +31pp defensável — e que a vantagem escondida do "testar" (0→41%) finalmente apareceu.

✓ Faça assim

  • Balanceie a amostra (ex.: ~950 passos cada lado).
  • Exija volume nos dois lados, não só num.
  • Confirme num dataset grande antes de crer.

✗ Nunca faça

  • Fechar conta com 7 sessões só porque o número é bonito.
  • Comparar 950 passos contra 42k sem balancear.
  • Crer no 99% (ou no 94%) sem repetir com mais dados.

🔎 A régua em uma frase

Antes de acreditar que "modelo X é melhor que Y", pergunte: de quantas sessões saiu isso, e os dois lados estavam equilibrados? Se a resposta é "poucas" ou "não", você ainda não tem um número — tem uma impressão.

🪤 Resumo do Módulo

Três testes, em ordem — 7 sessões → amostra igual → 4.892 passos do HF.
Teste 1 — o sample minúsculo — 99% vs 54% (+45pp) de só 7 sessões. Enganoso.
Teste 2 — amostra igual — Opus salta p/ 94% num recorte de 4 sessões. Instável.
Teste 3 — 4.892 passos do HF — Fable 85% vs Opus 54% (+31pp). Sólido.
Engano em DUAS direções — inflou o "pensar" (99→85) E escondeu o "testar" (0→41%).
A regra de ouro — nunca conclua de amostra pequena; equilibre; confirme em amostra grande.

A seguir:

Sabendo o que enganou, vamos às soluções aplicáveis — medir honesto, injetar a regra focada e reproduzir tudo.