TL;DR: A Sakana AI revolucionou o treinamento de IA ao criar “professores inteligentes” – modelos menores especificamente treinados para ensinar, não para resolver problemas. Esses professores RLT conseguem treinar alunos que superam modelos muito maiores, resolvendo o problema dos custos proibitivos que levaram laboratórios como a OpenAI a abandonar projetos como o GPT-4.5. A descoberta prova que um bom professor não precisa ser mais inteligente que o aluno, apenas otimizado para explicar.
Takeaways:
- Grandes laboratórios de IA enfrentam custos insustentáveis, abandonando modelos avançados mesmo com bilhões em financiamento
- A destilação tradicional limita o aluno a nunca superar o professor, criando um teto artificial de capacidade
- Professores RLT são treinados pela capacidade de seus alunos aprenderem, não pela própria capacidade de resolver problemas
- Modelos menores (7B parâmetros) podem efetivamente treinar modelos maiores (32B parâmetros) quando otimizados para ensinar
- A abordagem reduz drasticamente custos enquanto melhora performance, potencialmente democratizando o acesso a IA avançada
Como a Sakana AI Está Revolucionando o Treinamento de Modelos de IA: A Nova Era dos “Professores Inteligentes”
Você já se perguntou por que a OpenAI teve que abandonar o GPT-4.5 mesmo sendo uma das empresas mais bem financiadas do mundo? A resposta é simples: custos proibitivos.
Enquanto os laboratórios de IA correm para lançar modelos cada vez mais poderosos, eles enfrentam um dilema cruel: criar modelos extraordinários que são impossíveis de manter no mercado devido aos custos astronômicos.
Mas e se eu te dissesse que existe uma forma de treinar modelos mais inteligentes usando modelos menores e mais baratos? Parece impossível, não é? A Sakana AI acaba de provar que isso não só é possível, como está revolucionando toda a indústria.
O Problema Bilionário dos Laboratórios de IA
A corrida pela supremacia em inteligência artificial criou um paradoxo perigoso. Laboratórios como OpenAI, Google e Anthropic estão sob pressão constante para entregar avanços rapidamente, priorizando a velocidade de lançamento em detrimento da sustentabilidade financeira.
O resultado? Desperdício massivo de recursos e modelos avançados sendo abandonados antes mesmo de chegarem ao mercado.
Considere estes fatos alarmantes:
- A OpenAI, mesmo com um financiamento de 40 bilhões de dólares, teve que descartar o GPT-4.5
- Todos os grandes laboratórios mantêm seus modelos mais inteligentes em segredo por serem caros demais
- A indústria prioriza o “progresso de produto” sobre a rentabilidade real
A Destilação: A Estratégia de Sobrevivência da IA
Para contornar esse problema, a indústria desenvolveu uma técnica chamada “destilação” – o método professor-aluno que permite transferir conhecimento de modelos grandes para modelos menores.
Pense assim: em vez de dar a uma criança uma pilha enorme de livros e dizer para ela estudar tudo sozinha, nós treinamos alguns de nós como professores para ensinar o material, aliviando-a de ter que descobrir tudo por conta própria.
“Seria ótimo se todos nós nascêssemos com as capacidades inatas de Srinivasa Ramanujan e aprendêssemos tudo sozinhos, mas esse não é o caso para a maioria de nós.”
A destilação funciona de forma similar na IA. Modelos como:
- o4-mini (destilação do o4 não lançado)
- Gemini 2.5 Flash (destilação do Gemini 2.5 Pro)
- Claude 4 Sonnet (destilação do Claude 4 Opus)
- Mistral Medium 3 e Small 3 (destilações do Mistral Large 3)
Todos esses modelos que você usa diariamente são, na verdade, “estudantes” de modelos maiores e mais caros que nunca chegaram ao mercado.
Como os Modelos Aprendem: O Jogo da Adivinhação
Para entender a revolução da Sakana AI, precisamos primeiro compreender como os modelos tradicionais aprendem.
Todos os modelos de IA generativa aprendem por imitação. O processo é surpreendentemente simples:
- Apresentamos uma frase: “Um sapo é um animal”
- Escondemos a última palavra: “Um sapo é um…”
- Perguntamos: “O que vem a seguir?”
- O modelo atribui probabilidades a todas as palavras que conhece
- Medimos o erro: Se atribui apenas 20% de probabilidade à palavra “animal”, tem 80% de erro
Repetindo esse exercício trilhões de vezes, obtemos um “LLM base” – essencialmente um excelente preditor de palavras.
O Método Tradicional de Destilação: Limitações Ocultas
Na destilação tradicional, o “aluno” aprende de duas formas:
- Imitando os dados de treinamento (como qualquer outro modelo)
- Imitando as respostas do professor (minimizando a diferença entre suas distribuições de probabilidade)
O objetivo é fazer com que a distribuição de respostas do aluno se aproxime da do professor, garantindo que responda de forma similar em conteúdo e estilo.
“Essencialmente, estamos dizendo ao aluno para se comportar como o professor, ou mais claramente, ‘responder de forma similar a como o professor teria respondido.'”
Mas aqui está o problema fundamental: o aluno nunca pode ser mais inteligente que o professor.
A Descoberta Revolucionária da Sakana AI
A Sakana AI identificou uma falha crítica no método tradicional: tanto o professor quanto o aluno são treinados de forma similar, limitando artificialmente o potencial do sistema.
A pergunta que mudou tudo foi: Por que não treinar professores especificamente para serem bons professores?
O Insight Genial
Em vez de treinar professores para resolver problemas complexos, a Sakana AI propôs algo radical:
“Em vez de treinar um professor pela sua capacidade de resolver problemas, vamos treiná-lo pela capacidade de seus alunos se tornarem inteligentes.”
A diferença é sutil, mas revolucionária:
- Método tradicional: Dar ao professor apenas a pergunta e forçá-lo a encontrar a resposta
- Método Sakana: Dar ao professor tanto a pergunta quanto a resposta, e treiná-lo para explicar por que a resposta está correta
Como Funciona o Novo Sistema de Avaliação
A Sakana AI criou um sistema de recompensas duplas para avaliar a qualidade de um professor:
1. Recompensa rSS (Utilidade da Explicação)
Mede se o aluno consegue gerar a solução correta quando recebe a pergunta e a explicação do professor.
2. Recompensa rKL (Consistência do Pensamento)
Avalia se o aluno desenvolve um processo de pensamento similar ao do professor.
“Em vez de recompensar professores por encontrar soluções, recompensamos apenas quando geram explicações que melhoram efetivamente o desempenho dos alunos.”
Resultados Que Desafiam a Lógica
Os resultados da pesquisa são impressionantes e contraintuitivos:
- RLTs superam modelos muito maiores em tarefas complexas como AIME, MATH e GPQA
- Modelos menores podem treinar modelos maiores: Um professor de 7 bilhões de parâmetros treina com sucesso um aluno de 32 bilhões
- Custos drasticamente reduzidos com performance superior
Por Que Isso Funciona?
A explicação é elegante: um bom professor não precisa ser mais inteligente que o aluno, apenas otimizado para ensinar.
Pense em professores humanos – eles não precisam ser gênios para explicar conceitos complexos de forma eficaz. Da mesma forma, um modelo de IA otimizado para explicar pode ser menor e mais eficiente que um modelo treinado para resolver problemas.
As Implicações Técnicas Profundas
Do ponto de vista técnico, essa abordagem faz sentido por várias razões:
Simplicidade da Tarefa
O professor tem uma tarefa mais simples (explicar uma solução conhecida) comparado ao aluno (descobrir a solução).
Recompensas Densas vs. Esparsas
- Professores tradicionais: Recompensados apenas quando encontram a solução (feedback esparso)
- Professores RLT: Recompensados continuamente com base no progresso do aluno (feedback denso)
Orientação Constante
O professor RLT recebe feedback imediato sobre a qualidade de suas explicações, permitindo ajustes contínuos.
O Futuro da IA: Mais Inteligente e Mais Barata
Esta descoberta representa mais que uma melhoria técnica – é uma mudança de paradigma que pode resolver a crise de custos da IA.
Benefícios Imediatos:
- Redução drástica de custos de treinamento e operação
- Modelos mais eficientes com performance superior
- Democratização do acesso a IAs avançadas
Implicações de Longo Prazo:
- Sustentabilidade financeira para laboratórios de IA
- Aceleração da inovação com custos menores
- Novos modelos de negócio baseados em eficiência
A Lição do Senso Comum
Como observa o autor original, as pesquisas mais bem-sucedidas em IA frequentemente aplicam senso comum:
“A maioria das pesquisas bem-sucedidas em IA é apenas senso comum aplicado.”
A “descoberta” da Sakana AI foi simplesmente treinar professores para serem bons professores – algo tão óbvio que foi negligenciado por toda a indústria.
Conclusão: Uma Nova Era Começa
A abordagem da Sakana AI não é apenas uma melhoria incremental – é uma reformulação fundamental de como pensamos sobre o treinamento de IA.
Ao focar em criar professores otimizados para ensinar, em vez de apenas resolver problemas, eles desbloquearam uma forma de criar modelos mais inteligentes com custos significativamente menores.
Esta pesquisa prova que, às vezes, as maiores revoluções vêm não de tecnologias complexas, mas de repensar premissas básicas com clareza e senso comum.
A pergunta que fica é: se uma mudança tão simples pode gerar resultados tão impressionantes, que outras “verdades” da IA estão esperando para serem questionadas?
Fonte: Ignacio de Gregorio. “What All Top AI Labs Are Wrong About. How RLTs Are, For Once, Original Research”. Disponível em: https://medium.com/@ignacio.de.gregorio.noblejas
Artigo original da pesquisa: Sakana AI Lab. “Reinforcement Learning Teachers”. Disponível em: https://www.arxiv.org/pdf/2506.08388