treinamento em tempo de teste (TTT) do MIT em LLMs Imagem gerada por Inteligência Artificial

Técnica do MIT torna LLMs mais adaptáveis a tarefas complexas

3 minutos de leitura

Mais do que selecionar um conjunto de parâmetros do treinamento, nova abordagem permite ajustar modelos de IA durante a inferência, para resolver tarefas estruturadas e abstratas.



Por Redação em 18/08/2025

Fragmentar tarefas complexas e inserir exemplos de referência nos prompts são práticas comuns entre usuários mais experientes de GenAI. Um estudo conduzido por pesquisadores do MIT revelou que uma técnica chamada treinamento em tempo de teste (TTT) pode melhorar de forma significativa o desempenho de modelos de linguagem (LLMs) em problemas desafiadores — especialmente aqueles que exigem raciocínio estruturado e aprendizado com poucos exemplos. O artigo com os resultados será apresentado em setembro, na Conferência Internacional sobre Aprendizado de Máquina.

Na abordagem tradicional, ao inserir um exemplo de referência, o prompt direciona a resposta para um conjunto de parâmetros (as correlações possíveis) mais restrito, o que resulta em conteúdo mais contextualizado. Com o TTT, novos parâmetros podem ser gerados.

Diferentemente do aprendizado no contexto (in-context learning), em que o modelo apenas recebe exemplos da tarefa como referência, o TTT atualiza temporariamente parâmetros internos do modelo durante a própria inferência. Esse ajuste rápido, feito com base em um pequeno conjunto de dados gerado a partir dos exemplos apresentados, permite que a IA se adapte melhor a tarefas para as quais não foi treinada originalmente.

Ganhos de desempenho

“O aprendizado genuíno – o que fizemos aqui com o treinamento em tempo de teste – é algo que esses modelos não podem fazer por conta própria depois de serem configurados”, afirma Ekin Akyürek, PhD e principal autor do estudo. “Mas mostramos que, se você forçar um pouco o modelo a realmente aprender, grandes melhorias no desempenho podem acontecer.”

Entre os resultados, o TTT aumentou em até seis vezes a precisão de um modelo de 8 bilhões de parâmetros no Abstraction and Reasoning Corpus (ARC) — um conjunto de quebra-cabeças visuais com regras abstratas — chegando a 53%. Combinado a técnicas de síntese de programas, a taxa subiu para 61,9%, próxima ao desempenho humano médio. No BIG-Bench Hard (BBH), que reúne 27 tarefas de linguagem natural voltadas ao raciocínio, a técnica superou o método padrão de few-shot prompting em 7,3 pontos percentuais, passando de 50,5% para 57,8%.

Segundo os autores, os ganhos são particularmente expressivos em desafios que envolvem regras formais ou mudanças inesperadas no padrão dos dados, como nas tarefas Dyck Languages e Ruin Names, com saltos de precisão entre 20 e 50 pontos percentuais. “Embora simplesmente fornecer exemplos possa aumentar modestamente a acurácia, atualizar o modelo com esses exemplos pode levar a um desempenho muito superior, principalmente em domínios desafiadores”, observa Mehul Damani, coautor do estudo.

A pesquisa detalha fatores críticos para o sucesso do TTT, como métodos de geração e aumento de dados (data augmentation), escolha da função de perda, número de passos de otimização e uso de adaptadores LoRA (Low-Rank Adaptation) específicos para cada tarefa.

O time planeja avançar para um modelo capaz de decidir, de forma autônoma, quando aplicar o treinamento em tempo de teste ou recorrer apenas ao aprendizado no contexto. “Não gostaríamos de fazer isso para todas as consultas do usuário, mas é útil se você tiver uma tarefa muito difícil que deseja que o modelo resolva bem”, afirma Akyürek.

O estudo é assinado também por Linlu Qiu, Han Guo, Jyothish Pari, Adam Zweiger, Yoon Kim e Jacob Andreas, todos vinculados ao MIT e ao CSAIL (Laboratório de Ciência da Computação e IA).

Formas de implementação

Foto: Adobe Stock

O artigo descreve o processo de implementação do TTT (Treinamento em Tempo de Teste) em detalhes. Ele discute as principais decisões de design e desafios na aplicação do TTT em LMs, incluindo:

  • Geração de dados: O documento explica como construir um conjunto de treinamento em tempo de teste ($\mathcal{D}_{TTT}$) usando a abordagem de “leave-one-out” ou “direct I/O”. Também menciona a possibilidade de usar técnicas de aumento de dados (como rotações, reflexos e permutações de cores) para ampliar o material em tarefas com entradas estruturadas, como no ARC.
  • Função de perda: São apresentadas três maneiras de calcular a perda no contexto de “leave-one-out”: apenas na saída de teste, em todas as saídas (incluindo as de demonstração) e em todas as entradas e saídas.
  • Otimização e parametrização: O TTT é implementado com a otimização de adaptadores LoRA (Low-Rank Adaptation) por um pequeno número de passos de gradiente. O artigo compara a abordagem de adaptadores específicos por tarefa com a de um único adaptador compartilhado por várias tarefas.
  • Inferência: Após o treinamento, o modelo atualizado é usado para fazer previsões com uma estratégia de inferência aumentada, que pode incluir um esquema de votação hierárquica para agregar as previsões.

O documento também fornece detalhes sobre os hiperparâmetros específicos usados para as experiências nos conjuntos de dados ARC e BBH.



Matérias relacionadas

Um smartphone exibindo o logo do Google AI, com o texto Google Deep Mind ao fundo simbolizando inovação em inteligência artificial Inovação

IA do Google supera programadores em desafio com múltiplas variáveis

Competição entre Gemini Deep Think e universitários ilustra potencial da combinação de IA e programadores, em código otimizado para processos complexos

Aplicativo ChatGPT Atlas rodando na tela de um smartphone sobre um teclado de computador, representando inovação na navegação e inteligência artificial. Inovação

Atlas: o navegador da OpenAI que quer reinventar a experiência de navegar na web

Inovador, o browser promete mais praticidade e automação em todas as etapas, embora ainda levante alertas sobre privacidade e segurança de dados

Mulher e homem de negócios sorrindo e apertando as mãos em ambiente de escritório moderno, representando parceria com Google Cloud. Inovação

Google Cloud estabelece parcerias para expandir no Brasil

Parcerias com empresas globais e instituições brasileiras reforçam a estratégia do Google Cloud de expandir sua presença no país, impulsionando o uso de IA generativa e soluções em nuvem mais eficientes

Felipe Schepers, diretor da Opinion Box no palco do MobiMeeting Finance + ID 2025 Inovação

Biometria é forma preferencial de autenticação, mas senhas continuam em uso

Reconhecimento facial tem maior percepção de segurança e conveniência, mas falhas em experiência do usuário retardam abolição das senhas

    Embratel agora é Claro empresas Saiba mais