treinamento em tempo de teste (TTT) do MIT em LLMs Imagem gerada por Inteligência Artificial

Técnica do MIT torna LLMs mais adaptáveis a tarefas complexas

3 minutos de leitura

Mais do que selecionar um conjunto de parâmetros do treinamento, nova abordagem permite ajustar modelos de IA durante a inferência, para resolver tarefas estruturadas e abstratas.



Por Redação em 18/08/2025

Fragmentar tarefas complexas e inserir exemplos de referência nos prompts são práticas comuns entre usuários mais experientes de GenAI. Um estudo conduzido por pesquisadores do MIT revelou que uma técnica chamada treinamento em tempo de teste (TTT) pode melhorar de forma significativa o desempenho de modelos de linguagem (LLMs) em problemas desafiadores — especialmente aqueles que exigem raciocínio estruturado e aprendizado com poucos exemplos. O artigo com os resultados será apresentado em setembro, na Conferência Internacional sobre Aprendizado de Máquina.

Na abordagem tradicional, ao inserir um exemplo de referência, o prompt direciona a resposta para um conjunto de parâmetros (as correlações possíveis) mais restrito, o que resulta em conteúdo mais contextualizado. Com o TTT, novos parâmetros podem ser gerados.

Diferentemente do aprendizado no contexto (in-context learning), em que o modelo apenas recebe exemplos da tarefa como referência, o TTT atualiza temporariamente parâmetros internos do modelo durante a própria inferência. Esse ajuste rápido, feito com base em um pequeno conjunto de dados gerado a partir dos exemplos apresentados, permite que a IA se adapte melhor a tarefas para as quais não foi treinada originalmente.

Ganhos de desempenho

“O aprendizado genuíno – o que fizemos aqui com o treinamento em tempo de teste – é algo que esses modelos não podem fazer por conta própria depois de serem configurados”, afirma Ekin Akyürek, PhD e principal autor do estudo. “Mas mostramos que, se você forçar um pouco o modelo a realmente aprender, grandes melhorias no desempenho podem acontecer.”

Entre os resultados, o TTT aumentou em até seis vezes a precisão de um modelo de 8 bilhões de parâmetros no Abstraction and Reasoning Corpus (ARC) — um conjunto de quebra-cabeças visuais com regras abstratas — chegando a 53%. Combinado a técnicas de síntese de programas, a taxa subiu para 61,9%, próxima ao desempenho humano médio. No BIG-Bench Hard (BBH), que reúne 27 tarefas de linguagem natural voltadas ao raciocínio, a técnica superou o método padrão de few-shot prompting em 7,3 pontos percentuais, passando de 50,5% para 57,8%.

Segundo os autores, os ganhos são particularmente expressivos em desafios que envolvem regras formais ou mudanças inesperadas no padrão dos dados, como nas tarefas Dyck Languages e Ruin Names, com saltos de precisão entre 20 e 50 pontos percentuais. “Embora simplesmente fornecer exemplos possa aumentar modestamente a acurácia, atualizar o modelo com esses exemplos pode levar a um desempenho muito superior, principalmente em domínios desafiadores”, observa Mehul Damani, coautor do estudo.

A pesquisa detalha fatores críticos para o sucesso do TTT, como métodos de geração e aumento de dados (data augmentation), escolha da função de perda, número de passos de otimização e uso de adaptadores LoRA (Low-Rank Adaptation) específicos para cada tarefa.

O time planeja avançar para um modelo capaz de decidir, de forma autônoma, quando aplicar o treinamento em tempo de teste ou recorrer apenas ao aprendizado no contexto. “Não gostaríamos de fazer isso para todas as consultas do usuário, mas é útil se você tiver uma tarefa muito difícil que deseja que o modelo resolva bem”, afirma Akyürek.

O estudo é assinado também por Linlu Qiu, Han Guo, Jyothish Pari, Adam Zweiger, Yoon Kim e Jacob Andreas, todos vinculados ao MIT e ao CSAIL (Laboratório de Ciência da Computação e IA).

Formas de implementação

Foto: Adobe Stock

O artigo descreve o processo de implementação do TTT (Treinamento em Tempo de Teste) em detalhes. Ele discute as principais decisões de design e desafios na aplicação do TTT em LMs, incluindo:

  • Geração de dados: O documento explica como construir um conjunto de treinamento em tempo de teste ($\mathcal{D}_{TTT}$) usando a abordagem de “leave-one-out” ou “direct I/O”. Também menciona a possibilidade de usar técnicas de aumento de dados (como rotações, reflexos e permutações de cores) para ampliar o material em tarefas com entradas estruturadas, como no ARC.
  • Função de perda: São apresentadas três maneiras de calcular a perda no contexto de “leave-one-out”: apenas na saída de teste, em todas as saídas (incluindo as de demonstração) e em todas as entradas e saídas.
  • Otimização e parametrização: O TTT é implementado com a otimização de adaptadores LoRA (Low-Rank Adaptation) por um pequeno número de passos de gradiente. O artigo compara a abordagem de adaptadores específicos por tarefa com a de um único adaptador compartilhado por várias tarefas.
  • Inferência: Após o treinamento, o modelo atualizado é usado para fazer previsões com uma estratégia de inferência aumentada, que pode incluir um esquema de votação hierárquica para agregar as previsões.

O documento também fornece detalhes sobre os hiperparâmetros específicos usados para as experiências nos conjuntos de dados ARC e BBH.



Matérias relacionadas

Profissional usando tecnologia de IA na automação de processos, com painéis digitais e um laptop, destacando inovação e eficiência na gestão de tarefas. Inovação

IA na automação de processos precisa “fazer sentido”

Nível de maturidade da empresa e da equipe que vai utilizar a ferramenta são os dois principais parâmetros para a escolha

Mulher jovem usando smartphone na rua com ilustrações de IA e fumaça roxa, simbolizando a adoção de inteligência artificial no Brasil e suas desigualdades Inovação

IA é adotada por 32% e desigualdade preocupa pesquisadores

Diferenças entre dispositivos, tipos de conexão e letramento restringem benefícios da massificação do acesso à Internet, revela levantamento do Cetic.br

Líder em cenário de incerteza trabalhando com foco utilizando laptop em ambiente de escritório moderno com vista urbana ao fundo. Inovação

Pessoas estão no centro das incertezas e das possibilidades de adaptação

Em um cenário marcado por imprevisibilidade e resistências naturais, liderança e colaboração definem resultados diante de transformações rápidas, diz futurista

Homem com óculos de sol IA durante um pôr do sol Inovação

Como a Meta quer transformar óculos em plataforma de IA

O lançamento dos óculos inteligentes desponta como uma das formas de ampliar o alcance da tecnologia além do smartphone

    Embratel agora é Claro empresas Saiba mais