O estudo apresenta o Taming the Long Tail (TLT), uma abordagem que introduz um drafteur menor para prever rapidamente saídas do modelo maior, enquanto o modelo principal valida essas previsões. O objetivo é acelerar o processo de treinamento de LLMs sem perder precisão, especialmente em tarefas de raciocínio que envolvem múltiplos passos.
Nos treinamentos com aprendizado por reforço (RL), a geração de várias respostas para cada consulta — o rollout — é o gargalo dominante, chegando a consumir grande parte do tempo de execução. Com a solução proposta, a etapa de rollout é otimizada por meio de uma previsão adiantada das saídas, o que permite validar múltiplos resultados de uma só vez, reduzindo o tempo total de treinamento.
Ao contrário de abordagens tradicionais, em que o drafter é treinado apenas uma vez, o TLT mantém o drafter em atualização contínua e adaptativa. Durante ociosidade de processadores, esses núcleos passam a treinar o modelo auxiliar com os mesmos dados do rollout, mantendo a sincronia entre os dois modelos sem exigir recursos adicionais.
Além disso, o sistema ajusta dinamicamente a estratégia de speculative decoding conforme características de cada lote, como o número de previsões geradas pelo drafter e quantas são aceitas pelo modelo principal. O drafter, por ser leve, facilita treinamento rápido e reutilização de componentes do próprio processo de treinamento do modelo maior.
Em testes com diferentes LLMs de raciocínio treinados sobre bases reais, o método acelerou o treinamento entre 70% e 210% sem comprometer a acurácia. Um efeito adicional é a possibilidade de reutilizar o drafter para implantação mais eficiente das aplicações.
O estudo será apresentado na ACM International Conference on Architectural Support for Programming Languages and Operating Systems, reunindo autores do MIT, NVIDIA, ETH Zurich, MIT-IBM Watson AI Lab e University of Massachusetts Amherst. Pesquisadores como Qinghao Hu destacaram que eficiência é um fator central no desenvolvimento de IA cada vez mais complexa, com financiamento da NSF e parcerias industriais associadas ao MIT.