Tools

News

Notícias

Classificados

Cursos

Broker

IPv4:

IPv6:

 

UpOrDown
Ping
MTR
Smokeping
MTU Detect
Portscan
DNS
HTTP/SSL
My IP
IP Calc
IP Extractor
Uptime Monitor

MIT dobra velocidade de treino com TLT

Image © Convergenciadigital
O MIT, em parceria com NVIDIA, ETH Zurich e outras instituições, apresentou o Taming the Long Tail (TLT), uma técnica destinada a reduzir custos computacionais e consumo de energia no treinamento de modelos de linguagem de grande porte voltados ao raciocínio complexo.

O estudo apresenta o Taming the Long Tail (TLT), uma abordagem que introduz um drafteur menor para prever rapidamente saídas do modelo maior, enquanto o modelo principal valida essas previsões. O objetivo é acelerar o processo de treinamento de LLMs sem perder precisão, especialmente em tarefas de raciocínio que envolvem múltiplos passos.

Nos treinamentos com aprendizado por reforço (RL), a geração de várias respostas para cada consulta — o rollout — é o gargalo dominante, chegando a consumir grande parte do tempo de execução. Com a solução proposta, a etapa de rollout é otimizada por meio de uma previsão adiantada das saídas, o que permite validar múltiplos resultados de uma só vez, reduzindo o tempo total de treinamento.

Ao contrário de abordagens tradicionais, em que o drafter é treinado apenas uma vez, o TLT mantém o drafter em atualização contínua e adaptativa. Durante ociosidade de processadores, esses núcleos passam a treinar o modelo auxiliar com os mesmos dados do rollout, mantendo a sincronia entre os dois modelos sem exigir recursos adicionais.

Além disso, o sistema ajusta dinamicamente a estratégia de speculative decoding conforme características de cada lote, como o número de previsões geradas pelo drafter e quantas são aceitas pelo modelo principal. O drafter, por ser leve, facilita treinamento rápido e reutilização de componentes do próprio processo de treinamento do modelo maior.

Em testes com diferentes LLMs de raciocínio treinados sobre bases reais, o método acelerou o treinamento entre 70% e 210% sem comprometer a acurácia. Um efeito adicional é a possibilidade de reutilizar o drafter para implantação mais eficiente das aplicações.

O estudo será apresentado na ACM International Conference on Architectural Support for Programming Languages and Operating Systems, reunindo autores do MIT, NVIDIA, ETH Zurich, MIT-IBM Watson AI Lab e University of Massachusetts Amherst. Pesquisadores como Qinghao Hu destacaram que eficiência é um fator central no desenvolvimento de IA cada vez mais complexa, com financiamento da NSF e parcerias industriais associadas ao MIT.

 

Convergenciadigital

Related News

Texas Residents View Apartment Careers Optimistic, Study Finds
Texas Poised to Surpass Virginia as Data Center Hub
SCOTUS Strikes Trump's Tariffs
Key AI Lessons for Multifamily Leaders
All West Expands Multi-Gig Fiber in Rock Springs
NMSurf Unveils 1 Gbps Fixed Wireless Budaghers

ISP.Tools survives thanks to ads.

Consider disabling your ad blocker.
We promise not to be intrusive.

Cookie Consent

We use cookies to improve your experience on our site.

By using our site you consent to cookies. Learn more