Tools

News

Notícias

Classificados

Cursos

Broker

IPv4:

IPv6:

 

UpOrDown
Ping
MTR
Smokeping
MTU Detect
Portscan
DNS
HTTP/SSL
My IP
IP Calc
IP Extractor
Uptime Monitor

MIT dobra velocidade de treino com TLT

Image © Convergenciadigital
O MIT, em parceria com NVIDIA, ETH Zurich e outras instituições, apresentou o Taming the Long Tail (TLT), uma técnica destinada a reduzir custos computacionais e consumo de energia no treinamento de modelos de linguagem de grande porte voltados ao raciocínio complexo.

O estudo apresenta o Taming the Long Tail (TLT), uma abordagem que introduz um drafteur menor para prever rapidamente saídas do modelo maior, enquanto o modelo principal valida essas previsões. O objetivo é acelerar o processo de treinamento de LLMs sem perder precisão, especialmente em tarefas de raciocínio que envolvem múltiplos passos.

Nos treinamentos com aprendizado por reforço (RL), a geração de várias respostas para cada consulta — o rollout — é o gargalo dominante, chegando a consumir grande parte do tempo de execução. Com a solução proposta, a etapa de rollout é otimizada por meio de uma previsão adiantada das saídas, o que permite validar múltiplos resultados de uma só vez, reduzindo o tempo total de treinamento.

Ao contrário de abordagens tradicionais, em que o drafter é treinado apenas uma vez, o TLT mantém o drafter em atualização contínua e adaptativa. Durante ociosidade de processadores, esses núcleos passam a treinar o modelo auxiliar com os mesmos dados do rollout, mantendo a sincronia entre os dois modelos sem exigir recursos adicionais.

Além disso, o sistema ajusta dinamicamente a estratégia de speculative decoding conforme características de cada lote, como o número de previsões geradas pelo drafter e quantas são aceitas pelo modelo principal. O drafter, por ser leve, facilita treinamento rápido e reutilização de componentes do próprio processo de treinamento do modelo maior.

Em testes com diferentes LLMs de raciocínio treinados sobre bases reais, o método acelerou o treinamento entre 70% e 210% sem comprometer a acurácia. Um efeito adicional é a possibilidade de reutilizar o drafter para implantação mais eficiente das aplicações.

O estudo será apresentado na ACM International Conference on Architectural Support for Programming Languages and Operating Systems, reunindo autores do MIT, NVIDIA, ETH Zurich, MIT-IBM Watson AI Lab e University of Massachusetts Amherst. Pesquisadores como Qinghao Hu destacaram que eficiência é um fator central no desenvolvimento de IA cada vez mais complexa, com financiamento da NSF e parcerias industriais associadas ao MIT.

 

Convergenciadigital

Notícias relacionadas

ANPD vira agência; concurso para 200 cargos definido
Brasil lidera QoE de streaming na LatAm
Brasil brilha no programa de IA da Qualcomm
ANPD vira agência; ECA Digital entra vigência
IA Phishing: Brasil registra 617% crescimento
Trump ordena geração própria de energia para big tech

O ISP.Tools sobrevive graças aos anúncios.

Considere desativar seu bloqueador de anúncios.
Prometemos não ser intrusivos.

Consentimento para cookies

Utilizamos cookies para melhorar a sua experiência no nosso site.

Ao utilizar o nosso site, você concorda com o uso de cookies. Saiba mais