Tools

News

Notícias

Classificados

Cursos

Broker

IPv4:

IPv6:

 

UpOrDown
Ping
MTR
Smokeping
MTU Detect
Portscan
DNS
HTTP/SSL
My IP
IP Calc
IP Extractor
Uptime Monitor

Gartner projeta queda de 90% no custo de inferência IA

Image © Telesintese
A Gartner anuncia que o custo de inferência em grandes modelos de linguagem pode recuar drasticamente até 2030, com ganhos esperados em semicondutores, infraestrutura e desenho de modelos.

A Gartner divulgou uma projeção de que o custo de inferência de um grande modelo de linguagem com 1 trilhão de parâmetros cairá mais de 90% até 2030, em relação a 2025, para provedores de IA gerativa.

Além disso, a consultoria estima que, em 2030, LLMs disponíveis serão até 100 vezes mais eficientes em custo do que os primeiros modelos com tamanho semelhante desenvolvidos em 2022.

Essa redução será impulsionada por ganhos em semicondutores, infraestrutura e arquitetura de modelos, incluindo avanços na eficiência de chips, maior uso de silício especializado para inferência, expansão de processadores e aplicação de dispositivos de borda em casos específicos.

Will Sommer, diretor analista sênior do Gartner, afirmou que esses avanços formarão a base da queda projetada nos custos, associando o movimento ao amadurecimento tecnológico da infraestrutura de IA generativa.

O estudo divide os resultados em dois cenários de semicondutores: o cenário de ponta, baseado em chips de alto desempenho, e o cenário de combinação legada, que usa uma mistura de semicondutores disponíveis, com custos modelados mais altos no segundo cenário.

A redução do custo por token, porém, não deve se traduzir automaticamente em menor gasto total; aplicações mais complexas podem exigir mais tokens, e modelos agentes podem exigir entre cinco e trinta vezes mais tokens por tarefa do que um chatbot genérico. Dessa forma, a demanda por processamento tende a crescer junto com a adoção de recursos mais avançados.

Para o Gartner, o valor estará nas plataformas capazes de orquestrar cargas de trabalho entre um portfólio de modelos, enquanto tarefas rotineiras devem ficar com modelos menores e específicos de domínio, mantendo a inferência mais cara para raciocínio complexo e de maior margem.

 

Telesintese

Notícias relacionadas

Nova arquitetura de interconexão de voz no Brasil
TSData inaugura maior data center no Vale
Brasil avança na Citel e assina acordo com Colômbia
Redata: Senado derruba saída tributária
IA impulsiona escassez de componentes no Brasil
Scale IA abre inscrições para 30 startups

O ISP.Tools sobrevive graças aos anúncios.

Considere desativar seu bloqueador de anúncios.
Prometemos não ser intrusivos.

Consentimento para cookies

Utilizamos cookies para melhorar a sua experiência no nosso site.

Ao utilizar o nosso site, você concorda com o uso de cookies. Saiba mais