Tools

News

Notícias

Classificados

Cursos

Broker

IPv4:

IPv6:

 

UpOrDown
Ping
MTR
Smokeping
MTU Detect
Portscan
DNS
HTTP/SSL
My IP
IP Calc
IP Extractor
Uptime Monitor

Gartner projeta queda de 90% no custo de inferência IA

Image © Telesintese
A Gartner anuncia que o custo de inferência em grandes modelos de linguagem pode recuar drasticamente até 2030, com ganhos esperados em semicondutores, infraestrutura e desenho de modelos.

A Gartner divulgou uma projeção de que o custo de inferência de um grande modelo de linguagem com 1 trilhão de parâmetros cairá mais de 90% até 2030, em relação a 2025, para provedores de IA gerativa.

Além disso, a consultoria estima que, em 2030, LLMs disponíveis serão até 100 vezes mais eficientes em custo do que os primeiros modelos com tamanho semelhante desenvolvidos em 2022.

Essa redução será impulsionada por ganhos em semicondutores, infraestrutura e arquitetura de modelos, incluindo avanços na eficiência de chips, maior uso de silício especializado para inferência, expansão de processadores e aplicação de dispositivos de borda em casos específicos.

Will Sommer, diretor analista sênior do Gartner, afirmou que esses avanços formarão a base da queda projetada nos custos, associando o movimento ao amadurecimento tecnológico da infraestrutura de IA generativa.

O estudo divide os resultados em dois cenários de semicondutores: o cenário de ponta, baseado em chips de alto desempenho, e o cenário de combinação legada, que usa uma mistura de semicondutores disponíveis, com custos modelados mais altos no segundo cenário.

A redução do custo por token, porém, não deve se traduzir automaticamente em menor gasto total; aplicações mais complexas podem exigir mais tokens, e modelos agentes podem exigir entre cinco e trinta vezes mais tokens por tarefa do que um chatbot genérico. Dessa forma, a demanda por processamento tende a crescer junto com a adoção de recursos mais avançados.

Para o Gartner, o valor estará nas plataformas capazes de orquestrar cargas de trabalho entre um portfólio de modelos, enquanto tarefas rotineiras devem ficar com modelos menores e específicos de domínio, mantendo a inferência mais cara para raciocínio complexo e de maior margem.

 

Telesintese

Related News

Google Sets Q Day 2029
Truvista Expands Cup Connectivity
John Lee Named Charter Intelligence Ventures Head
TeamPCP Unleashes Self-Spreading Malware and Iran Wiper
FCC Marks 30th Act Anniversary
Federated Sovereignty Redefines Digital Trust

ISP.Tools survives thanks to ads.

Consider disabling your ad blocker.
We promise not to be intrusive.

Cookie Consent

We use cookies to improve your experience on our site.

By using our site you consent to cookies. Learn more