A Gartner divulgou uma projeção de que o custo de inferência de um grande modelo de linguagem com 1 trilhão de parâmetros cairá mais de 90% até 2030, em relação a 2025, para provedores de IA gerativa.
Além disso, a consultoria estima que, em 2030, LLMs disponíveis serão até 100 vezes mais eficientes em custo do que os primeiros modelos com tamanho semelhante desenvolvidos em 2022.
Essa redução será impulsionada por ganhos em semicondutores, infraestrutura e arquitetura de modelos, incluindo avanços na eficiência de chips, maior uso de silício especializado para inferência, expansão de processadores e aplicação de dispositivos de borda em casos específicos.
Will Sommer, diretor analista sênior do Gartner, afirmou que esses avanços formarão a base da queda projetada nos custos, associando o movimento ao amadurecimento tecnológico da infraestrutura de IA generativa.
O estudo divide os resultados em dois cenários de semicondutores: o cenário de ponta, baseado em chips de alto desempenho, e o cenário de combinação legada, que usa uma mistura de semicondutores disponíveis, com custos modelados mais altos no segundo cenário.
A redução do custo por token, porém, não deve se traduzir automaticamente em menor gasto total; aplicações mais complexas podem exigir mais tokens, e modelos agentes podem exigir entre cinco e trinta vezes mais tokens por tarefa do que um chatbot genérico. Dessa forma, a demanda por processamento tende a crescer junto com a adoção de recursos mais avançados.
Para o Gartner, o valor estará nas plataformas capazes de orquestrar cargas de trabalho entre um portfólio de modelos, enquanto tarefas rotineiras devem ficar com modelos menores e específicos de domínio, mantendo a inferência mais cara para raciocínio complexo e de maior margem.