O Google DeepMind lançou Gemma 4, a nova geração de modelos de inteligência artificial de código aberto sob licença Apache 2.0, com suporte multimodal e execução offline em hardware comum. O objetivo é ampliar o acesso corporativo a IA de ponta, mantendo governança interna.
A família chega em quatro configurações: E2B, E4B, 26B MoE e 31B Dense. Os modelos menores rodam em dispositivos compactos, enquanto os maiores podem operar em uma única GPU NVIDIA H100 de 80 GB, com versões quantizadas que permitem implantação com GPUs de consumo.
Disponível no Google AI Studio, Hugging Face, Kaggle e Ollama, o Gemma 4 oferece suporte nativo a frameworks como vLLM, llama.cpp, MLX, NVIDIA NIM e Keras, reduzindo a fricção de integração para equipes já familiarizadas com essas ferramentas.
O modelo é multimodal e multilíngue, processando texto, imagem, áudio e vídeo em uma única arquitetura, suportando mais de 140 idiomas. As janelas de contexto chegam a 128 mil tokens nos modelos menores e 256 mil tokens nos maiores, ampliando possibilidades em automação de contratos, auditorias e políticas internas.
Do ponto de vista de segurança, a execução offline/on-device elimina a dependência de APIs na nuvem, reduzindo a superfície de exposição de dados. Contudo, a abertura de pesos traz riscos: o mesmo nível de personalização que facilita a adoção por empresas pode ser explorado por atores mal-intencionados, exigindo vigilância contínua de variantes na comunidade open source e governança robusta. O Gemma 4 também acende debates geopolíticos ao intensificar a concorrência com modelos abertos chineses.