Gemma 4 QAT reduz barreiras à IA local

Gemma 4 QAT marca um novo passo da Google na execução local de modelos de inteligência artificial em hardware de consumo. A empresa publicou os novos checkpoints a 5 de Junho de 2026 e afirma que o modelo E2B pode ocupar menos de 1 GB de RAM em modo texto.

Gemma 4 qat para execução local em telemóveis, portáteis e gpus — **Imagem conceitual gereda por IA**

No anúncio oficial da Google sobre o Gemma 4 QAT, a empresa apresenta uma linha de checkpoints optimizados para reduzir requisitos de memória e melhorar o desempenho em dispositivo. O lançamento cobre cinco variantes da família Gemma 4 e inclui formatos adaptados a ecossistemas como GGUF, vLLM e LiteRT-LM.

O contexto técnico

O lançamento do Gemma 4 QAT ganha sentido quando se olha para o Gemma 4 12B, publicado poucos dias antes como um modelo multimodal unificado e sem codificadores separados. A Google posicionou esse modelo como uma base para execução local em máquinas com memória limitada, incluindo portáteis com 16 GB de VRAM ou memória unificada.

O guia técnico para programadores reforça essa leitura ao descrever uma arquitectura que processa texto, imagem, áudio e vídeo com um backbone comum. A decisão reduz complexidade estrutural e favorece cenários de execução local, especialmente quando o objectivo é conter consumo de memória e simplificar a integração.

O que distingue o QAT

O Quantization-Aware Training difere da quantização pós-treino porque integra os efeitos da compressão no próprio processo de treino, em vez de comprimir o modelo apenas no fim. A Google afirma que este método ajuda a preservar qualidade próxima de bfloat16 ao mesmo tempo que reduz de forma acentuada os requisitos de memória.

Na prática, os checkpoints Gemma 4 QAT procuram funcionar como versões oficialmente comprimidas para execução local. Isso reduz a dependência de quantizações comunitárias feitas depois do treino, embora o resultado final continue a depender do hardware, do runtime e da tarefa em execução.

Os modelos e a memória necessária

A Google disponibilizou cinco variantes da família Gemma 4 com perfis diferentes de compressão e memória. Os modelos mais pequenos usam formatos móveis a 2 bits, enquanto os maiores recorrem a Q4_0 para equilibrar tamanho e utilidade prática.

Modelo	Formato	Memória indicada pela Google	Hardware-alvo
Gemma 4 E2B	móvel 2 bits	menos de 1 GB em modo texto	telemóveis e dispositivos de fronteira
Gemma 4 E4B	móvel 2 bits	cerca de 3 GB	portáteis de entrada
Gemma 4 12B	Q4_0	cerca de 7 GB	portáteis com memória unificada ou GPU dedicada
Gemma 4 26B A4B	Q4_0	cerca de 15 GB	portáteis e estações de trabalho
Gemma 4 31B	Q4_0	cerca de 18 GB	desktops com GPU de 24 GB

A Google apresenta estes valores como estimativas. O consumo real pode variar consoante o sistema operativo, as modalidades activadas e a pilha de execução escolhida.

A arquitectura móvel e os formatos suportados

A estratégia móvel da Google para os modelos E2B e E4B assenta numa quantização pensada para aceleradores locais. A empresa descreve activações estáticas pré-calculadas, quantização por canal, compressão selectiva a 2 bits e optimização da cache KV e dos embeddings como elementos centrais dessa abordagem.

Os checkpoints estão disponíveis em GGUF para ecossistemas como llama.cpp, LM Studio e Ollama, em tensores comprimidos para vLLM, e num formato móvel orientado para LiteRT-LM. Esta diversidade de formatos é relevante porque reduz o trabalho de conversão e aproxima o lançamento das ferramentas já usadas na IA local.

O papel do Gemma 4 12B

O Gemma 4 12B ajuda a explicar por que motivo a Google avançou para versões QAT oficiais logo a seguir. No anúncio do modelo, a empresa descreve-o como o primeiro modelo multimodal de tamanho médio sem codificadores, com desempenho próximo do Gemma 4 26B A4B em vários testes, mas com menos de metade da pegada de memória.

No guia técnico, a Google acrescenta que o modelo suporta entrada nativa de áudio e vídeo e foi pensado para correr localmente em máquinas com 16 GB de VRAM ou memória unificada. Esse enquadramento reforça a ideia de que os checkpoints QAT não surgem isolados, mas como continuação de uma estratégia de expansão da execução local para hardware de consumo.

Implicações para programadores

Para programadores e integradores, o efeito mais imediato é a existência de uma linha oficial de modelos comprimidos, em vez da dependência exclusiva de quantizações comunitárias. Isso tende a melhorar previsibilidade, compatibilidade e documentação, sobretudo em projectos que precisam de suporte directo nos formatos já reconhecidos por ecossistemas como Hugging Face, Ollama ou LM Studio.

No anúncio oficial, Olivier Lacombe, Director of Product Management na Google DeepMind, enquadra estes checkpoints como uma forma de reduzir de forma acentuada os requisitos de memória e melhorar o desempenho em dispositivo. A formulação aponta para um objectivo claro de produto, mas não substitui validação independente em cargas de trabalho reais.

Limitações e prudência editorial

Há dois pontos que exigem cautela. O primeiro é que a alegação de qualidade semelhante a bfloat16 vem da própria Google e não de uma avaliação independente publicada por terceiros com validação ampla.

O segundo é que os valores de memória indicados são aproximados e não equivalem a uma garantia operacional universal. Em tarefas complexas, sobretudo com contexto longo, multimodalidade activa ou runtimes diferentes, o comportamento pode afastar-se do cenário descrito na documentação oficial.

Conclusão

Os modelos Gemma 4 QAT foram publicados no blog oficial da Google a 5 de Junho de 2026 e reforçam uma tendência clara no mercado de IA generativa. O foco já não está apenas na escala do modelo, mas na capacidade de o executar localmente com limites realistas de memória e energia.

Se a promessa da Google se confirmar em testes independentes, estes checkpoints podem tornar-se referência para execução local comprimida em hardware de consumo. Até lá, o lançamento deve ser lido como um avanço técnico relevante, mas ainda sujeito à verificação que separa alegação de desempenho de prova consolidada.

FAQ – Perguntas frequentes

O que é o Gemma 4 QAT?

É a versão dos modelos Gemma 4 optimizada com Quantization-Aware Training, uma técnica que introduz os efeitos da quantização durante o treino para reduzir memória com menor perda de qualidade. A Google publicou estes checkpoints no blog oficial a 5 de Junho de 2026.

O Gemma 4 QAT corre num telemóvel?

Segundo a Google, sim, pelo menos no caso do Gemma 4 E2B em modo texto, com um requisito inferior a 1 GB de RAM. Isso depende do formato móvel específico e do uso de runtimes compatíveis, como o LiteRT-LM.

Porque é que o Gemma 4 12B é relevante para este tema?

Porque o Gemma 4 12B introduziu uma arquitectura multimodal unificada e foi posicionado pela Google para execução local em hardware com 16 GB de memória. Os checkpoints QAT aparecem como extensão lógica dessa estratégia de execução fora da nuvem.

Pontos principais

Os modelos Gemma 4 QAT foram publicados no blog oficial da Google a 5 de Junho de 2026.
A Google afirma que o Gemma 4 E2B pode correr em menos de 1 GB de RAM em modo texto.
O Gemma 4 12B introduziu uma arquitectura multimodal sem codificadores separados.
Os novos checkpoints suportam formatos como GGUF, tensores comprimidos e LiteRT-LM.
As alegações de qualidade e eficiência ainda precisam de validação independente em testes externos.

Outros artigos interessantes:

Tags: Gemma 4 12B Gemma 4 QAT google

Gemma 4 QAT reduz barreiras à IA local

Alfredo Beleza

Artigos relacionados

Google Gemini prepara um novo design neural para o teu smartphone

Samsung Galaxy Z Fold 8 e Flip 8 estreiam o Gemini Nano 4

Google avisa que abertura do Android à concorrência ameaça a tua privacidade

Últimas notícias

Google Pixel Watch 5: Mais memória e o mesmo processador

Oppo Find X10: novo leak revela câmaras inspiradas no iPhone 17

Samsung Galaxy Z Fold 8 e Flip 8 estreiam o Gemini Nano 4

Gemini Intelligence chega em força aos novos Galaxy Z Fold 8

Galaxy Z Fold8: novo formato muda a lógica dos dobráveis

Os novos smartphones Samsung Galaxy Z Fold8 são oficiais

Ciberataques com IA já executam operações com milhares de comandos

Samsung Galaxy Watch 9 e Ultra 2 são oficiais

Google avisa que abertura do Android à concorrência ameaça a tua privacidade

Meta testa StoryKit: a aplicação de inteligência artificial para gerar contos infantis

Google lança três novos modelos Gemini mais rápidos e incrivelmente baratos

Novo iOS 27 beta confirma iPhone dobrável com duas baterias

Por que a publicidade de bets está ficando mais rígida? O que o Brasil pode aprender com outros mercados

Nintendo recusa devolver dinheiro aos clientes após receber reembolso de tarifas

TSMC prepara aumento de preços que vai encarecer o teu próximo smartphone

Samsung Galaxy Watch9 e Watch Ultra 2: especificações e preços revelados

Novos dispositivos Samsung Galaxy a caminho do mercado em setembro

Vê aqui o Samsung Galaxy Unpacked 2026: o que esperar do grande evento de hoje

Microsoft e Mistral: IA de fronteira chega a setores regulados

Registo da marca comunitária da OpenAI rejeitado na UE