TecheNet
  • Mobile
  • Tech
    • AUTOMÓVEIS
    • MOBILIDADE ELÉTRICA
    • IMAGEM & SOM
    • ENTREVISTAS
  • Gaming
  • IA
  • Opinião
  • Segurança
  • Negócios
    • EMPRESAS
    • CRIPTOMOEDAS
    • MARKETING
  • Mais
    • ARTE E CULTURA
    • DICAS
    • LIFESTYLE
    • DIREITOS COM CAUSA
    • INTERNET
    • GUIAS
    • PROMOÇÕES
    • REVIEWS
    • SUSTENTABILIDADE
    • TUTORIAIS
Sem resultados
Ver todos os resultados
TecheNet
Sem resultados
Ver todos os resultados

Gemma 4 QAT reduz barreiras à IA local

Alfredo Beleza por Alfredo Beleza
07/06/2026
Em Inteligência Artificial

Gemma 4 QAT marca um novo passo da Google na execução local de modelos de inteligência artificial em hardware de consumo. A empresa publicou os novos checkpoints a 5 de Junho de 2026 e afirma que o modelo E2B pode ocupar menos de 1 GB de RAM em modo texto.

Gemma 4 qat para execução local em telemóveis, portáteis e gpus
Imagem conceitual gereda por IA

No anúncio oficial da Google sobre o Gemma 4 QAT, a empresa apresenta uma linha de checkpoints optimizados para reduzir requisitos de memória e melhorar o desempenho em dispositivo. O lançamento cobre cinco variantes da família Gemma 4 e inclui formatos adaptados a ecossistemas como GGUF, vLLM e LiteRT-LM.

O contexto técnico

O lançamento do Gemma 4 QAT ganha sentido quando se olha para o Gemma 4 12B, publicado poucos dias antes como um modelo multimodal unificado e sem codificadores separados. A Google posicionou esse modelo como uma base para execução local em máquinas com memória limitada, incluindo portáteis com 16 GB de VRAM ou memória unificada.

O guia técnico para programadores reforça essa leitura ao descrever uma arquitectura que processa texto, imagem, áudio e vídeo com um backbone comum. A decisão reduz complexidade estrutural e favorece cenários de execução local, especialmente quando o objectivo é conter consumo de memória e simplificar a integração.

O que distingue o QAT

O Quantization-Aware Training difere da quantização pós-treino porque integra os efeitos da compressão no próprio processo de treino, em vez de comprimir o modelo apenas no fim. A Google afirma que este método ajuda a preservar qualidade próxima de bfloat16 ao mesmo tempo que reduz de forma acentuada os requisitos de memória.

Na prática, os checkpoints Gemma 4 QAT procuram funcionar como versões oficialmente comprimidas para execução local. Isso reduz a dependência de quantizações comunitárias feitas depois do treino, embora o resultado final continue a depender do hardware, do runtime e da tarefa em execução.

Os modelos e a memória necessária

A Google disponibilizou cinco variantes da família Gemma 4 com perfis diferentes de compressão e memória. Os modelos mais pequenos usam formatos móveis a 2 bits, enquanto os maiores recorrem a Q4_0 para equilibrar tamanho e utilidade prática.

ModeloFormatoMemória indicada pela GoogleHardware-alvo
Gemma 4 E2Bmóvel 2 bitsmenos de 1 GB em modo textotelemóveis e dispositivos de fronteira
Gemma 4 E4Bmóvel 2 bitscerca de 3 GBportáteis de entrada
Gemma 4 12BQ4_0cerca de 7 GBportáteis com memória unificada ou GPU dedicada
Gemma 4 26B A4BQ4_0cerca de 15 GBportáteis e estações de trabalho
Gemma 4 31BQ4_0cerca de 18 GBdesktops com GPU de 24 GB

A Google apresenta estes valores como estimativas. O consumo real pode variar consoante o sistema operativo, as modalidades activadas e a pilha de execução escolhida.

A arquitectura móvel e os formatos suportados

A estratégia móvel da Google para os modelos E2B e E4B assenta numa quantização pensada para aceleradores locais. A empresa descreve activações estáticas pré-calculadas, quantização por canal, compressão selectiva a 2 bits e optimização da cache KV e dos embeddings como elementos centrais dessa abordagem.

Os checkpoints estão disponíveis em GGUF para ecossistemas como llama.cpp, LM Studio e Ollama, em tensores comprimidos para vLLM, e num formato móvel orientado para LiteRT-LM. Esta diversidade de formatos é relevante porque reduz o trabalho de conversão e aproxima o lançamento das ferramentas já usadas na IA local.

O papel do Gemma 4 12B

O Gemma 4 12B ajuda a explicar por que motivo a Google avançou para versões QAT oficiais logo a seguir. No anúncio do modelo, a empresa descreve-o como o primeiro modelo multimodal de tamanho médio sem codificadores, com desempenho próximo do Gemma 4 26B A4B em vários testes, mas com menos de metade da pegada de memória.

No guia técnico, a Google acrescenta que o modelo suporta entrada nativa de áudio e vídeo e foi pensado para correr localmente em máquinas com 16 GB de VRAM ou memória unificada. Esse enquadramento reforça a ideia de que os checkpoints QAT não surgem isolados, mas como continuação de uma estratégia de expansão da execução local para hardware de consumo.

Implicações para programadores

Para programadores e integradores, o efeito mais imediato é a existência de uma linha oficial de modelos comprimidos, em vez da dependência exclusiva de quantizações comunitárias. Isso tende a melhorar previsibilidade, compatibilidade e documentação, sobretudo em projectos que precisam de suporte directo nos formatos já reconhecidos por ecossistemas como Hugging Face, Ollama ou LM Studio.

No anúncio oficial, Olivier Lacombe, Director of Product Management na Google DeepMind, enquadra estes checkpoints como uma forma de reduzir de forma acentuada os requisitos de memória e melhorar o desempenho em dispositivo. A formulação aponta para um objectivo claro de produto, mas não substitui validação independente em cargas de trabalho reais.

Limitações e prudência editorial

Há dois pontos que exigem cautela. O primeiro é que a alegação de qualidade semelhante a bfloat16 vem da própria Google e não de uma avaliação independente publicada por terceiros com validação ampla.

O segundo é que os valores de memória indicados são aproximados e não equivalem a uma garantia operacional universal. Em tarefas complexas, sobretudo com contexto longo, multimodalidade activa ou runtimes diferentes, o comportamento pode afastar-se do cenário descrito na documentação oficial.

Conclusão

Os modelos Gemma 4 QAT foram publicados no blog oficial da Google a 5 de Junho de 2026 e reforçam uma tendência clara no mercado de IA generativa. O foco já não está apenas na escala do modelo, mas na capacidade de o executar localmente com limites realistas de memória e energia.

Se a promessa da Google se confirmar em testes independentes, estes checkpoints podem tornar-se referência para execução local comprimida em hardware de consumo. Até lá, o lançamento deve ser lido como um avanço técnico relevante, mas ainda sujeito à verificação que separa alegação de desempenho de prova consolidada.

FAQ – Perguntas frequentes

O que é o Gemma 4 QAT?

É a versão dos modelos Gemma 4 optimizada com Quantization-Aware Training, uma técnica que introduz os efeitos da quantização durante o treino para reduzir memória com menor perda de qualidade. A Google publicou estes checkpoints no blog oficial a 5 de Junho de 2026.

O Gemma 4 QAT corre num telemóvel?

Segundo a Google, sim, pelo menos no caso do Gemma 4 E2B em modo texto, com um requisito inferior a 1 GB de RAM. Isso depende do formato móvel específico e do uso de runtimes compatíveis, como o LiteRT-LM.

Porque é que o Gemma 4 12B é relevante para este tema?

Porque o Gemma 4 12B introduziu uma arquitectura multimodal unificada e foi posicionado pela Google para execução local em hardware com 16 GB de memória. Os checkpoints QAT aparecem como extensão lógica dessa estratégia de execução fora da nuvem.

Pontos principais

  • Os modelos Gemma 4 QAT foram publicados no blog oficial da Google a 5 de Junho de 2026.
  • A Google afirma que o Gemma 4 E2B pode correr em menos de 1 GB de RAM em modo texto.
  • O Gemma 4 12B introduziu uma arquitectura multimodal sem codificadores separados.
  • Os novos checkpoints suportam formatos como GGUF, tensores comprimidos e LiteRT-LM.
  • As alegações de qualidade e eficiência ainda precisam de validação independente em testes externos.

Outros artigos interessantes:

  • Kidney.com quer transformar a saúde renal em Portugal com IA generativa clinicamente supervisionada
  • Google substitui Gemini CLI por Antigravity CLI
  • Linus Torvalds alerta para avalanche de bugs de IA no Linux
Tags: Gemma 4 12BGemma 4 QATgoogle
PartilhaTweetEnvia
Alfredo Beleza

Alfredo Beleza

É o fundador e director editorial do TecheNet. Com carreira internacional como CEO e director comercial e de marketing em empresas em Portugal, na Suíça e no Brasil, desenvolveu uma perspectiva aprofundada sobre a intersecção entre tecnologia, negócios e mercados globais. Com formação em Gestão, Administração e Marketing pela Webster University, na Suíça, fundou o TecheNet como um projecto editorial comprometido com o rigor e a imparcialidade da informação tecnológica em língua portuguesa.

Artigos relacionados

Siri wwdc
Apple

A Apple prepara a maior revolução da Siri para a WWDC

06/06/2026
Google pixel studio
Google

Google encerra o Pixel Studio e foca geração de imagens no Gemini

06/06/2026
Segurança de ia em processos críticos falha na meta
Segurança

Segurança de IA em processos críticos falha na Meta

06/06/2026

Últimas notícias

Huawei Watch GT Runner 2: Nova atualização traz funcionalidades de desporto

Final do Mundial de 66 a cores: como ver o jogo gratuitamente

Acer lança Swift Air 14 com processadores Intel Core Series 3

GTA Online: Community Missions regressam com recompensas 4x e camisola gratuita

Anthropic avisa que a inteligência artificial pode criar o seu próprio sucessor

Samsung atualiza novamente o Google Play System nos dispositivos Galaxy

Valve confirma lançamento da nova Steam Machine e headset Steam Frame

Dashlane explica como hackers roubaram os cofres de palavras-passe

Hackers acedem a dados de saúde da Ultrahuman e a resposta preocupa

Epic Games exige que Supremo Tribunal bloqueie novo recurso da Apple

CEO da TSMC goza com as promessas repetidas da Samsung

Xiaomi 18 Pro Max pode chegar com duas câmaras de 200 MP

Instagram Plus chega a todo o mundo mas esquece um detalhe crucial

Google lança Gemini Go para smartphones Android de gama baixa

Hisense A10: O aguardado regresso aos smartphones com ecrã E-Ink

Samsung Galaxy Z Flip 8 poderá chegar com dois processadores diferentes

Huawei Pura X Max: Vendas do primeiro mês revelam procura brutal

Apple domina vendas e iPhone 17 ofusca o Galaxy S26 Ultra

iPhone 17 Pro Max: Caviar lança cofre para relógios suíços

Ataque AitM: O que é e como te podes proteger

Techenet LOGO
  • Quem somos
  • Fale connosco
  • Termos e condições
  • Política de comentários
  • Política de Privacidade
  • Política de Cookies
  • O uso de IA no TecheNet
Sem resultados
Ver todos os resultados
  • Mobile
  • Tech
    • AUTOMÓVEIS
    • MOBILIDADE ELÉTRICA
    • IMAGEM & SOM
    • ENTREVISTAS
  • Gaming
  • IA
  • Opinião
  • Segurança
  • Negócios
    • EMPRESAS
    • CRIPTOMOEDAS
    • MARKETING
  • Mais
    • ARTE E CULTURA
    • DICAS
    • LIFESTYLE
    • DIREITOS COM CAUSA
    • INTERNET
    • GUIAS
    • PROMOÇÕES
    • REVIEWS
    • SUSTENTABILIDADE
    • TUTORIAIS

© 2026 JNews - Premium WordPress news & magazine theme by Jegtheme.