TecheNet
  • Mobile
    • APPLE
    • APPS
    • GOOGLE
    • HUAWEI
    • ONEPLUS
    • SAMSUNG
    • XIAOMI
  • Tech
    • AUTOMÓVEIS
    • MOBILIDADE ELÉTRICA
    • IMAGEM & SOM
    • ENTREVISTAS
  • Gaming
  • IA
  • Opinião
  • Segurança
  • Negócios
    • EMPRESAS
    • CRIPTOMOEDAS
    • MARKETING
  • Mais
    • ARTE E CULTURA
    • DICAS
    • LIFESTYLE
    • DIREITOS COM CAUSA
    • INTERNET
    • GUIAS
    • PROMOÇÕES
    • REVIEWS
    • SUSTENTABILIDADE
    • TUTORIAIS
Sem resultados
Ver todos os resultados
TecheNet
Sem resultados
Ver todos os resultados

Android Bench: Google lança ranking oficial de LLMs para Android – Gemini lidera com 72,4%

Alfredo Beleza por Alfredo Beleza
08/03/2026
Em Google, Inteligência Artificial

A Google lançou a 4 de março de 2026 o Android Bench, um leaderboard e framework de avaliação oficial que mede o desempenho de modelos de linguagem de grande escala (LLMs) em tarefas reais de desenvolvimento Android. É a primeira vez que a Google publica um benchmark próprio e especializado para comparar modelos de IA neste contexto específico, colmatando uma lacuna que os benchmarks genéricos de programação (como o HumanEval ou o SWE-bench) não cobriam.

Android bench: google lança ranking oficial de llms para android
Imagem conceitual gerada por IA (Nano Banana 2)

Os objetivos do Android Bench

A Google definiu três objetivos concretos para o Android Bench:

  • Encorajar melhorias nos LLMs especificamente orientadas para o desenvolvimento Android
  • Dar aos programadores Android uma referência objetiva e independente para escolherem o modelo de IA mais adequado ao seu trabalho
  • Elevar a qualidade das apps em todo o ecossistema Android

Como foi construído o benchmark

O Android Bench é composto por 100 tarefas selecionadas manualmente a partir de um universo de 38 989 pull requests de repositórios Android públicos no GitHub com mais de 500 estrelas. Apenas pull requests aceites, com testes associados e datados dos últimos três anos foram considerados candidatos, um processo de filtragem que garantiu relevância e qualidade.

Cada tarefa passou por duas revisões humanas: uma de controlo de qualidade e uma por um especialista em Android, para garantir complexidade suficiente e alinhamento com as melhores práticas da plataforma.

As categorias prioritárias refletem o estado da arte do desenvolvimento Android moderno:

  • Jetpack Compose para UI (41% das tarefas, com 59% ainda em View-based para refletir codebases existentes)
  • Coroutines e Flows para programação assíncrona
  • Room para persistência de dados
  • Hilt para injeção de dependências
  • Migrações de navegação, configurações Gradle e quebras de compatibilidade entre versões de SDK
  • Funcionalidades específicas de plataforma: câmara, media, dobráveis e permissões granulares

A distribuição por linguagem espelha a realidade atual do ecossistema: 71% Kotlin e 25% Java, confirmando a transição em curso para o Kotlin como linguagem standard.

Proteção contra contaminação de dados

Um benchmark baseado em repositórios públicos enfrenta um risco real: os modelos podem ter sido treinados nos mesmos dados que estão a ser testados, inflacionando artificialmente os resultados. A Google implementou duas salvaguardas:

  • Canary strings – inclusão da string BIG-BENCH canary standard para desencorajar a incorporação destas tarefas em treinos futuros
  • Trajectory verification – revisão manual do fluxo de trabalho do agente para garantir que os sucessos não resultam de reward hacking ou testes mal especificados

O ranking completo a 4 de março de 2026

ModeloPontuaçãoIntervalo de confiança
Gemini 3.1 Pro Preview72,4%65,3 — 79,8%
Claude Opus 4.666,6%58,9 — 73,9%
GPT-5.2-Codex62,5%54,7 — 70,3%
Claude Opus 4.561,9%53,9 — 69,6%
Gemini 3 Pro Preview60,4%52,6 — 67,8%
Claude Sonnet 4.658,4%51,1 — 66,6%
Claude Sonnet 4.554,2%45,5 — 62,4%
Gemini 3 Flash Preview42,0%36,3 — 47,9%
Gemini 2.5 Flash (baseline)16,1%10,9 — 21,9%

O Gemini 2.5 Flash serve como modelo de referência base (baseline), um ponto de comparação fixo que estabelece o desempenho mínimo esperado para qualquer modelo avaliado.

Como funciona o test harness

O Android Bench usa uma versão modificada do SWE Bench test harness, composta por dois componentes:

  1. Inference Agent – combina o mini SWE agent com uma imagem Docker personalizada capaz de compilar e executar projetos Android, e um prompt base de desenvolvimento Android. Produz ficheiros patch que são passados ao verificador.
  2. Patch Verifier – aplica os patches ao codebase, executa a suite de testes e gera os dados necessários para atribuir uma pontuação.

Todo o test harness está disponível no GitHub, permitindo que qualquer programador ou investigador replique os resultados de forma independente ou utilize a infraestrutura para os seus próprios testes.

Fontes usadas para elaborar o artigo

  • Leaderboard: developer.android.com/bench​
  • Metodologia completa: developer.android.com/bench/methodology

Outros artigos interessantes:

  • Moto Buds 2 Plus e Moto Buds 2: dois auriculares, dois sons, uma aposta séria da Motorola no MWC 2026
  • Samsung Galaxy S26, S26+ e S26 Ultra: guia completo com diferenças, especificações e preços em Portugal
  • Office.eu quer substituir Microsoft e Google na Europa com dados 100% europeus
Tags: Android BenchBenchmarkranking
PartilhaTweetEnvia
Alfredo Beleza

Alfredo Beleza

Gestor de empresas, “blogger” e designer. Com uma carreira marcada por experiências internacionais, foi diretor de marketing/comercial em empresas na Suiça e no Brasil. É co-fundador do site de notícias TecheNet, onde partilha a sua paixão pelo mundo da tecnologia.

Artigos relacionados

Oracle ai database reforçada com novas capacidades de ia agêntica
Inteligência Artificial

Oracle AI Database reforçada com novas capacidades de IA agêntica

25/03/2026
Ia da hala systems ajuda a resgatar 207 crianças na ucrânia
Inteligência Artificial

IA da Hala Systems ajuda a resgatar 207 crianças na Ucrânia

24/03/2026
Google tradutor featured
Google

Google Tradutor vai avaliar a tua pronúncia em tempo real

23/03/2026
Openai avança com anúncios no chatgpt
Inteligência Artificial

OpenAI avança com anúncios no ChatGPT. A neutralidade fica?

22/03/2026
Google hq
Google

Google altera títulos de notícias nas pesquisas com auxílio de IA

22/03/2026
Xiaomi mimo-v2 entra no top 10 mundial de ia
Inteligência Artificial

Xiaomi MiMo-V2 entra no top 10 mundial de IA e ninguém deu conta

20/03/2026

Últimas notícias

Gritos 7 bate recordes e é o maior sucesso de sempre da saga

Gritos 7 bate recordes e é o maior sucesso de sempre da saga

25/03/2026
Panasonic lumix tz300

Panasonic Lumix TZ300: o regresso após oito anos

25/03/2026
Quwan express: a "vpn" da qnap que dispensa routers

QuWAN Express: a “VPN” da QNAP que dispensa routers

25/03/2026
QNAP

Timestamp absorve a arin e reforça presença ibérica

Oracle AI Database reforçada com novas capacidades de IA agêntica

Como a Inteligência Artificial está a redefinir a logística: a visão da DSV

Denon Home: som sem fios para toda a casa a partir de 349€

Firefox 149 chega com VPN gratuita, Split View e segurança reforçada

Getac anuncia CommandCore para controlo de drones em missões críticas

HP EliteBoard G1a: o PC que cabe num teclado chega a Portugal

IA da Hala Systems ajuda a resgatar 207 crianças na Ucrânia

AirPods Max 2: o que mudou após seis anos e o que ficou igual

Apple sob pressão: WWDC 2026 pode ser a prova de fogo em IA

TP-Link Deco BE22: pack de 2 unidades disponível em Portugal

Samsung lança partilha direta entre Galaxy S26 e iPhone

Novo iPad de entrada chega em breve com Apple Intelligence

Preços do drives externos da Apple sobem até 200% por causa da IA

Google Tradutor vai avaliar a tua pronúncia em tempo real

Moisés Raimundo é o novo B2B Marketing Manager da TP-Link Portugal

Oppo Find X9 Ultra chega em abril com botão dedicado para fotos

Techenet LOGO
  • Quem somos
  • Fale connosco, envie a sua pergunta aqui
  • Termos e condições
  • Política de comentários
  • Política de Privacidade
  • Política de Cookies
Sem resultados
Ver todos os resultados
  • Mobile
    • APPLE
    • APPS
    • GOOGLE
    • HUAWEI
    • ONEPLUS
    • SAMSUNG
    • XIAOMI
  • Tech
    • AUTOMÓVEIS
    • MOBILIDADE ELÉTRICA
    • IMAGEM & SOM
    • ENTREVISTAS
  • Gaming
  • IA
  • Opinião
  • Segurança
  • Negócios
    • EMPRESAS
    • CRIPTOMOEDAS
    • MARKETING
  • Mais
    • ARTE E CULTURA
    • DICAS
    • LIFESTYLE
    • DIREITOS COM CAUSA
    • INTERNET
    • GUIAS
    • PROMOÇÕES
    • REVIEWS
    • SUSTENTABILIDADE
    • TUTORIAIS

© 2026 JNews - Premium WordPress news & magazine theme by Jegtheme.