Android Bench: Google lança ranking de LLMs para Android

A Google lançou a 4 de março de 2026 o Android Bench, um leaderboard e framework de avaliação oficial que mede o desempenho de modelos de linguagem de grande escala (LLMs) em tarefas reais de desenvolvimento Android. É a primeira vez que a Google publica um benchmark próprio e especializado para comparar modelos de IA neste contexto específico, colmatando uma lacuna que os benchmarks genéricos de programação (como o HumanEval ou o SWE-bench) não cobriam.

Android bench: google lança ranking oficial de llms para android — ***Imagem conceitual gerada por IA (Nano Banana 2)***

Os objetivos do Android Bench

A Google definiu três objetivos concretos para o Android Bench:

Encorajar melhorias nos LLMs especificamente orientadas para o desenvolvimento Android
Dar aos programadores Android uma referência objetiva e independente para escolherem o modelo de IA mais adequado ao seu trabalho
Elevar a qualidade das apps em todo o ecossistema Android

Como foi construído o benchmark

O Android Bench é composto por 100 tarefas selecionadas manualmente a partir de um universo de 38 989 pull requests de repositórios Android públicos no GitHub com mais de 500 estrelas. Apenas pull requests aceites, com testes associados e datados dos últimos três anos foram considerados candidatos, um processo de filtragem que garantiu relevância e qualidade.

Cada tarefa passou por duas revisões humanas: uma de controlo de qualidade e uma por um especialista em Android, para garantir complexidade suficiente e alinhamento com as melhores práticas da plataforma.

As categorias prioritárias refletem o estado da arte do desenvolvimento Android moderno:

Jetpack Compose para UI (41% das tarefas, com 59% ainda em View-based para refletir codebases existentes)
Coroutines e Flows para programação assíncrona
Room para persistência de dados
Hilt para injeção de dependências
Migrações de navegação, configurações Gradle e quebras de compatibilidade entre versões de SDK
Funcionalidades específicas de plataforma: câmara, media, dobráveis e permissões granulares

A distribuição por linguagem espelha a realidade atual do ecossistema: 71% Kotlin e 25% Java, confirmando a transição em curso para o Kotlin como linguagem standard.

Proteção contra contaminação de dados

Um benchmark baseado em repositórios públicos enfrenta um risco real: os modelos podem ter sido treinados nos mesmos dados que estão a ser testados, inflacionando artificialmente os resultados. A Google implementou duas salvaguardas:

Canary strings – inclusão da string BIG-BENCH canary standard para desencorajar a incorporação destas tarefas em treinos futuros
Trajectory verification – revisão manual do fluxo de trabalho do agente para garantir que os sucessos não resultam de reward hacking ou testes mal especificados

O ranking completo a 4 de março de 2026

Modelo	Pontuação	Intervalo de confiança
Gemini 3.1 Pro Preview	72,4%	65,3 — 79,8%
Claude Opus 4.6	66,6%	58,9 — 73,9%
GPT-5.2-Codex	62,5%	54,7 — 70,3%
Claude Opus 4.5	61,9%	53,9 — 69,6%
Gemini 3 Pro Preview	60,4%	52,6 — 67,8%
Claude Sonnet 4.6	58,4%	51,1 — 66,6%
Claude Sonnet 4.5	54,2%	45,5 — 62,4%
Gemini 3 Flash Preview	42,0%	36,3 — 47,9%
Gemini 2.5 Flash (baseline)	16,1%	10,9 — 21,9%

O Gemini 2.5 Flash serve como modelo de referência base (baseline), um ponto de comparação fixo que estabelece o desempenho mínimo esperado para qualquer modelo avaliado.

Como funciona o test harness

O Android Bench usa uma versão modificada do SWE Bench test harness, composta por dois componentes:

Inference Agent – combina o mini SWE agent com uma imagem Docker personalizada capaz de compilar e executar projetos Android, e um prompt base de desenvolvimento Android. Produz ficheiros patch que são passados ao verificador.
Patch Verifier – aplica os patches ao codebase, executa a suite de testes e gera os dados necessários para atribuir uma pontuação.

Todo o test harness está disponível no GitHub, permitindo que qualquer programador ou investigador replique os resultados de forma independente ou utilize a infraestrutura para os seus próprios testes.

Fontes usadas para elaborar o artigo

Leaderboard: developer.android.com/bench
Metodologia completa: developer.android.com/bench/methodology

Outros artigos interessantes:

Android Bench: Google lança ranking oficial de LLMs para Android – Gemini lidera com 72,4%

Alfredo Beleza

Artigos relacionados

Google Messages vai ter um chat oficial para falares sobre novidades

Google Home Speaker: O ecrã inteligente que todos queriam ficou na gaveta

8 recomendações para usar IA no seu negócio com eficácia

Últimas notícias

YouTube: Plataforma chega a acordo com jovem por danos à saúde mental

Prime day traz gráfica MSI RTX 5060 Ti a preço de amigo

Call of Duty: CEO da Xbox afirma que a franquia superou a Marvel

Se queres criar conteúdo: a Sony Alpha ZV-E10K arrasa no Prime Day

Google Home Speaker: O ecrã inteligente que todos queriam ficou na gaveta

Monitor de gaming AGON PRO AGP277QKDC chega em julho por 899€

8 recomendações para usar IA no seu negócio com eficácia

Prime Day: Poupança de 398 euros no brutal Garmin Fenix 8 Pro Zafiro

CP testa internet da Starlink nos Alfa Pendular para melhorar Wi-Fi

Oracle despede 21 mil trabalhadores na corrida pela inteligência artificial

Poupa 318 euros na Nikon Coolpix P1100 durante Prime Day: vais deixar escapar?

Google investe milhares de milhões em chips TPU para destronar a Nvidia

Samsung Galaxy S26 FE surge novamente no Geekbench

Desconto brutal no Prime Day: o DJI Osmo Pocket 3 está imperdível

Apple iPhone Ultra: Ecrã dobrável já está em produção pela Samsung

Segurança residencial no verão exige reforço de medidas preventivas

Loucura no Prime Day: o colossal Samsung Odyssey Neo 57 derreteu preços

Lenovo Tab Plus Gen 2 traz 9 colunas JBL incorporadas

Motorola Edge 70 Max: O novo topo de gama que promete surpreender

Poupança absurda: o Apple iPad Pro 13 afundou no Prime Day.