TecheNet
  • Mobile
    • APPLE
    • APPS
    • GOOGLE
    • HUAWEI
    • ONEPLUS
    • SAMSUNG
    • XIAOMI
  • Tech
    • AUTOMÓVEIS
    • MOBILIDADE ELÉTRICA
    • IMAGEM & SOM
    • ENTREVISTAS
  • Gaming
  • IA
  • Opinião
  • Segurança
  • Negócios
    • EMPRESAS
    • CRIPTOMOEDAS
    • MARKETING
  • Mais
    • ARTE E CULTURA
    • DICAS
    • LIFESTYLE
    • DIREITOS COM CAUSA
    • INTERNET
    • GUIAS
    • PROMOÇÕES
    • REVIEWS
    • SUSTENTABILIDADE
    • TUTORIAIS
Sem resultados
Ver todos os resultados
TecheNet
Sem resultados
Ver todos os resultados

Android Bench: Google lança ranking oficial de LLMs para Android – Gemini lidera com 72,4%

Alfredo Beleza por Alfredo Beleza
08/03/2026
Em Google, Inteligência Artificial

A Google lançou a 4 de março de 2026 o Android Bench, um leaderboard e framework de avaliação oficial que mede o desempenho de modelos de linguagem de grande escala (LLMs) em tarefas reais de desenvolvimento Android. É a primeira vez que a Google publica um benchmark próprio e especializado para comparar modelos de IA neste contexto específico, colmatando uma lacuna que os benchmarks genéricos de programação (como o HumanEval ou o SWE-bench) não cobriam.

Android bench: google lança ranking oficial de llms para android
Imagem conceitual gerada por IA (Nano Banana 2)

Os objetivos do Android Bench

A Google definiu três objetivos concretos para o Android Bench:

  • Encorajar melhorias nos LLMs especificamente orientadas para o desenvolvimento Android
  • Dar aos programadores Android uma referência objetiva e independente para escolherem o modelo de IA mais adequado ao seu trabalho
  • Elevar a qualidade das apps em todo o ecossistema Android

Como foi construído o benchmark

O Android Bench é composto por 100 tarefas selecionadas manualmente a partir de um universo de 38 989 pull requests de repositórios Android públicos no GitHub com mais de 500 estrelas. Apenas pull requests aceites, com testes associados e datados dos últimos três anos foram considerados candidatos, um processo de filtragem que garantiu relevância e qualidade.

Cada tarefa passou por duas revisões humanas: uma de controlo de qualidade e uma por um especialista em Android, para garantir complexidade suficiente e alinhamento com as melhores práticas da plataforma.

As categorias prioritárias refletem o estado da arte do desenvolvimento Android moderno:

  • Jetpack Compose para UI (41% das tarefas, com 59% ainda em View-based para refletir codebases existentes)
  • Coroutines e Flows para programação assíncrona
  • Room para persistência de dados
  • Hilt para injeção de dependências
  • Migrações de navegação, configurações Gradle e quebras de compatibilidade entre versões de SDK
  • Funcionalidades específicas de plataforma: câmara, media, dobráveis e permissões granulares

A distribuição por linguagem espelha a realidade atual do ecossistema: 71% Kotlin e 25% Java, confirmando a transição em curso para o Kotlin como linguagem standard.

Proteção contra contaminação de dados

Um benchmark baseado em repositórios públicos enfrenta um risco real: os modelos podem ter sido treinados nos mesmos dados que estão a ser testados, inflacionando artificialmente os resultados. A Google implementou duas salvaguardas:

  • Canary strings – inclusão da string BIG-BENCH canary standard para desencorajar a incorporação destas tarefas em treinos futuros
  • Trajectory verification – revisão manual do fluxo de trabalho do agente para garantir que os sucessos não resultam de reward hacking ou testes mal especificados

O ranking completo a 4 de março de 2026

ModeloPontuaçãoIntervalo de confiança
Gemini 3.1 Pro Preview72,4%65,3 — 79,8%
Claude Opus 4.666,6%58,9 — 73,9%
GPT-5.2-Codex62,5%54,7 — 70,3%
Claude Opus 4.561,9%53,9 — 69,6%
Gemini 3 Pro Preview60,4%52,6 — 67,8%
Claude Sonnet 4.658,4%51,1 — 66,6%
Claude Sonnet 4.554,2%45,5 — 62,4%
Gemini 3 Flash Preview42,0%36,3 — 47,9%
Gemini 2.5 Flash (baseline)16,1%10,9 — 21,9%

O Gemini 2.5 Flash serve como modelo de referência base (baseline), um ponto de comparação fixo que estabelece o desempenho mínimo esperado para qualquer modelo avaliado.

Como funciona o test harness

O Android Bench usa uma versão modificada do SWE Bench test harness, composta por dois componentes:

  1. Inference Agent – combina o mini SWE agent com uma imagem Docker personalizada capaz de compilar e executar projetos Android, e um prompt base de desenvolvimento Android. Produz ficheiros patch que são passados ao verificador.
  2. Patch Verifier – aplica os patches ao codebase, executa a suite de testes e gera os dados necessários para atribuir uma pontuação.

Todo o test harness está disponível no GitHub, permitindo que qualquer programador ou investigador replique os resultados de forma independente ou utilize a infraestrutura para os seus próprios testes.

Fontes usadas para elaborar o artigo

  • Leaderboard: developer.android.com/bench​
  • Metodologia completa: developer.android.com/bench/methodology

Outros artigos interessantes:

  • Moto Buds 2 Plus e Moto Buds 2: dois auriculares, dois sons, uma aposta séria da Motorola no MWC 2026
  • Samsung Galaxy S26, S26+ e S26 Ultra: guia completo com diferenças, especificações e preços em Portugal
  • Office.eu quer substituir Microsoft e Google na Europa com dados 100% europeus
Tags: Android BenchBenchmarkranking
PartilhaTweetEnvia
Alfredo Beleza

Alfredo Beleza

Gestor de empresas, “blogger” e designer. Com uma carreira marcada por experiências internacionais, foi diretor de marketing/comercial em empresas na Suiça e no Brasil. É co-fundador do site de notícias TecheNet, onde partilha a sua paixão pelo mundo da tecnologia.

Artigos relacionados

Gemini live
Google

Gemini Live vai saber tudo sobre ti: A revolução da Inteligência Pessoal

10/03/2026
Openai - inteligência artificial
Inteligência Artificial

Caos na OpenAI: compras de milhões, demissões e atrasos

10/03/2026
Apple siri
Apple

Siri 2.0 volta a atrasar: a revolução da IA no iPhone fica para o iOS 26.5

09/03/2026
Galaxy ai no galaxy s26: as funções que realmente vais usar no dia a dia
Samsung

Galaxy AI no Galaxy S26: as funções que realmente vais usar no dia a dia

07/03/2026
Galaxy ai evolui e quer ligar tudo no ecossistema samsung
Samsung

Galaxy AI evolui e quer ligar tudo no ecossistema Samsung

06/03/2026
Tela de televisão com a abertura da netflix
Séries e Filmes

Netflix compra IA de Ben Affleck para revolucionar os filmes

06/03/2026

Últimas notícias

Dji avata 360 (2)

DJI Avata 360 chega este mês com vídeo 8K e promete revolucionar os céus

10/03/2026
The division 2

The Division 2 renasce das cinzas e bate recorde na Steam em 2026

10/03/2026
Hisense c3: o projetor laser 4k pensado para o mundial 2026

HISENSE C3: o projetor laser 4K ideal para o Mundial 2026 está disponível em Portugal

10/03/2026
QNAP

Gemini Live vai saber tudo sobre ti: A revolução da Inteligência Pessoal

IADE acolhe o Tech4Good 2026 com foco em tecnologia e impacto social

Caos na OpenAI: compras de milhões, demissões e atrasos

HUAWEI Watch GT Runner 2 e FreeBuds Pro 5 brilham no MWC 2026 com múltiplas distinções

Xiaomi lança atualização de peso para corrigir falhas irritantes

HUAWEI FreeBuds Pro 5 chegam a Portugal com ANC IA Dual-Engine

Samsung pode vir a deixar-te criar aplicações no teu smartphone Galaxy

Realme 17 Pro+ vai chegar com “super” câmara de 200MP

Fuga revela data: vivo x300 ultra pode chegar a 30 de março

MacBook Ultra: Apple prepara o seu primeiro portátil tátil e com chip M6

iPhone 17 Pro bate Galaxy S26 Ultra nas câmaras: a Apple ainda reina?

iPhone 17e: A grande ironia de ter um ecrã fabricado pela rival Samsung

OPPO Find N6 arrasa rivais com ecrã sem vinco e bateria gigante

Motorola e GrapheneOS Foundation: uma parceria que muda o paradigma da segurança em smartphones

Bluetti Elite 300: O novo monstro de energia portátil de 3 kWh

ROG Flow Z13-KJP: o portátil gaming assinado por Kojima já está disponível em Portugal

Siri 2.0 volta a atrasar: a revolução da IA no iPhone fica para o iOS 26.5

Techenet LOGO
  • Quem somos
  • Fale connosco, envie a sua pergunta aqui
  • Termos e condições
  • Política de comentários
  • Política de Privacidade
  • Política de Cookies
Sem resultados
Ver todos os resultados
  • Mobile
    • APPLE
    • APPS
    • GOOGLE
    • HUAWEI
    • ONEPLUS
    • SAMSUNG
    • XIAOMI
  • Tech
    • AUTOMÓVEIS
    • MOBILIDADE ELÉTRICA
    • IMAGEM & SOM
    • ENTREVISTAS
  • Gaming
  • IA
  • Opinião
  • Segurança
  • Negócios
    • EMPRESAS
    • CRIPTOMOEDAS
    • MARKETING
  • Mais
    • ARTE E CULTURA
    • DICAS
    • LIFESTYLE
    • DIREITOS COM CAUSA
    • INTERNET
    • GUIAS
    • PROMOÇÕES
    • REVIEWS
    • SUSTENTABILIDADE
    • TUTORIAIS

© 2026 JNews - Premium WordPress news & magazine theme by Jegtheme.