TecheNet
  • Mobile
    • APPLE
    • APPS
    • GOOGLE
    • HUAWEI
    • ONEPLUS
    • SAMSUNG
    • XIAOMI
  • Tech
    • AUTOMÓVEIS
    • MOBILIDADE ELÉTRICA
    • IMAGEM & SOM
    • ENTREVISTAS
  • Gaming
  • IA
  • Opinião
  • Segurança
  • Negócios
    • EMPRESAS
    • CRIPTOMOEDAS
    • MARKETING
  • Mais
    • ARTE E CULTURA
    • DICAS
    • LIFESTYLE
    • DIREITOS COM CAUSA
    • INTERNET
    • GUIAS
    • PROMOÇÕES
    • REVIEWS
    • SUSTENTABILIDADE
    • TUTORIAIS
Sem resultados
Ver todos os resultados
TecheNet
Sem resultados
Ver todos os resultados

Android Bench: Google lança ranking oficial de LLMs para Android – Gemini lidera com 72,4%

Alfredo Beleza por Alfredo Beleza
08/03/2026
Em Google, Inteligência Artificial

A Google lançou a 4 de março de 2026 o Android Bench, um leaderboard e framework de avaliação oficial que mede o desempenho de modelos de linguagem de grande escala (LLMs) em tarefas reais de desenvolvimento Android. É a primeira vez que a Google publica um benchmark próprio e especializado para comparar modelos de IA neste contexto específico, colmatando uma lacuna que os benchmarks genéricos de programação (como o HumanEval ou o SWE-bench) não cobriam.

Android bench: google lança ranking oficial de llms para android
Imagem conceitual gerada por IA (Nano Banana 2)

Os objetivos do Android Bench

A Google definiu três objetivos concretos para o Android Bench:

  • Encorajar melhorias nos LLMs especificamente orientadas para o desenvolvimento Android
  • Dar aos programadores Android uma referência objetiva e independente para escolherem o modelo de IA mais adequado ao seu trabalho
  • Elevar a qualidade das apps em todo o ecossistema Android

Como foi construído o benchmark

O Android Bench é composto por 100 tarefas selecionadas manualmente a partir de um universo de 38 989 pull requests de repositórios Android públicos no GitHub com mais de 500 estrelas. Apenas pull requests aceites, com testes associados e datados dos últimos três anos foram considerados candidatos, um processo de filtragem que garantiu relevância e qualidade.

Cada tarefa passou por duas revisões humanas: uma de controlo de qualidade e uma por um especialista em Android, para garantir complexidade suficiente e alinhamento com as melhores práticas da plataforma.

As categorias prioritárias refletem o estado da arte do desenvolvimento Android moderno:

  • Jetpack Compose para UI (41% das tarefas, com 59% ainda em View-based para refletir codebases existentes)
  • Coroutines e Flows para programação assíncrona
  • Room para persistência de dados
  • Hilt para injeção de dependências
  • Migrações de navegação, configurações Gradle e quebras de compatibilidade entre versões de SDK
  • Funcionalidades específicas de plataforma: câmara, media, dobráveis e permissões granulares

A distribuição por linguagem espelha a realidade atual do ecossistema: 71% Kotlin e 25% Java, confirmando a transição em curso para o Kotlin como linguagem standard.

Proteção contra contaminação de dados

Um benchmark baseado em repositórios públicos enfrenta um risco real: os modelos podem ter sido treinados nos mesmos dados que estão a ser testados, inflacionando artificialmente os resultados. A Google implementou duas salvaguardas:

  • Canary strings – inclusão da string BIG-BENCH canary standard para desencorajar a incorporação destas tarefas em treinos futuros
  • Trajectory verification – revisão manual do fluxo de trabalho do agente para garantir que os sucessos não resultam de reward hacking ou testes mal especificados

O ranking completo a 4 de março de 2026

ModeloPontuaçãoIntervalo de confiança
Gemini 3.1 Pro Preview72,4%65,3 — 79,8%
Claude Opus 4.666,6%58,9 — 73,9%
GPT-5.2-Codex62,5%54,7 — 70,3%
Claude Opus 4.561,9%53,9 — 69,6%
Gemini 3 Pro Preview60,4%52,6 — 67,8%
Claude Sonnet 4.658,4%51,1 — 66,6%
Claude Sonnet 4.554,2%45,5 — 62,4%
Gemini 3 Flash Preview42,0%36,3 — 47,9%
Gemini 2.5 Flash (baseline)16,1%10,9 — 21,9%

O Gemini 2.5 Flash serve como modelo de referência base (baseline), um ponto de comparação fixo que estabelece o desempenho mínimo esperado para qualquer modelo avaliado.

Como funciona o test harness

O Android Bench usa uma versão modificada do SWE Bench test harness, composta por dois componentes:

  1. Inference Agent – combina o mini SWE agent com uma imagem Docker personalizada capaz de compilar e executar projetos Android, e um prompt base de desenvolvimento Android. Produz ficheiros patch que são passados ao verificador.
  2. Patch Verifier – aplica os patches ao codebase, executa a suite de testes e gera os dados necessários para atribuir uma pontuação.

Todo o test harness está disponível no GitHub, permitindo que qualquer programador ou investigador replique os resultados de forma independente ou utilize a infraestrutura para os seus próprios testes.

Fontes usadas para elaborar o artigo

  • Leaderboard: developer.android.com/bench​
  • Metodologia completa: developer.android.com/bench/methodology

Outros artigos interessantes:

  • Moto Buds 2 Plus e Moto Buds 2: dois auriculares, dois sons, uma aposta séria da Motorola no MWC 2026
  • Samsung Galaxy S26, S26+ e S26 Ultra: guia completo com diferenças, especificações e preços em Portugal
  • Office.eu quer substituir Microsoft e Google na Europa com dados 100% europeus
Tags: Android BenchBenchmarkranking
PartilhaTweetEnvia
Alfredo Beleza

Alfredo Beleza

Gestor de empresas, “blogger” e designer. Com uma carreira marcada por experiências internacionais, foi diretor de marketing/comercial em empresas na Suiça e no Brasil. É co-fundador do site de notícias TecheNet, onde partilha a sua paixão pelo mundo da tecnologia.

Artigos relacionados

Novo modelo operacional de ia da ibm anunciado no think 2026
Inteligência Artificial

Novo modelo operacional de IA da IBM anunciado no Think 2026

09/05/2026
Claude opus 4. 5: novo padrão para engenharia de software
Inteligência Artificial

Acordo com SpaceX: Claude Code duplica os seus limites de uso

08/05/2026
Sam altman - open ai - new york times - chatgpt
Inteligência Artificial

Caos na OpenAI: Ex-diretora expõe as táticas manipuladoras de Sam Altman

08/05/2026
Google escritórios
Google

Conhece o Remy, o agente da Google que vai trabalhar por ti

08/05/2026
Google live search (2)
Google

A Google vai dar um “face lift” ao Search Live e tu vais notar a diferença

07/05/2026 - Atualizado a 08/05/2026
Google pixel 8 - gemini nano
Google

Pixel 8 e AirDrop: partilha de ficheiros com iPhone está quase a chegar

07/05/2026

Últimas notícias

Dexter - resurrection

Dexter: Resurrection temporada 2: tudo o que sabemos sobre o regresso

10/05/2026
Honor 600: câmara de 200mp e bateria de 6. 400mah em portugal

HONOR 600: câmara de 200MP e bateria de 6.400mAh em Portugal

10/05/2026
Lenovo y70 (2026)

Lenovo Legion Y70: Fuga revela nova besta gaming com bateria de 8.000 mAh

10/05/2026

Novo modelo operacional de IA da IBM anunciado no Think 2026

A IA vai dominar o mundo, mas não como nos filmes

Huawei ultrapassa os 24 milhões de relógios vendidos e ataca com o Watch Fit 5

Huawei Watch Kids X1: segurança e câmaras de topo para o pulso das crianças

DJI Osmo Mobile 8P chega ao mercado com ecrã remoto para criadores a solo

Samsung prepara ecrãs holográficos: o futuro nos teus dedos

Receitas da Fortinet crescem 20% no primeiro trimestre de 2026

Acordo com SpaceX: Claude Code duplica os seus limites de uso

Caos na OpenAI: Ex-diretora expõe as táticas manipuladoras de Sam Altman

Bowers & Wilkins Px8 S2 ganham novos acabamentos premium

A Xiaomi acaba de libertar o OmniVoice e o mundo vai passar a falar a tua língua

Conhece o Remy, o agente da Google que vai trabalhar por ti

Novos Snapdragon: o salto gigante para os telemóveis acessíveis

AirTags seguras: a Energizer criou a bateria que pinta línguas

Mudança radical na Samsung pode baratear os próximos dobráveis

A Google vai dar um “face lift” ao Search Live e tu vais notar a diferença

Palavras-passe fracas continuam a expor milhões de utilizadores a riscos digitais

Techenet LOGO
  • Quem somos
  • Fale connosco
  • Termos e condições
  • Política de comentários
  • Política de Privacidade
  • Política de Cookies
  • O uso de IA no TecheNet
Sem resultados
Ver todos os resultados
  • Mobile
    • APPLE
    • APPS
    • GOOGLE
    • HUAWEI
    • ONEPLUS
    • SAMSUNG
    • XIAOMI
  • Tech
    • AUTOMÓVEIS
    • MOBILIDADE ELÉTRICA
    • IMAGEM & SOM
    • ENTREVISTAS
  • Gaming
  • IA
  • Opinião
  • Segurança
  • Negócios
    • EMPRESAS
    • CRIPTOMOEDAS
    • MARKETING
  • Mais
    • ARTE E CULTURA
    • DICAS
    • LIFESTYLE
    • DIREITOS COM CAUSA
    • INTERNET
    • GUIAS
    • PROMOÇÕES
    • REVIEWS
    • SUSTENTABILIDADE
    • TUTORIAIS

© 2026 JNews - Premium WordPress news & magazine theme by Jegtheme.