A Google está a preparar-se para transformar fundamentalmente a forma como utilizamos o nosso smartphone. Até agora, a Inteligência Artificial no Android tem servido essencialmente para responder a perguntas, gerar texto ou analisar imagens. Mas uma nova funcionalidade, descoberta nas entranhas da versão beta da aplicação Google, promete dar ao Gemini “mãos” digitais para interagir diretamente com as tuas aplicações instaladas.
Conhecida internamente pelo nome de código “bonobo”, a funcionalidade “Get tasks done with Gemini” (Realizar tarefas com o Gemini) visa introduzir capacidades agênticas no sistema operativo. Em termos práticos, isto significa que poderás pedir ao Gemini para reservar um transporte ou encomendar o jantar, e assistir à IA a abrir a aplicação da Uber ou Uber Eats e a clicar nos botões por ti, como se fosse um utilizador humano invisível.
Automação de ecrã: o assistente que “mexe” no telemóvel
A grande inovação técnica aqui é a automação de ecrã. Ao contrário dos assistentes antigos que dependiam de APIs limitadas (ligações de bastidores entre apps), o Gemini vai conseguir “ver” o que está no ecrã e simular toques e gestos.
Isto permite realizar tarefas complexas que antes exigiam intervenção manual. Em vez de abrires a app da Uber, digitares o destino, escolheres o carro e confirmares, poderás simplesmente dizer ao Gemini: “Reserva um Uber para o escritório”. A IA tratará do resto, navegando pelos menus à tua frente.
Inicialmente, esta capacidade deverá estar limitada a um grupo restrito de aplicações (“certain apps”). A Google precisa de garantir que a IA consegue interpretar corretamente interfaces que mudam frequentemente. Além de serviços de transporte e entrega de comida, é provável que vejamos suporte inicial para as próprias aplicações da Google.

Requisitos: Android 16 QPR3 e o custo da conveniência
Para ter acesso a este futuro, vais precisar de software recente. A funcionalidade depende das fundações de automação que a Google está a construir no Android 16 QPR3, cuja versão beta deverá chegar em março.
No entanto, a conveniência vem com um asterisco de privacidade significativo. A análise do código revela um aviso que pode deixar alguns utilizadores desconfortáveis: “Quando o Gemini interage com uma aplicação, as capturas de ecrã são revistas por revisores treinados e usadas para melhorar os serviços Google se o ‘Manter Atividade’ estiver ligado”.
Isto sugere que, para treinar a IA a navegar nas apps, humanos poderão ter de ver o que se passa no teu ecrã durante essas interações. A Google inclui salvaguardas, alertando os utilizadores para não introduzirem informações de pagamento sensíveis diretamente no chat do Gemini e para usarem a automação com cuidado.
Controlo total e exclusividade ‘Pro’
Apesar da autonomia da IA, o utilizador mantém o comando. O sistema foi desenhado para permitir que interrompas ou assumas o controlo manual a qualquer momento se a IA se enganar ou demorar demasiado tempo.
Dado o poder de processamento necessário e a natureza premium desta tecnologia (semelhante ao “Auto Browse” que a Google lançou no Chrome), é muito provável que estas capacidades agênticas sejam exclusivas para os subscritores dos planos Gemini Advanced (Pro e Ultra).
Se a Google conseguir executar isto sem falhas, o Gemini deixará de ser apenas um motor de busca falante para se tornar no sistema operativo inteligente que a ficção científica nos prometeu.
Outros artigos interessantes:








