hermes-px: o pacote PyPI que roubava conversas de IA em segredo

A equipa de segurança da JFrog descobriu um pacote malicioso na maior biblioteca de código Python do mundo – um proxy de IA que prometia anonimato e privacidade, mas exfiltrava todas as conversas dos utilizadores para servidores controlados por atacantes.

O caso hermes-px ilustra bem como as ameaças à segurança da IA raramente chegam pela porta da frente. O alerta do Google DeepMind sobre agentes de IA sequestrados através de conteúdo web malicioso ainda ecoava quando a JFrog revelou uma ameaça de natureza diferente, mas igualmente sofisticada, escondida nas próprias ferramentas que os programadores usam para construir esses agentes.

O que era o hermes-px

O hermes-px apresentava-se como um proxy de IA orientado para a privacidade, com a promessa de encaminhar todos os pedidos dos utilizadores através da rede Tor, a garantir anonimato total nas comunicações com modelos de linguagem. A proposta era convincente. Numa era em que a privacidade digital é uma preocupação crescente, um intermediário anónimo entre o utilizador e as APIs de IA parecia uma solução legítima e útil.

Na prática, o pacote operava de forma radicalmente diferente. Sequestrava o endpoint privado de uma universidade tunisina para processar os pedidos, utilizava um system prompt roubado da Anthropic Claude, com todas as referências ao fornecedor cuidadosamente removidas, e registava em simultâneo cada mensagem enviada pelos utilizadores numa base de dados controlada pelos atacantes. A privacidade prometida era, na realidade, uma ilusão construída para ganhar confiança.

A anatomia do ataque

O método do hermes-px combinou três técnicas distintas numa cadeia de ataque coesa. A primeira foi a camuflagem por identidade. Ao apresentar-se como ferramenta de privacidade, o pacote atraiu precisamente os utilizadores mais preocupados com segurança, os menos propensos a suspeitar de comportamentos maliciosos. A segunda foi o abuso de infraestrutura legítima. Ao usar o endpoint da universidade tunisina, o tráfego malicioso misturava-se com pedidos normais, a dificultar a deteção por sistemas de monitorização.

A terceira técnica, e a mais preocupante do ponto de vista técnico, foi o roubo e reaproveitamento do system prompt da Anthropic Claude. Um system prompt define a personalidade, as regras e os limites de comportamento de um modelo de IA. Ao remover as referências ao fornecedor original e reutilizar o prompt, os atacantes conseguiram criar uma aparência de sistema coerente e profissional, a tornar o hermes-px ainda mais difícil de identificar como fraudulento.

As implicações para o ecossistema de código aberto

O caso insere-se numa tendência mais ampla de ataques à cadeia de fornecimento de software, os chamados supply chain attacks. Nos ecossistemas de código aberto como o PyPI, qualquer programador pode publicar um pacote e a moderação é insuficiente para travar publicações maliciosas antes de atingirem utilizadores reais. Esta vulnerabilidade estrutural é independente da sofisticação do modelo de IA utilizado e afeta igualmente quem usa agentes de IA autónomos de última geração.

A combinação de engenharia social, abuso de infraestrutura legítima e técnicas de prompt injection indireta torna o hermes-px um caso de estudo que ninguém na área pode ignorar. A principal lição é que a segurança de um agente de IA não depende apenas do modelo ou da plataforma, mas também de cada biblioteca instalada no ambiente onde esse agente corre.

Outros artigos interessantes: