Ataque LegalPwn engana ferramentas GenAI para classificar erroneamente malware como código seguro

Um novo e singular ataque cibernético, denominado LegalPwn, foi descoberto por pesquisadores da Pangea Labs, uma empresa de segurança de IA. O ataque se aproveita de uma falha na programação das principais ferramentas de IA generativa , enganando-as e fazendo-as classificar malware perigoso como código seguro.
A pesquisa, compartilhada com o Hackread.com, revela que esses modelos de IA, treinados para respeitar textos com aparência jurídica, podem ser manipulados por engenharia social.
A técnica LegalPwn funciona ocultando código malicioso em avisos legais falsos. De acordo com a pesquisa, doze modelos principais de IA foram testados, e a maioria se mostrou suscetível a essa forma de engenharia social. Os pesquisadores exploraram com sucesso modelos usando seis contextos jurídicos diferentes, incluindo os seguintes:
- Isenções de responsabilidade legais
- Mandatos de conformidade
- Avisos de confidencialidade
- Violações dos termos de serviço
- Avisos de violação de direitos autorais
- Restrições do contrato de licença
O ataque é considerado uma forma de injeção de prompts, na qual instruções maliciosas são criadas para manipular o comportamento de uma IA. Recentemente, o Hackread.com também observou uma tendência semelhante com o ataque Man in the Prompt, no qual extensões maliciosas de navegador podem ser usadas para injetar prompts ocultos em ferramentas como ChatGPT e Gemini, uma descoberta da pesquisa da LayerX.
As descobertas (PDF) não são apenas experimentos teóricos de laboratório; elas afetam ferramentas de desenvolvimento usadas por milhões de pessoas diariamente. Por exemplo, a Pangea Labs descobriu que a Gemini CLI do Google, uma interface de linha de comando, foi enganada, recomendando que um usuário executasse um shell reverso, um tipo de código malicioso que dá a um invasor acesso remoto a um computador, em seu sistema. Da mesma forma, o GitHub Copilot foi enganado, identificando erroneamente um código contendo um shell reverso como uma calculadora simples, quando este estava oculto em um aviso de direitos autorais falso .
Os ataques do LegalPwn também foram testados em ambientes reais, incluindo ferramentas como gemini-cli. Nesses cenários reais, a injeção ignorou com sucesso a análise de segurança orientada por IA, fazendo com que o sistema classificasse incorretamente o código malicioso como seguro.
Laboratórios Pangea
A pesquisa destacou que modelos de empresas importantes são todos vulneráveis a esse ataque. Entre eles, estão:
- Grok da xAI
- Gêmeos do Google
- Lhama de Meta 3.3
- ChatGPT 4.1 e 4o da OpenAI.
No entanto, alguns modelos mostraram forte resistência, como o Claude 3.5 Sonnet da Anthropic e o Phi 4 da Microsoft . Os pesquisadores notaram que, mesmo com avisos de segurança explícitos projetados para alertar a IA sobre ameaças, a técnica LegalPwn ainda conseguiu ter sucesso em alguns casos.

A pesquisa da Pangea destaca uma lacuna crítica de segurança em sistemas de IA. Constatou-se que, em todos os cenários de teste, analistas de segurança humanos identificaram o código malicioso de forma consistente e correta, enquanto os modelos de IA , mesmo com instruções de segurança, falharam em fazê-lo quando o malware estava encapsulado em texto com aparência legal.
Os pesquisadores concluíram que as organizações não devem confiar apenas na análise automatizada de segurança de IA , enfatizando a necessidade de supervisão humana para garantir a integridade e a segurança dos sistemas que dependem cada vez mais da IA.
Para se proteger contra essa nova ameaça, a Pangea recomenda que as empresas implementem um processo de revisão com envolvimento humano para todas as decisões de segurança assistidas por IA , implantem proteções de IA específicas projetadas para detectar tentativas imediatas de injeção e sugiram evitar fluxos de trabalho de segurança de IA totalmente automatizados em ambientes ativos.
HackRead