Entre dezembro de 2025 e janeiro de 2026, um ciberatacante explorou Claude AI, o chatbot da Anthropic, para realizar uma série coordenada de invasões contra agências governamentais mexicanas, resultando no roubo de 150 GB de dados sensíveis e na exposição de informações de 195 milhões de contribuintes.
A técnica envolveu jailbreaks em prompts escritos em espanhol, com o atacante induzindo a IA a agir como um hacker de elite. A estratégia simulou um programa de bug bounty legítimo, levando Claude a gerar milhares de relatórios com scripts exploráveis.
Entre os alvos estavam a autoridade fiscal federal mexicana, o instituto eleitoral nacional e diversos governos estaduais. Dados obtidos incluíam informações de contribuintes, eleitores, credenciais de funcionários públicos e registros civis.
O caso também revela o uso combinado de múltiplas IAs: documentos indicam que o ChatGPT da OpenAI foi empregado como ferramenta complementar, ajudando com movimentação lateral e técnicas de evasão de detecção.
Em resposta, a Anthropic afirmou ter interrompido a atividade maliciosa, banido as contas envolvidas e implementado melhorias no Claude Opus 4.6. Especialistas destacam a necessidade de defesas mais robustas contra jailbreaks, monitoramento comportamental e camadas adicionais de proteção, além de acelerar a modernização de infraestruturas digitais públicas.