Um estudo realizado pela Agência Nacional de Ciência da Austrália revela uma vulnerabilidade preocupante: fotos do rosto podem gerar voz sintética viável para sistemas de autenticação. A técnica FOICE (Face-to-Voice) utiliza apenas uma imagem facial para estimar características vocais e sintetizar fala com a voz do proprietário da foto.
O método representa uma nova fronteira na relação entre aparência e voz, ampliando o arsenal de ataques cibernéticos. Em testes, o FOICE enganou o WeChat Voiceprint — ferramenta de autenticação por voz — com uma taxa de sucesso de até 30% já na primeira tentativa, e próxima de 100% em tentativas subsequentes, segundo o estudo.
Pesquisas sobre detecção de deepfake mostraram que detectores tradicionais tinham dificuldade inicial em identificar vozes geradas pelo FOICE. Após retreinamento com amostras do FOICE, a precisão melhorou, mas o estudo alerta para um problema: adaptar detecção para um tipo específico de deepfake pode reduzir a eficácia contra outros métodos.
Os autores defendem abordagens proativas: ampliar os conjuntos de dados de treinamento, criar novos regimes de treinamento e antecipar futuras falsificações, indo além de ataques já conhecidos. A ideia é treinar sistemas para reconhecer padrões de voz sintética a partir de entradas não tradicionais, como imagens e vídeos, antes que se tornem uma ameaça generalizada.
As implicações vão além da autenticação por voz: dispositivos biométricos, bancos e plataformas que dependem de reconhecimento vocal podem ficar vulneráveis. O estudo ressalta a necessidade de defesas mais abrangentes para proteger usuários e organizações de uma nova geração de fraudes cibernéticas.
Em síntese, especialistas pedem uma postura mais proativa na defesa contra deepfakes de voz, com defesas que tragam não apenas reações a ataques já conhecidos, mas sim capacidade de prever e detectar novas formas de falsificação. A convergência entre imagens, áudio e IA demanda novas estratégias de segurança para manter a confiabilidade da identificação de indivíduos.