A Cloudflare confirmou que a interrupção que afetou boa parte da internet nesta terça-feira teve como origem uma falha interna em seu banco de dados. Um ajuste de permissões de rotina disparou um efeito dominó que derrubou a rede global da companhia por quase seis horas, a maior interrupção desde 2019. A empresa ressaltou que o incidente não foi causado por ataques cibernéticos.
Segundo o relato da companhia, a origem foi uma alteração específica nas permissões de um dos sistemas de banco de dados que alimentam a plataforma de gerenciamento de bots. A mudança fez com que o banco gerasse entradas duplicadas em um arquivo de recursos utilizado pelo módulo responsável por mitigar tráfego malicioso, resultando em um arquivo de configuração excessivamente grande.
O aumento de entradas ultrapassou o limite de segurança de 200 recursos definido pelo sistema. Quando o arquivo superdimensionado atingiu os nós da rede, o módulo de Bots, desenvolvido em Rust, entrou em estado de pânico, gerando falhas no software e erros HTTP 5xx observados por clientes ao redor do mundo. A cada cinco minutos, novas consultas geravam arquivos corretos ou quebrados, causando um comportamento oscilante entre zonas da rede.
Com o arquivo corrompido se espalhando pelos clusters, o proxy principal da Cloudflare — responsável por lidar com o tráfego de milhões de solicitações por segundo — também passou a falhar. A interrupção afetou serviços como a Rede de CDN global, mecanismos de segurança e mitigação de bots, Turnstile, Workers KV, painel administrativo, segurança de e-mails e serviços de autenticação Zero Trust, impactando empresas que dependem da Cloudflare para manter sites acessíveis e protegidos.
As operações começaram a se normalizar apenas no fim da tarde. Por volta das 14h30 UTC, a equipe de engenharia identificou a raiz do problema e restaurou uma versão funcional do arquivo de configuração. A partir de então, o tráfego voltou a fluir de maneira estável, e às 17h06 UTC todos os serviços foram considerados plenamente operacionais. O CEO Matthew Prince classificou o episódio como “inaceitável” para uma empresa que tem papel crítico no ecossistema da internet.
O setor de tecnologia acompanha o episódio como mais um alerta de que até mesmo gigantes da infraestrutura podem sofrer falhas internas. Especialistas apontam que, meses antes, a Cloudflare também enfrentou problemas na arquitetura Zero Trust e, no fim de 2024, ocorreram falhas notáveis em serviços de DNS de grandes provedores. A reportagem continua acompanhando o desfecho e as lições aprendidas pela indústria.