As data lakehouses surgem para combinar a flexibilidade dos data lakes com a governança dos data warehouses, reunindo em uma única camada dados estruturados, semiestruturados e não estruturados. Essa integração facilita análises avançadas, incluindo Machine Learning e BI, sem a necessidade de coordenar múltiplos sistemas — o que reduz gargalos e custos.
Uma pesquisa da Dremio aponta que mais de 70% dos profissionais de TI e dados acreditam que o data lakehouse será a principal arquitetura de análise nos próximos três anos, justamente pela eliminação de redundâncias e pela aceleração da inovação, especialmente em Inteligência Artificial. Contudo, esse centralização pode ampliar o impacto de interrupções e incidentes cibernéticos.
O marco técnico veio com o Apache Iceberg, criado em 2017 por engenheiros da Netflix e da Apple e depois doado à Apache Software Foundation. A Netflix, que usava o Hive, precisava de correção de transações e governança de tabelas em grande escala, e o Iceberg entregou um formato de tabela escalável e transacional que suportou petabytes de dados e milhões de tabelas. Apple e Airbnb também adotaram o modelo, consolidando o Iceberg como pilar do ecossistema.
Por outro lado, o ecossistema baseado em Iceberg ainda expõe vulnerabilidades de cyber resilience. Snapshots ajudam, mas não oferecem isolamento real; ataques de ransomware, erro humano e conformidade podem causar indisponibilidades. Restaurar dados a partir de backups que não compreendem o formato Iceberg costuma exigir processos manuais que atrasam a recuperação.
O caminho aponta para proteção de dados nativa aos lakehouses, criando cópias imutáveis, isolamento entre ambientes e políticas automatizadas de conformidade, além de reduzir custos de armazenamento. Com isso, empresas podem inovar em IA com maior confiança, sem abrir mão da governança e da resiliência cibernética — ingredientes-chave para o sucesso sustentável da transformação digital.