Construção de pipelines fiáveis com Lakeflow, pipelines declarativos e Unity Catalog

Tópicos:

22 ago. 2025

Na Barracuda, a nossa equipa da Enterprise Data Platform está focada em fornecer pipelines de dados de alta qualidade e fiáveis que permitem aos analistas e líderes empresariais em toda a empresa tomar decisões informadas. Para impulsionar esta iniciativa, adotámos o Databricks Lakeflow Declarative Pipelines (anteriormente DLT) e o Unity Catalog para gerir os nossos fluxos de trabalho de Extração, Transformação, Carregamento (ETL), impor a qualidade dos dados e garantir uma governação robusta.

Os Lakeflow Declarative Pipelines capacitaram-nos a aproveitar os dados de utilização dos nossos clientes para aplicações que ajudam as equipas de renovações e de sucesso do cliente a oferecer melhores experiências aos clientes. Também utilizámos os Lakeflow Declarative Pipelines e o Unity Catalog para criar dashboards para as nossas equipas executivas, permitindo-lhes aproveitar dados de várias fontes para tomar decisões financeiras mais informadas. Estes casos de uso dependem de dados altamente disponíveis e precisos, para os quais os Lakeflow Declarative Pipelines têm fornecido um apoio significativo.

Porquê Lakeflow Declarative Pipelines?

A estrutura de transformação declarativa central da Databricks – incorporada nos Lakeflow Declarative Pipelines – permite-nos definir transformações de dados e restrições de qualidade. Isto reduz significativamente o esforço operacional de gerir trabalhos ETL complexos e melhora a observabilidade dos nossos fluxos de dados. Já não temos de escrever código imperativo para orquestrar tarefas; em vez disso, definimos o que o pipeline deve fazer, e os Lakeflow Declarative Pipelines tratam do resto. Isto tornou os nossos pipelines mais fáceis de construir, compreender e manter.

De Batch para Streaming

Lakeflow Declarative Pipelines oferece funcionalidades robustas para otimizar o processamento incremental de dados e aumentar a eficiência nos fluxos de trabalho de gestão de dados. Ao utilizar ferramentas como o Auto Loader, que processa incrementalmente novos ficheiros de dados à medida que chegam ao armazenamento na cloud, a nossa equipa de dados consegue lidar facilmente com os dados recebidos. A inferência de esquemas e as dicas de esquemas simplificam ainda mais o processo, gerindo a evolução dos esquemas e garantindo a compatibilidade com os conjuntos de dados recebidos.

Eis como definimos uma tabela de ingestão de streaming usando o Auto Loader. Este exemplo mostra opções de configuração avançadas para dicas de esquema e definições de preenchimento retroativo – mas para muitos pipelines, a inferência de esquema embutida e os valores predefinidos são suficientes para começar rapidamente.

Exemplo 1 de Pipelines Declarativos do Lakeflow

Outra funcionalidade poderosa que adotámos é o suporte dos Lakeflow Declarative Pipelines para Captura de Dados de Mudança (CDC) automatizada, utilizando a instrução APPLY CHANGES INTO. Para dados armazenados em sistemas como o S3, o processamento incremental torna-se fluido. Esta abordagem abstrai a complexidade de lidar com inserções, atualizações e eliminações. Também garante que as nossas tabelas a jusante permaneçam sincronizadas com os sistemas de origem, mantendo a precisão histórica quando necessário — especialmente ao trabalhar com ferramentas como o Fivetran que fornecem fluxos CDC. Estas funcionalidades garantem que os pipelines de dados são não apenas precisos e fiáveis, mas também altamente adaptáveis a ambientes de dados dinâmicos.

Abaixo está um exemplo de uma configuração SCD1 mais avançada — usando a nossa tabela bronze como fonte — com fusão de esquemas e filtragem personalizada de colunas.

Exemplo 2 de Pipelines Declarativos Lakeflow

Diagrama de fluxo dos Pipelines Declarativos Lakeflow

Imposição da Qualidade dos Dados com Expectativas

As expectativas dos pipelines declarativos do Lakeflow permitem-nos testar a qualidade dos dados definindo restrições declarativas que validam os dados à medida que fluem através do pipeline. Definimos estas expectativas como expressões Booleanas em SQL e aplicamo-las a cada conjunto de dados que ingerimos. Para simplificar a gestão de regras, construímos uma estrutura personalizada que carrega expectativas a partir de ficheiros JSON, tornando fácil a reutilização de regras em diferentes pipelines, mantendo o código limpo.

Esta é uma implementação avançada que funciona bem na nossa escala, mas muitas equipas podem começar com algumas instruções inline e evoluir ao longo do tempo. Abaixo, mostramos como estruturamos as expectativas JSON e as aplicamos dinamicamente durante a execução do pipeline.

Expectativas de Pipelines Declarativos do Lakeflow

Aumentar as Tabelas de Quarentena com UDFs

Embora o Lakeflow coloque automaticamente em quarentena os registos inválidos com base em expectativas, estendemos esta funcionalidade com um UDF personalizado para identificar quais regras específicas cada registo violou. Esta abordagem adiciona uma coluna "data_quality" às nossas tabelas em quarentena, facilitando o rastreamento e a depuração de problemas de dados.

Esta personalização não é necessária para fluxos de trabalho básicos de quarentena, mas proporciona à nossa equipa uma visibilidade mais clara sobre por que motivo os registos falham e ajuda a priorizar a remediação de forma mais eficiente. Abaixo está a forma como implementámos esta melhoria utilizando as nossas regras de expectativas predefinidas.

Aumentar as Tabelas de Quarentena com UDFs

Monitorização e Governação da Qualidade de Dados com Lakeflow Declarative Pipelines + Unity Catalog

Os Lakeflow Declarative Pipelines capturam automaticamente eventos detalhados de runtime através do seu log de eventos incorporado, incluindo validações de regras, registos em quarentena e comportamento de execução de pipelines. Ao consultar este log, somos capazes de gerar métricas abrangentes de qualidade de dados, monitorizar a saúde de mais de 100 conjuntos de dados e detetar proativamente problemas antes que afetem os utilizadores a jusante.

Com base nesta fundação, estabelecemos alertas em tempo real que nos notificam quando os dados não cumprem as expectativas predefinidas ou começam a desviar-se dos padrões normais e esperados. Estes alertas permitem que a nossa equipa investigue rapidamente as anomalias e tome medidas corretivas.

O Unity Catalog complementa isto com governança centralizada, controlo de acesso granular e linhagem completa dos dados. Este quadro combinado melhora a confiança nos nossos dados, garante a aplicação consistente de políticas de qualidade e de acesso e oferece-nos uma visibilidade clara sobre o estado e a evolução dos nossos ativos de dados.

dashboard de resumo de qualidade de dados

Lições Aprendidas e Melhores Práticas

A implementação dos Lakeflow Declarative Pipelines vem com restrições únicas e funcionalidades em evolução que melhoram a usabilidade para os desenvolvedores e simplificam as operações. Inicialmente, limitações como a necessidade de fontes de apenas acréscimo e um único destino por pipeline representaram desafios. No entanto, o aproveitamento de funcionalidades como dicas de esquema e a capacidade de ler outras tabelas dentro dos Lakeflow Declarative Pipelines usando `spark.readTable` melhorou significativamente a flexibilidade. Além disso, beneficiámos imensamente das funcionalidades de qualidade de dados dos Lakeflow Declarative Pipelines. Implementámos mais de 1.000 restrições de qualidade de dados em mais de 100 tabelas. Também temos verificações de qualidade de dados em cada tabela no nosso espaço de trabalho do Databricks. Isto facilita muito o trabalho dos nossos analistas, pois eles conseguem encontrar, usar, entender e confiar nos dados da nossa plataforma.

Além da qualidade e governação de dados, existem vários benefícios mensuráveis a jusante para o negócio. A utilização dos Lakeflow Declarative Pipelines levou a reduções notáveis no tempo de desenvolvimento e a uma aceleração na velocidade de entrega, ao mesmo tempo que minimiza os custos de manutenção e aumenta a eficiência da equipa. Por exemplo, pipelines construídos com Lakeflow Declarative Pipelines normalmente requerem menos 50% de linhas de código em comparação com pipelines não Lakeflow Declarative Pipelines, simplificando tanto o desenvolvimento quanto a manutenção contínua. Esta eficiência traduziu-se em tempos de ativação de pipelines mais rápidos e suporte mais fiável para atender às necessidades de negócios em evolução. A fiabilidade dos dados também melhorou, permitindo-nos atender a múltiplos casos de uso a jusante, como o nosso First Value Dashboard e os Dashboards de Análise de Utilização do Cliente, em vários domínios de negócios.

A introdução do IDE Lakeflow Pipelines, onde podemos gerar transformações como ficheiros SQL e Python e aceder à pré-visualização de dados, métricas de desempenho do pipeline e gráfico do pipeline (tudo numa única vista), aumentou ainda mais a velocidade dos programadores. A migração do HMS para o Unity Catalog refinou ainda mais este processo, oferecendo melhor visibilidade durante a execução do pipeline. À medida que os Pipelines Declarativos Lakeflow continuam a amadurecer, adotar estas melhores práticas e lições aprendidas será essencial para maximizar tanto a qualidade dos dados como a eficiência operacional em toda a nossa plataforma.

Nota: Sanchitha Sunil e Grizel Lopez co-autoraram este artigo de blogue.

Explore a plataforma BarracudaONE

Harpreet Singh

Harpreet Singh é Engenheiro de Dados na equipa da Plataforma de Dados Empresariais da Barracuda.

Pesquisar o blogue

O Relatório de Perspetivas sobre Ransomware 2025

Principais conclusões sobre a experiência e o impacto do ransomware nas organizações em todo o mundo

Obtenha o relatório

Segurança de Vulnerabilidades Geridas: Remediação mais rápida, menos riscos, conformidade mais fácil

Veja como pode ser fácil encontrar as vulnerabilidades que os cibercriminosos querem explorar

ASSISTA AO WEBINAR