Scale and Optimize Data Engineering Pipelines with Best Practices: Modularity and Automated Testing

Spark + AI Summit by Databricks 2020

View Slides

In a landscape of rapid change, companies often construct ETL pipelines with ad-hoc methods. This thwarts automated data reliability testing and necessitates labor-intensive manual ETL oversight.

By applying software engineering principles to data pipelines, code dependency is decoupled, enabling automated testing. Engineers gain the ability to architect, deploy, and deliver dependable data in a modular fashion, fostering ETL codebase reusability and maintenance.

This presentation addresses data engineers' challenges in ensuring data reliability. It showcases how software engineering best practices facilitate modular code creation and automated testing for contemporary data engineering pipelines.

Key Takeaways

1, ETL projects benefit from software engineering best practices: encompassing design patterns and modularity.
2, Automation of ETL testing ensures data reliability: spanning unit, functional, and end-to-end testing.

Data engineering pipelines
Modularity
Automated testing
Data reliability
Software engineering principles