Sélectionner la langue

French

Down Icon

Sélectionnez un pays

England

Down Icon

Le framework ETL déclaratif open source de Databricks permet des builds de pipeline 90 % plus rapides

Le framework ETL déclaratif open source de Databricks permet des builds de pipeline 90 % plus rapides

Participez à l'événement auquel les chefs d'entreprise font confiance depuis près de deux décennies. VB Transform rassemble les personnes qui élaborent de véritables stratégies d'IA pour les entreprises. En savoir plus

Aujourd'hui, lors de son sommet annuel Data + AI , Databricks a annoncé qu'il ouvrait le code source de son framework ETL déclaratif principal sous le nom d'Apache Spark Declarative Pipelines, le rendant ainsi disponible à l'ensemble de la communauté Apache Spark dans une prochaine version.

Databricks a lancé le framework sous le nom de Delta Live Tables (DLT) en 2022 et l'a depuis étendu pour aider les équipes à créer et exploiter des pipelines de données fiables et évolutifs de bout en bout. Son passage à l'open source renforce l'engagement de l'entreprise en faveur des écosystèmes ouverts et marque une volonté de surpasser son concurrent Snowflake, qui a récemment lancé son propre service Openflow pour l'intégration de données, un élément crucial de l'ingénierie des données.

L'offre de Snowflake exploite Apache NiFi pour centraliser toutes les données de n'importe quelle source dans sa plateforme, tandis que Databricks ouvre sa technologie d'ingénierie de pipeline interne, permettant aux utilisateurs de l'exécuter partout où Apache Spark est pris en charge - et pas seulement sur sa propre plateforme.

Traditionnellement, l’ingénierie des données a été associée à trois principaux problèmes : la création de pipelines complexes, les frais généraux liés aux opérations manuelles et la nécessité de maintenir des systèmes distincts pour les charges de travail par lots et en streaming.

Avec Spark Declarative Pipelines, les ingénieurs décrivent les actions de leur pipeline en SQL ou Python, et Apache Spark se charge de l'exécution. Le framework suit automatiquement les dépendances entre les tables, gère la création et l'évolution des tables, et gère les tâches opérationnelles telles que l'exécution parallèle, les points de contrôle et les nouvelles tentatives en production.

« Vous déclarez une série d'ensembles de données et de flux de données, et Apache Spark détermine le bon plan d'exécution », a déclaré Michael Armbrust, ingénieur logiciel distingué chez Databricks, dans une interview avec VentureBeat.

Le framework prend en charge les données par lots, en streaming et semi-structurées, y compris les fichiers provenant de systèmes de stockage d'objets comme Amazon S3, ADLS ou GCS, et ce, dès sa configuration initiale. Les ingénieurs doivent simplement définir les traitements en temps réel et périodiques via une API unique, les définitions de pipeline étant validées avant exécution pour détecter les problèmes en amont ; inutile de gérer des systèmes distincts.

« Il est conçu pour les réalités des données modernes, comme les flux de données de changement, les bus de messages et les analyses en temps réel qui alimentent les systèmes d'IA. Si Apache Spark peut les traiter (les données), ces pipelines peuvent les gérer », a expliqué Armbrust. Il a ajouté que l'approche déclarative constitue la dernière initiative de Databricks pour simplifier Apache Spark.

« Nous avons d'abord rendu le calcul distribué fonctionnel grâce aux RDD (ensembles de données distribués résilients). Ensuite, nous avons rendu l'exécution des requêtes déclarative avec Spark SQL. Nous avons appliqué ce même modèle au streaming avec Structured Streaming et avons rendu le stockage cloud transactionnel avec Delta Lake. Nous franchissons maintenant une nouvelle étape en rendant les pipelines de bout en bout déclaratifs », a-t-il déclaré.

Bien que le framework de pipeline déclaratif soit destiné à être intégré à la base de code Spark, ses prouesses sont déjà connues de milliers d'entreprises qui l'ont utilisé dans le cadre de la solution Lakeflow de Databricks pour gérer des charges de travail allant des rapports par lots quotidiens aux applications de streaming en moins d'une seconde.

Les avantages sont assez similaires dans tous les domaines : vous perdez beaucoup moins de temps à développer des pipelines ou à effectuer des tâches de maintenance et obtenez de bien meilleures performances, une latence ou un coût bien meilleur, en fonction de ce que vous souhaitez optimiser.

L'entreprise de services financiers Block a utilisé ce framework pour réduire son temps de développement de plus de 90 %, tandis que la Navy Federal Credit Union a réduit le temps de maintenance de ses pipelines de 99 %. Le moteur Spark Structured Streaming, sur lequel reposent les pipelines déclaratifs, permet aux équipes d'adapter ces derniers à leurs latences spécifiques, jusqu'au streaming en temps réel.

« En tant que responsable de l'ingénierie, j'apprécie que mes ingénieurs puissent se concentrer sur l'essentiel pour l'entreprise », a déclaré Jian Zhou, responsable principal de l'ingénierie chez Navy Federal Credit Union. « C'est passionnant de voir ce niveau d'innovation désormais disponible en open source, le rendant accessible à encore plus d'équipes. »

Brad Turnbaugh, ingénieur de données senior chez 84.51°, a noté que le framework a « facilité la prise en charge du traitement par lots et du streaming sans assembler des systèmes séparés » tout en réduisant la quantité de code que son équipe doit gérer.

Snowflake, l'un des principaux concurrents de Databricks, a également pris des mesures lors de sa récente conférence pour relever les défis liés aux données, en lançant un service d'ingestion appelé Openflow. Cependant, son approche diffère légèrement de celle de Databricks en termes de portée.

Openflow, basé sur Apache NiFi, se concentre principalement sur l'intégration et le transfert des données vers la plateforme Snowflake. Les utilisateurs doivent encore nettoyer, transformer et agréger les données une fois qu'elles arrivent dans Snowflake. Spark Declarative Pipelines, quant à lui, va plus loin en passant de la source aux données exploitables.

« Spark Declarative Pipelines est conçu pour permettre aux utilisateurs de créer des pipelines de données de bout en bout, en se concentrant sur la simplification de la transformation des données et les opérations de pipeline complexes qui sous-tendent ces transformations », a déclaré Armbrust.

Le caractère open source de Spark Declarative Pipelines le distingue également des solutions propriétaires. Les utilisateurs n'ont pas besoin d'être clients de Databricks pour exploiter cette technologie, ce qui s'inscrit dans la lignée de l'expérience de l'entreprise en matière de contribution à des projets majeurs tels que Delta Lake, MLflow et Unity Catalog au sein de la communauté open source.

Les pipelines déclaratifs Apache Spark seront intégrés à la base de code d'Apache Spark dans une prochaine version. Le calendrier exact reste toutefois incertain.

« Nous étions enthousiastes à l'idée de rendre notre framework de pipeline déclaratif open source dès son lancement », a déclaré Armbrust. « Au cours des trois dernières années, nous avons beaucoup appris sur les modèles les plus performants et corrigé ceux qui nécessitaient des ajustements. Il est désormais éprouvé et prêt à prospérer en open source. »

Le déploiement open source coïncide également avec la disponibilité générale de Databricks Lakeflow Declarative Pipelines, la version commerciale de la technologie qui inclut des fonctionnalités et un support d'entreprise supplémentaires.

Le sommet Databricks Data + AI se déroule du 9 au 12 juin 2025

Informations quotidiennes sur les cas d'utilisation métier avec VB Daily

Si vous souhaitez impressionner votre patron, VB Daily a tout prévu. Nous vous présentons en avant-première les avancées des entreprises en matière d'IA générative, des évolutions réglementaires aux déploiements pratiques, afin que vous puissiez partager vos idées pour un retour sur investissement maximal.

Lisez notre politique de confidentialité

Merci de votre abonnement. Découvrez d'autres newsletters VB ici .

Une erreur s'est produite.

venturebeat

venturebeat

Nouvelles similaires

Toutes les actualités
Animated ArrowAnimated ArrowAnimated Arrow