Seleccione idioma

Spanish

Down Icon

Seleccione país

England

Down Icon

El marco ETL declarativo de código abierto de Databricks permite compilaciones de pipeline un 90 % más rápidas

El marco ETL declarativo de código abierto de Databricks permite compilaciones de pipeline un 90 % más rápidas

Únase al evento en el que los líderes empresariales confían desde hace casi dos décadas. VB Transform reúne a quienes desarrollan una verdadera estrategia de IA empresarial. Más información.

Hoy, en su cumbre anual Data + AI , Databricks anunció que está abriendo el código fuente de su marco ETL declarativo central como Apache Spark Declarative Pipelines, poniéndolo a disposición de toda la comunidad Apache Spark en una próxima versión.

Databricks lanzó el marco de trabajo como Delta Live Tables (DLT) en 2022 y desde entonces lo ha ampliado para ayudar a los equipos a construir y operar canales de datos fiables y escalables de principio a fin. La transición al código abierto refuerza el compromiso de la empresa con los ecosistemas abiertos, a la vez que marca un esfuerzo por superar a su rival Snowflake, que recientemente lanzó su propio servicio Openflow para la integración de datos, un componente crucial de la ingeniería de datos.

La oferta de Snowflake aprovecha Apache NiFi para centralizar cualquier dato de cualquier fuente en su plataforma, mientras que Databricks está haciendo que su tecnología de ingeniería de canalizaciones interna sea abierta, lo que permite a los usuarios ejecutarla en cualquier lugar donde se admita Apache Spark, y no solo en su propia plataforma.

Tradicionalmente, la ingeniería de datos se ha asociado con tres puntos críticos principales: creación de pipelines complejos, sobrecarga de operaciones manuales y la necesidad de mantener sistemas separados para cargas de trabajo por lotes y en streaming.

Con Spark Declarative Pipelines, los ingenieros describen la función de su pipeline mediante SQL o Python, y Apache Spark gestiona la ejecución. El framework rastrea automáticamente las dependencias entre tablas, gestiona la creación y evolución de tablas, y gestiona tareas operativas como la ejecución paralela, los puntos de control y los reintentos en producción.

“Declaras una serie de conjuntos de datos y flujos de datos, y Apache Spark determina el plan de ejecución adecuado”, dijo Michael Armbrust, distinguido ingeniero de software de Databricks, en una entrevista con VentureBeat.

El framework admite datos por lotes, en streaming y semiestructurados, incluyendo archivos de sistemas de almacenamiento de objetos como Amazon S3, ADLS o GCS, de forma predeterminada. Los ingenieros simplemente tienen que definir el procesamiento en tiempo real y periódico a través de una única API, con definiciones de canalización validadas antes de la ejecución para detectar problemas de forma temprana, sin necesidad de mantener sistemas separados.

“Está diseñado para las realidades de los datos modernos, como las fuentes de datos de cambios, los buses de mensajes y los análisis en tiempo real que impulsan los sistemas de IA. Si Apache Spark puede procesarlos (los datos), estas canalizaciones pueden gestionarlos”, explicó Armbrust. Añadió que el enfoque declarativo representa el último esfuerzo de Databricks para simplificar Apache Spark.

Primero, hicimos que la computación distribuida fuera funcional con RDD (conjuntos de datos distribuidos resilientes). Luego, hicimos que la ejecución de consultas fuera declarativa con Spark SQL. Aplicamos ese mismo modelo al streaming con Structured Streaming y convertimos el almacenamiento en la nube en transaccional con Delta Lake. Ahora, estamos dando el siguiente paso: hacer que las canalizaciones de extremo a extremo sean declarativas.

Si bien el marco de canalización declarativa se integrará al código base de Spark, su capacidad ya es conocida por miles de empresas que lo han utilizado como parte de la solución Lakeflow de Databricks para manejar cargas de trabajo que van desde informes de lotes diarios hasta aplicaciones de transmisión de fracciones de segundo.

Los beneficios son bastante similares en todos los ámbitos: pierdes mucho menos tiempo desarrollando pipelines o en tareas de mantenimiento y logras un rendimiento, una latencia o un costo mucho mejores, dependiendo de lo que quieras optimizar.

La empresa de servicios financieros Block utilizó el framework para reducir el tiempo de desarrollo en más del 90%, mientras que Navy Federal Credit Union redujo el tiempo de mantenimiento de sus pipelines en un 99%. El motor de Streaming Estructurado Spark, sobre el que se construyen los pipelines declarativos, permite a los equipos adaptar los pipelines a sus latencias específicas, incluyendo la transmisión en tiempo real.

“Como gerente de ingeniería, me encanta que mis ingenieros puedan centrarse en lo más importante para la empresa”, afirmó Jian Zhou, gerente sénior de ingeniería de Navy Federal Credit Union. “Es emocionante ver que este nivel de innovación ahora está disponible en código abierto, lo que lo hace accesible a aún más equipos”.

Brad Turnbaugh, ingeniero de datos sénior de 84.51°, señaló que el marco "ha facilitado la compatibilidad tanto con lotes como con transmisión sin necesidad de unir sistemas separados", al tiempo que reduce la cantidad de código que su equipo debe administrar.

Snowflake, uno de los mayores rivales de Databricks, también ha tomado medidas en su reciente conferencia para abordar los desafíos de los datos, presentando un servicio de ingesta llamado Openflow. Sin embargo, su enfoque es ligeramente diferente al de Databricks en cuanto a alcance.

Openflow, basado en Apache NiFi, se centra principalmente en la integración y el traslado de datos a la plataforma Snowflake. Los usuarios aún necesitan limpiar, transformar y agregar los datos una vez que llegan a Snowflake. Spark Declarative Pipelines, por otro lado, va más allá, conectando la fuente con los datos utilizables.

“Spark Declarative Pipelines está diseñado para permitir a los usuarios crear canales de datos de extremo a extremo, centrándose en la simplificación de la transformación de datos y las complejas operaciones de canalización que sustentan dichas transformaciones”, afirmó Armbrust.

La naturaleza de código abierto de Spark Declarative Pipelines también lo diferencia de las soluciones propietarias. Los usuarios no necesitan ser clientes de Databricks para aprovechar la tecnología, lo que coincide con la trayectoria de la compañía de contribuir a la comunidad de código abierto con proyectos importantes como Delta Lake, MLflow y Unity Catalog.

Las canalizaciones declarativas de Apache Spark se incorporarán al código base de Apache Spark en una próxima versión. Sin embargo, el plazo exacto aún no está claro.

“Nos ha entusiasmado la posibilidad de publicar nuestro framework de pipeline declarativo en código abierto desde su lanzamiento”, afirmó Armbrust. “Durante los últimos tres años, hemos aprendido mucho sobre los patrones que mejor funcionan y hemos corregido los que necesitaban ajustes. Ahora está probado y listo para prosperar en el ámbito público”.

El lanzamiento de código abierto también coincide con la disponibilidad general de Databricks Lakeflow Declarative Pipelines, la versión comercial de la tecnología que incluye características y soporte empresarial adicionales.

La cumbre Databricks Data + AI se celebrará del 9 al 12 de junio de 2025.

Perspectivas diarias sobre casos de uso empresarial con VB Daily

Si quieres impresionar a tu jefe, VB Daily te tiene cubierto. Te ofrecemos información exclusiva sobre lo que las empresas están haciendo con la IA generativa, desde cambios regulatorios hasta implementaciones prácticas, para que puedas compartir tus conocimientos y maximizar el retorno de la inversión.

Lea nuestra Política de Privacidad

Gracias por suscribirte. Consulta más boletines de VB aquí .

Se produjo un error.

venturebeat

venturebeat

Noticias similares

Todas las noticias
Animated ArrowAnimated ArrowAnimated Arrow