Módulo 5: La Arquitectura Lakehouse

Unificando el Data Lake y el Data Warehouse

Agenda del Módulo

  1. El Problema: El dilema histórico de las dos plataformas (DW vs DL).
  2. La Solución: ¿Qué es y por qué necesitamos una Arquitectura Lakehouse?
  3. La Tecnología Clave: Entendiendo el rol de Delta Lake.
  4. El Patrón de Implementación: La Arquitectura Medallion paso a paso.
  5. Manos a la Obra: Conectando la teoría con nuestro taller práctico.

El Dilema Histórico: Dos Mundos Separados

Data Warehouse

  • Ideal para: Business Intelligence (BI) y reporting.
  • Fortaleza: Datos estructurados, fiables y consistentes.
  • Debilidad: Rígido, costoso y no apto para datos no estructurados o Machine Learning.

Data Lake

  • Ideal para: Big Data y Machine Learning (ML).
  • Fortaleza: Flexible, escalable y económico. Almacena cualquier tipo de dato.
  • Debilidad: Propenso al caos ("Data Swamp"), sin garantías de fiabilidad (ACID).

El resultado: silos de datos, duplicación de información y complejidad.

Las Consecuencias de un Sistema Dividido

Esta separación crea fricción y problemas graves a medida que una organización madura:

Duplicación de Datos y Costos

Los mismos datos se copian y procesan dos veces: una para el DW y otra para el DL, aumentando los costos de almacenamiento y cómputo.

Datos Viejos (Stale Data)

El proceso de mover y transformar datos al DW (ETL) es lento. Las decisiones de negocio a menudo se toman con datos que tienen horas o incluso días de antigüedad.

La Solución: La Arquitectura Lakehouse

Es un nuevo paradigma de arquitectura de datos que combina lo mejor de ambos mundos: la flexibilidad y escalabilidad de un Data Lake con la fiabilidad, estructura y rendimiento de un Data Warehouse.

Permite tener una única fuente de datos para BI y Machine Learning directamente sobre el Data Lake.

La Tecnología Clave: Delta Lake

La magia de la Lakehouse es posible gracias a una capa de almacenamiento de código abierto llamada Delta Lake.

Delta Lake se asienta sobre tu Data Lake existente (como Amazon S3 o Azure Data Lake Storage) y le añade superpoderes que antes solo existían en los Data Warehouses:

  • Transacciones ACID: Garantiza que tus operaciones sobre los datos sean fiables.
  • Time Travel: Permite consultar versiones anteriores de tus datos o deshacer cambios.
  • Schema Enforcement: Evita que datos de mala calidad corrompan tus tablas.
  • Soporte para DML: Permite `UPDATES`, `DELETES` y `MERGES` directamente sobre el Data Lake.

El Patrón de Implementación: Arquitectura Medallion

No basta con tener la tecnología. Necesitamos un método para organizar los datos. La Arquitectura Medallion es un patrón que organiza los datos en tres capas de calidad incremental.

🥉

Capa Bronze: Datos Crudos (La Pista de Aterrizaje)

Es la primera parada de los datos. La información se ingesta desde los sistemas de origen y se almacena en su formato nativo, sin procesar.

  • Objetivo: Preservar un archivo histórico inmutable de todos los datos que han llegado.
  • Estructura: La misma que la del sistema de origen (Schema-on-read).
  • Técnica: Append-only (solo se añaden datos, nunca se modifican).

La Transformación: de Bronze a Silver

Este es el paso más crítico del pipeline. Aquí es donde los datos crudos y poco confiables se convierten en un activo empresarial valioso. Las tareas clave incluyen:

  • Limpieza: Manejo de valores nulos, corrección de formatos.
  • Validación: Aplicación de reglas de negocio y "quality gates" para descartar datos malos.
  • Enriquecimiento: Unión de datos de diferentes fuentes (ej. pedidos con clientes).
  • Modelado: Estructuración de los datos en un modelo consistente (ej. esquema en estrella).
🥈

Capa Silver: La Fuente de la Verdad

Aquí es donde los datos se transforman en un activo confiable. Los datos de la capa Bronze se limpian, validan, conforman y modelan.

  • Objetivo: Crear una "fuente única de la verdad" para toda la empresa.
  • Estructura: Modelada para el análisis (ej. Esquema en Estrella con hechos y dimensiones).
  • Usuarios: Ingenieros, científicos y analistas de datos.

La Transformación: de Silver a Gold

Esta transformación se enfoca en el rendimiento y la facilidad de uso para el negocio. Tomamos la "fuente de la verdad" de la capa Silver y creamos vistas específicas y agregadas.

-- Ejemplo: Tomamos la tabla de hechos y la de clientes (Silver)...
-- ... y creamos una tabla pre-agregada con las ventas por estado (Gold).

CREATE TABLE gold.ventas_por_estado AS
SELECT c.estado, SUM(f.total_venta) AS ventas_totales
FROM silver.hechos_ventas f
JOIN silver.dim_clientes c ON f.cliente_id = c.id
GROUP BY c.estado;
🥇

Capa Gold: Lista para el Negocio (El Plato Servido)

Es la capa final, optimizada para el consumo. Contiene tablas agregadas y específicas para un caso de uso de negocio.

  • Objetivo: Potenciar el BI, el reporting y el ML con tablas de alto rendimiento.
  • Estructura: Altamente desnormalizada y específica del proyecto (ej. `resumen_ventas_mensual`).
  • Usuarios: Analistas de negocio y usuarios finales de dashboards.

¿Quién Usa Cada Capa?

Bronze

Ingenieros de Datos

Silver

Científicos de Datos
Analistas Avanzados

Gold

Analistas de Negocio
Usuarios de BI

El Flujo Completo en Acción

Así se ve el panorama completo: desde las fuentes de datos hasta los consumidores finales, todo sobre una única plataforma y una única copia de los datos.

Resumen: Beneficios del Enfoque Medallion

  • Simplicidad: Proporciona una estructura clara y fácil de entender para organizar el Data Lake.
  • Fiabilidad: Garantiza la calidad y la integridad de los datos a través de validaciones incrementales.
  • Flexibilidad: Permite a diferentes tipos de usuarios trabajar con los datos en el nivel de refinamiento que necesitan.
  • Eficiencia: Evita la duplicación de datos y el reprocesamiento innecesario, ahorrando tiempo y costos.

¡Ahora, a la Práctica!

Ahora que entendemos la teoría de la Lakehouse y el patrón Medallion en profundidad, vamos a aplicarlo.

En nuestro taller, hemos estado haciendo exactamente esto: tomar los datos crudos (Bronze), construir un modelo en estrella (Silver) y crear agregados de negocio (Gold).