Contexto del Rol
La organización está en proceso de migrar una plataforma de datos en AWS (Glue, RDS y DMS) hacia Databricks, con el objetivo de estandarizar un Data Lakehouse unificado en Delta Lake, optimizar costos y habilitar analítica avanzada y autoservicio en herramientas como ThoughtSpot.
El arquitecto será el responsable técnico y estratégico de diseñar, liderar y ejecutar la implementación End-to-End (E2E) de Databricks, asegurando escalabilidad multi-tenant, operación en múltiples regiones y adopción de mejores prácticas de gobierno, costos y optimización.
Responsabilidades Clave
Diseño e Implementación E2E en Databricks
- Diseñar la arquitectura multi-tenant y multi-región bajo Unity Catalog y modelos de gobierno centralizado.
- Liderar la migración de pipelines ETL/ELT desde AWS Glue y DMS hacia jobs nativos de Databricks.
- Definir la arquitectura de Bronze/Silver/Gold layers sobre Delta Lake.
- Implementar CI/CD con Terraform y repositorios versionados.
Migración de Datos y Workloads
- Migrar cargas históricas desde RDS/MySQL y Glue hacia Delta Lake.
- Implementar procesos de carga incremental y near-real time en Databricks.
- Definir estrategias de particionamiento y clustering para tablas grandes (Z-Ordering, Liquid Clustering).
Optimización y Performance
- Optimizar jobs en PySpark asegurando ejecución distribuida y eficiente.
- Diseñar y aplicar estrategias de optimización en Delta Lake: caching, OPTIMIZE, ZORDER, auto-compaction.
- Analizar planes de ejecución y resolver cuellos de botella en queries.
- Prever estrategias de archivado y cold storage para optimizar costos.
Gestión de Costos y Consumos
- Definir y monitorear políticas de cost management en Databricks (DBUs, cluster autoscaling, spot instances).
- Estimar consumos y dimensionar clústeres según patrones de carga (ingestión diaria, consultas de BI)
- Implementar monitoreo de costos en tiempo real para prevenir sobreconsumos.
Gobernanza y Seguridad
- Implementar Unity Catalog para gobierno multi-tenant, permisos finos y auditoría.
- Establecer políticas de versionado, linaje de datos y control de acceso basado en roles.
- Garantizar el cumplimiento de estándares de seguridad y regulaciones aplicables.
Liderazgo Técnico y Metodología Ágil
- Guiar a un equipo multidisciplinario de data engineers y analistas hacia la adopción de Databricks.
- Promover buenas prácticas de desarrollo ágil (Scrum/Kanban), revisiones de código y documentación técnica.
- Colaborar estrechamente con Product Owners, BI y áreas de negocio para traducir requerimientos en soluciones escalables.
Conocimiento y habilidades requeridas
- Databricks Avanzado: Unity Catalog, Delta Lake, DBSQL, Workflows, Repos.
- Optimización de PySpark: tuning de jobs, particionamiento, paralelismo, broadcast joins.
- Delta Lake: Z-Ordering, Liquid Clustering, OPTIMIZE, auto-compaction, time travel.
- Infraestructura Cloud: experiencia con AWS (Glue, RDS, DMS) y migración hacia Databricks.
- Gobierno y Multi-Region: diseño multi-cloud / multi-región, control de costos, arquitectura resiliente.
- DevOps y CI/CD: Terraform, GitHub, automatización de despliegues.
- Cost Management: experiencia en estimación, control y optimización de DBUs y almacenamiento.
- Metodologías Ágiles: liderazgo técnico en entornos ágiles, facilitación de squads multidisciplinarios.
- Inglés Avanzado