Kylin es un motor distribuido Analítico, Open Source, desarrollado por eBay Inc. Que constituye una de las tecnologías más vanguardistas del espectro tecnológico Big Data.
Kylin se caracteriza por ser un motor extremadamente rápido OLAP de escala. Está diseñado para reducir la latencia de consulta en Hadoop en más de 10 para miles de millones de filas de datos usando arquitectura MOLAP.
Hemos estado trabajando con los compañeros de Stratebi con Kylin y lo hemos conectado con Tableau, via ODBC. El siguiente objetivo será conectarlo con Pentaho, en cuanto esté el driver jdbc. Os contamos:
- Kylin lo que busca es ser un motor el cual coge datos que están en Rolap (Hadoop) y te los sube a un Molap (Hbase) haciendo consultas SQL con Hive a Hadoop. Así, es transparente al usuario. Simplemente hay que tener un esquema físico y unas tablas Rolap en Hive+Hadoop y él se encarga de hacer las transformaciones y todo el volcado y llenado de modelos Molap .
- En el entorno de Kylin bien, en principio te viene 2 cubos de prueba pero sin acabar. Vienen dos scripts de llenado en hadoop de datos. Son 4 o 5 tablas. Este cubo hay que completarlo, pues así ves el proceso de creación transofrmación de ROLAP a MOLAP.
- Al ir avanzando vas entendiendo que lo unico que haces es mapear las tablas físicas a un cubo, muy al estilo del Schema Workbench con Pentaho. El tema es que cuando pulsas "generar" lo que se hace es crear una estructura Molap en Hbase. Se crean tablas específicas y procesos ETLs (queries SQLs que cogen datos y agregan al Hbase).
1) información del cubo
2) Mapeo dimensiones
3) mapeo kpis
4) Establecemos filtros
5) Gestor de actualización
6) Propiedades avanzadas
7) último paso final de review
8) aceptamos y ahora es cuando se lanzan todos los procesos por debajo. Hasta ahora ha sido una especie de schema workbench
Se puede visualizar el esquema fisico en formato arbol
Se lanzan unos jobs de construcción de Rolap->Molap
Ese job te da una serie de indicaciones de lo que está haciendo y su % de completitud, fijate en la zona derecha que hay como un timeline
Ese timeline lo que detalla son los diferentes trabajos que está ejecutando. Procesos de creación de tablas auxiliares en Hive, construcción de sqls y volcado al Molap en Hbase
Este es el estado final de todo:
Roadmap: