Metodologias Agiles para Analytics (Business Intelligence, Big Data)

February 25, 2018, 10:20 pm

≫ Next: Quieres trabajar en Big Data/Analytics y tienes ganas de aprender?

≪ Previous: Principales tendencias de Visualizacion de Datos para 2018

En este post, os vamos a contar como hacer proyectos ágiles en Analytics (Business Intelligence/Big Data Analytics). Realmente, os vamos a contar unos tips o consejos que cada vez más usamos y que nos cuenta Emilio Arias de Stratebi.

Tradicionalmente, este enfoque se ha aplicado más a proyectos en los que el componente de 'desarrollo' tiene un peso muy importante y se hace muy difícil aplicarlo al BI/DW, donde los requisitos, el manejo de datos de negocio y la participación de perfiles de interlocutores muy diversos lo hace muy difícil.

A. El enfoque tradicional de planificación en BI/DW

- La planificación de proyectos en cascada (con diagramas de Gantt) que todos conocéis (lleva usándose más de 70 años) se ha demostrado imperfecto a la hora de conseguir que un proyecto BI sea exitoso. Que quiere decir 'un proyecto BI exitoso'? quiere decir 'que se use' por la mayor parte de la organización y es porque les ofrece 'lo que necesitan'

- Los diferentes planteamientos teóricos de construcción (Kimball, Inmon, Data Vault) se han demostrado muy útiles para reflejar el diagrama de modelos y almacenes de datos, pero la ejecución en el día a día, nos ha demostrado que se requieren enfoques ágiles para llevarlos a la práctica

- Los problemas surgen pues 'Cómo se había hecho una planificación', 'con muchos meses por delante', cuando surge un problema de arquitectura, de volumen, cambio de requerimientos, mejoras de software... el encaje y respuesta rápida se hace imposible

- Al ser proyectos con un alcance ya cerrado y difícil de cambiar, 'proyectos caja negra', los usuarios e interesados en el proyecto no lo sienten como suyo, generando reticencias sobre su uso, al no sentirse partícipes, pues sus propuestas y sugerencias, 'suelen llegar tarde'

B. Los 20 puntos clave para un proyecto Agile BI/DW

1. Haz prototipos (antes, durante y después). No dejes de hacerlos, son la mejor herramienta para garantizar que se va en el buen camino

2. Ten un entorno preparado para los prototipos rápidos (entorno en la nube, componentes predefinidos, procesos automatizados...)

3. Usa metodologías ágiles. Hay muchas... (scrum...), lo más importante es el cambio de mentalidad y empezar a usarlas

4. La regla de oro: mejor rehacer un 30% ahora que un 100% dentro de 6 meses. No tengas miedo a que te hagan cambios en los prototipos. Siempre será mejor que ir a ciegas

5. Todo el equipo se siente implicado desde el momento inicial. Y sienten que sus opiniones cuentan

6. La tradicional batalla entre usuarios-IT-Consultores, por sus diferentes prioridades, se minimiza al colaborar desde momentos muy tempranos y con la tranquilidad de que 'hay tiempo para corregir errores'

7. En este tipo de proyectos, encontrar un 'product owner' es complicado, pero lo tenéis que hacer. Debe ser de negocio

8. Solventa cuanto antes los puntos de fricción 'top-down', 'down-top', desde la importancia de la calidad del datos, los procesos ETL y los metadatos a los análisis de negocio en tiempo real, KPIs, etc... (en el punto intermedio, todos los participantes deberán alinearse)

9. Haz los planes de pruebas no al final, sino al día siguiente de empezar

10. Necesitas un Project Manager (el que está al tanto de todo, conoce a todos, convoca y resume las reuniones, etc...) Necesitas una cabeza visible y clara que todos 'identifiquen con el proyecto'

11. Mide y cuenta los avances, genera satisfacción con lo conseguido

12. Reuniones breves al principio de cada día y más amplias cada semana

13. Nunca pongas la presentación de un hito, avance, etc.. un lunes por la mañana (es de malos gestores, contar con el fin de semana de colchón) y genera ansiedades

14. Usa el BI (cubos, dashboards..) de forma ágil para validar rápidamente la calidad de los datos, tiempos de ejecución, etc... BI por partida doble

15. Deja que los usuarios se acerquen al BI. Desde las fases iniciales pierde el miedo a que accedan, toquen, rompan, se frustren, se sorprendan, se quejen de lo que van viendo...

16. No dejes el diseño y usabilidad para el final. Aunque pienses que es secundario y posterior, deber ir paralelo al desarrollo. Si no lo haces, la implicación de usuarios decaerá enormemente

17. Con AgileBI vas a tener que seguir documentando (de otra forma, con herramientas online (trello, podio, etc...), pero lo harás

18. Con AgileBI se necesita más disciplina, no menos. Esto es muy importante. Se asocia a cierto caos y es todo lo contrario. Se trata de trabajar como los mecánicos que cambian las ruedas en Formula 1

19. Tienes que tener a la gente motivada en el proyecto (esto se consigue con todo lo anterior), pero si haces todo lo anterior y no están motivados, 'el problema eres tú'

20. Un proyecto BI/DW nunca, nunca, nunca se acaba. Si lo das por acabado, también será un fracaso

Adenda: Si usas BI Open Source (por su flexibilidad, ahorro de costes e integración), tienes 'muchos' más puntos para conseguir tu objetivo

Te puede interesar:

- Big Data para Dummies
- Comparativa de herramientas Business Intelligence
- Descarga gratuita del Libro de un buen amigo y gran especialista, Roberto Canales: 'Transformacion Digital y Metodologías Agiles'
- Así se convierten los datos en conocimiento
- Como aprender Big Data en dos horas

↧

Quieres trabajar en Big Data/Analytics y tienes ganas de aprender?

March 1, 2018, 2:37 am

≫ Next: Verdades y Mitos sobre el Business Intelligence

≪ Previous: Metodologias Agiles para Analytics (Business Intelligence, Big Data)

Tenemos un plan de formación y carrera para profesionales con una base inicial y muchas ganas de aprender. Escríbenos a rrhh@stratebi.com (Marzo 2018)

Podrás participar en proyectos y en desarrollos con las tecnologías más modernas, como Dashboards en tiempo real.
Hemos creado también la solución LinceBI, que está revolucionando el Business Intelligence basado en open source

El trabajo puede ser presencial en Madrid o remoto, en cualquier parte del globo, :-)

Ejemplo de Wall Dashboard real time que desarrollamos

· Requisitos:

o Descripción: Una persona con interés en Business Intelligence y Big Data, no es necesaria mucha experiencia, pero con ganas de aprender y formar equipo. Por ejemplo, i), una persona que acabe de terminar una Ingeniería Informática y/o su trabajo de fin de carrera sea sobre Big Data/Business Intelligence, ii), una persona que esté haciendo I+D en Big Data/Business Intelligence o iii), que haya hecho un máster en Big Data/Business Intelligence o tenga algunos años de experiencia y quiera avanzar en su carrera

o Salario: Según valía

o Habilidades recomendadas:

· Conocimientos teóricos básicos de Big Data.

o Qué es el Big Data.

o Debe tener claro el paradigma Map Reduce.

· Conocimientos teóricos básicos de las siguientes tecnologías de arquitectura Hadoop.

o HDFS

o Spark

· Conocimientos teóricos sobre Machine Learning.

· Programación en i) Python y ii) Scala o Java para Machine Learning, con mínima experiencia demostrable

· Conocimiento de Bases de Datos

o Soltura con lenguaje SQL.

o Modelado relacional.

o Experiencia mínima demostrable en al menos uno de los siguientes SGBD:

§ MySQL

§ PostgreSQL

§ Microsoft SQLServer

§ Oracle

§ Opcionales (alguno de estos conocimientos serían muy interesantes):

· (+) Conocimientos teóricos básicos de arquitectura Hadoop.

o Hive

o HBase

o Kafka

o Flume

o Distribuciones Cloudera o Hortonworks:

§ Características

§ Instalación.

· Conocimientos teóricos Business Intelligence

o Teoría de Data Warehouses.

§ Modelado en estrella.

· Experiencia con alguna herramienta de ETL.

o Ideal con Pentaho Data Integration o Talend

o Cualquier otra.

· Experiencia en diseño y carga de un Data Warehouse.

↧

Verdades y Mitos sobre el Business Intelligence

March 1, 2018, 7:51 am

≫ Next: Curso gratuito de Machine Learning por Google

≪ Previous: Quieres trabajar en Big Data/Analytics y tienes ganas de aprender?

Interesante:

↧

Curso gratuito de Machine Learning por Google

March 3, 2018, 9:54 am

≫ Next: x50 faster 'near real time' Big Data OLAP Analytics Architecture

≪ Previous: Verdades y Mitos sobre el Business Intelligence

Gran curso el que ofrece Google sobre Machine Learning, aprendizaje automático. Os lo recomendamos (Curso)

Mas sobre Machine Learning:

- Las 53 claves para conocer Machine Learning

↧

x50 faster 'near real time' Big Data OLAP Analytics Architecture

March 5, 2018, 7:18 am

≫ Next: Todas las novedades del Pentaho User Meeeting (PUM18) en Frankfurt

≪ Previous: Curso gratuito de Machine Learning por Google

We´ve posted several times about 'near real time analysis' and olap hadoop improved performance, using Apache Kylin, Pentaho, LinceBI tools and other Big Data components

Let us now explain about a real 'user case' where analytics specialized company, Stratebi, has been working (spanish):

Amazon Elastic MapReduce(EMR): Distribución de Hadoop para el despliegue de un clúster de procesamiento y almacenamiento distribuido.
Procesos ETL (minutes):

•Apache Sqoop: carga de datos relacionales (tablas) desde Aurora.

•Apache Hive (con LLAP): consultas de agregación y otras transformaciones (ETL).

•Pentaho Data Integration (PDI) coordinar procesos ETL con diseño visual (abstracción).

Procesos ETL (Real Time): Kafka permite conectar a binlog de Aurora para cargar en Hive o Kylin.
Consultas SQL Ad-Hoc Interactivas (segundos): Apache Hive con tecnología LLAP y conexión con las STTools
Análisis OLAP (milisegundos): Apache Kylin genera cubos M-OLAP que pueden explotados con la herramientas STTools.

Aquí tenéis una buena presentación que muestra el funcionamiento de OLAP en Hadoop y unos cuantos ejemplos:

More info:

- Use Case “Dashboard with Kylin (OLAP Hadoop) & Power BI”
- Cuadros de mando con Tableau y Apache Kylin (OLAP con Big Data)
- BI meet Big Data, a Happy Story
- 7 Ejemplos y Aplicaciones practicas de Big Data
- Analysis Big Data OLAP sobre Hadoop con Apache Kylin
- Real Time Analytics, concepts and tools

- Hadoop Hive y Pentaho: Business Intelligence con Big Data (Caso Practico)

↧

Todas las novedades del Pentaho User Meeeting (PUM18) en Frankfurt

March 7, 2018, 7:17 am

≫ Next: Nueva solucion Machine Intelligence: Pentaho, R, Python y Spark juntos para Machine Learning Analytics

≪ Previous: x50 faster 'near real time' Big Data OLAP Analytics Architecture

Un año más, gran agenda y grandes ponentes en el Pentaho User Meeeting (PUM18) en Frankfurt:

Migrating from Business Objects to Pentaho (CERN, Gabriele Thiede)
Pentaho 8 (Pedro Alves)
Best Practices for Data Integration Architectures (Matt Casters)
Operating Pentaho at Scale (Jens Bleuel)
Running Pentaho in Kubernetes (Nis Christian Carstensen, Netfonds)

Data handling with Pentaho (Marco Menzel, Hansainvest)
IoT and Predictive Analytics (Jonathan Doering, Hitachi Vantara)
Adding Pentaho Dashboards to Angular 5 applications (Francesco Corti, Alfresco)
Predictive Analytics with PDI and R (Dr. David James, it-novum)
Integrating and analyzing SAP data with SAP/Pentaho Connector (Stefan Müller, it-novum)
Analyzing IT service management data with openLighthouse (Dirk Rönsch, it-novum)

En este live blog puedes seguir la explicación de todas ellas

↧

Nueva solucion Machine Intelligence: Pentaho, R, Python y Spark juntos para Machine Learning Analytics

March 10, 2018, 9:28 am

≫ Next: Tutorial: How to Integrate your Jedox Planning Sheet into Microsoft Power BI Reports

≪ Previous: Todas las novedades del Pentaho User Meeeting (PUM18) en Frankfurt

Se acaba de presentar Machine Intelligence: el plugin para Pentaho Data Integration que facilita enormemente la ejecución de algoritmos sobre tecnologías Machine Learning, orquestados desde un completo entorno gráfico ETL

Gracias a este plugin puedes convertir algoritmos de machine learning en 'steps' de PDI desde R, Python, Spark y Weka

Gracias a este plugin consigues de forma sencilla:

Hacer Machine Learning mucho más sencillo de construir, usar y ejecutar, sin necesidad de codificar
Se combina en una sola herramienta las capacidades de integración y 'data preparation' de una herramienta ETL con todas las capacidades de Machine Learning para 'orquestar' los procesos de forma visual y sencilla
Es muy fácilmente extensible, pudiendo añadir nuevos pasos en PDI al componente de Machine Learning

Instalación:

El plugin de Machine Intelligence se puede instalar directamente desde el Marketplace de Pentaho

Nuevos algoritmos añadidos:

Decision Tree Classifier – Weka, Python, Spark & R
Decision Tree Regressor – Weka, Python, Spark & R
Gradient Boosted Trees – Weka, Python, Spark & R
Linear Regression – Weka, Python, Spark & R
Logistic Regression – Weka, Python, Spark & R
Naive Bayes – Weka, Python, Spark & R
Naive Bayes Multinomial – Weka, Python & Spark
Random Forest Classifier – Weka, Python, Spark & R
Random Forest Regressor – Weka, Python & Spark
Support Vector Classifier – Weka, Python, Spark & R
Support Vector Regressor – Weka, Python, & R
Naive Bayes Incremental – Weka

Ejemplos:

A continuación, tenéis dos ejemplos, de detección de fraude en comercios y para monitorización de modelos

Documentación:

PMI_Installation_Linux.pdf	Installation guide for the Linux OS platform.
PMI_Installation_Windows.pdf	Installation guide for the Windows OS platform.
PMI_Installation_Mac_OSX.pdf	Installation guide for Mac OS X platform.
PMI_Developer_Docs.pdf	A developer's guide to extending and contributing to the PMI framework.
PMI_MLChampionChallengeSamples.zip

Saber más:

- Introducing Plug-in Machine Intelligence
- 4-Steps to Machine Learning Model Management

↧

Tutorial: How to Integrate your Jedox Planning Sheet into Microsoft Power BI Reports

March 14, 2018, 1:44 am

≫ Next: Comparativa de tecnologias de streaming en tiempo real

≪ Previous: Nueva solucion Machine Intelligence: Pentaho, R, Python y Spark juntos para Machine Learning Analytics

Muy interesante la integración de dos de nuestras herramientas favoritas: PowerBI y Jedox

↧

Comparativa de tecnologias de streaming en tiempo real

March 16, 2018, 1:31 am

≫ Next: 10 trucos para integrar el Business intelligence dentro de los procesos de negocio.

≪ Previous: Tutorial: How to Integrate your Jedox Planning Sheet into Microsoft Power BI Reports

Tabla de evaluación

En la tabla siguiente se muestra un resumen de la comparativa:

Hoja de referencia rápida

Más abajo se expone una hoja de referencia rápida que puede servir de ayuda a los desarrolladores, como muestra de cada framework, y a los arquitectos, para conocer las características principales de cada herramienta.

Visto en Blog GFT

↧

10 trucos para integrar el Business intelligence dentro de los procesos de negocio.

March 22, 2018, 1:47 am

≫ Next: 15 Errores con los datos que debes evitar

≪ Previous: Comparativa de tecnologias de streaming en tiempo real

El Business Intelligence cada vez esta siendo más considerado como un proceso estratégico, pero se necesita que se pueda aplicar a cada uno de los procesos individuales que ocurren en una empresa.
Sólo de este modo se podrán conseguir los objetivos estratégicos planteados por la dirección y donde el BI nos puede ayudar mucho a conseguirlos.

Estos son 10 trucos que nos pueden venir muy bien para alcanzar el objetivo:

1) Antes de integrar tus sistema BI con otros de tipo operacional o portales de trabajo es necesario que tengamos un sistema coherente en cuanto al nombre de los códigos, que todo se llame igual en todos los sitios, que se usen las mismas métricas y fórmulas, que se usen los mismos intervalos de tiempo, etc... Intenta mantener todos tus metadados en xml.

2) Hay que intentar que todas las herramientas y plataformas utilizadas a lo largo de la empresas sean comunes. Si son del mismo vendedor, incluso mejor.

3) Antes de poner las herramientas disponibles al usuario final, tener toda la estructura integrada. Es decir, se trata definir unos KPI´s comunes, para que si un Director esta consultando un Scorecard o un Dashboard, pueda profundizar hasta el nivel de detalle siguiente ese mismo KPI.

4) Centrar los objetivos del BI en conseguir un único criterio fundamental, en lugar de alcanzar varios de golpe: Ej) reducir los costes operativos.

5) Utilizar una metodología para saber quien usa realmente o puede llegar a usar un sistema BI. A partit de aquí, habrá que dibujar una planificación de roles, dependencias, prioridades, necesidades, etc...

6) No suponer que sólo existe una fórmula para integrar el Business Intelligence. Existen varias, y será preciso conocer muy bien a la organización.

7) Integrar Bi web services utilizando los propios API que proporcionan los vendedores. De este modo podemos incluir portlets y otros componentes en nuestras aplicaciones sin un elevado esfuerzo.

8) Si los usuarios necesitan compartir sus análisis, publicarlos, y otro tipo de necesidades workflow, lo mejor es ubicar soluciones BI dentro de las intranets y portales ya en funcionamiento, para tomar ventaja de todo este entorno colabrativo.

9) Para obtener todas las ventajas de los datos operacionales del negocio, será muy útil aprovecharse de los nuevos desarrollos como las nuevas funciones SQl analíticas, las vistas materializadas, Java Beans, etc...

10) Usar procesos en tiempo real (en la medida de los posible), que junto con el uso de herramientas de monitorización de activades y consultas nos dará un visión muy ajustada del comportamiento de los usuarios.

Bueno, estos consejos (algunos de los cuales parecen obvios) son el punto fundamental, para que una organización se beneficie, 'realmente' del uso del Business Intelligence.

Tags: Teoria
Fuente: Mike Ferguson - Business Intelligence.com

↧

15 Errores con los datos que debes evitar

April 5, 2018, 12:47 am

≫ Next: Un dia en la vida de un Data Scientist

≪ Previous: 10 trucos para integrar el Business intelligence dentro de los procesos de negocio.

Muy interesante esta infografía que puedes descargarte desde aquí, en donde se muestran y explican 15 típicos fallos que nos pueden llevar a tomar malas decisiones cuando trabajamos con datos.

Imprescindible!!

↧

Un dia en la vida de un Data Scientist

April 9, 2018, 2:46 am

≫ Next: Diccionario Business Intelligence: KPI

≪ Previous: 15 Errores con los datos que debes evitar

Muy ilustrativo este video del día a día de un Data Scientist

↧

Diccionario Business Intelligence: KPI

April 10, 2018, 1:14 am

≫ Next: Como elegir el mejor grafico para cada necesidad?

≪ Previous: Un dia en la vida de un Data Scientist

Continuamos con nuestro Diccionario Business Intelligence, encaminado a hacer lo más sencillo posible conocer conceptos. Ya hemos comenzado con Molap y Análisis Adhoc.

Hoy le toca el turno a los KPI´s (Key Performance Indicators). Indicadores Claves de Negocio:
Diríamos que son aquellos indicadores, cálculos, ratios, métricas, etc... que nos permiten medir los factores y aspectos críticos de un negocio. Algunos ejemplos serían las ventas mensuales de las principales lineas de negocio, el coste de las materías primas principales, la evolución de la masa salarial, el nivel de liquidez, etc...
Estos indicadores deben observarse y analizarse dentro del conjunto de dimensiones o ejes representativos del negocio: tiempo, productos, centros de costes, etc...

Puedes ver en funcionamiento un ejemplo de herramienta Balance Scorecard, basada en Open Source: STCard

Por ello, los KPI´s no son un término tecnológico, generado por el Business Intelligence, si no que se trata de un concepto ligado a la Gestión Empresarial. No obstante, el desarrollo de la tecnología y de especialidades como el Business Intelligence, han permitido que su medición, control y respresentación visual se haga de un modo mucho más eficiente y rápido.
Si pretendemos llevar una gestión eficiente de nuestro negocio, apoyándonos en el uso de herramientas Business Intelligence, y no usamos los KPI´s, es como si estuviéramos conduciendo por una carretera de montaña de noche sin luces.

Normalmente, en la definición de los KPI´s se usa un acrónimo, SMART, que ayuda en el proceso de selección de los mismos:

- eSpecificos (Specific)
- Medibles (Measurable)
- Alcanzables (Achievable)
- Realista (Realistic)
- a Tiempo (Timely)

Los KPI´s han cogido mucha más relevanca si cabe, conforme se ha ido extendiendo y popularizando el uso de la Metodología de Balance Scorecard, Cuadro de Mando Integral, creado por los 'archiconocidos' profesores Norton y Kaplan.
Presentado en 1992, el Cuadro de Mando Integral o balance scorecard (BSC) es un método para medir las actividades de una compañía en términos de su visión y estrategia. Proporciona a los administradores una mirada general del rendimiento del negocio.

Es una herramienta de management que muestra continuamente cuando una compañía y sus empleados alcanzan los resultados perseguidos por la estrategia.

En la representación visual de un Balance Scorecard, es muy importante tener en cuenta aspectos tales como:

- Establecer los indicadores (KPI´s) por áreas o perspectivas
- Uso de codificación semafórica (amarillo, rojo y verde) para resaltar tendencias y excepciones
- Indicar de forma detalla explicaciones del comportamiento esperado y objetivo de cada kpi.
- Establecer el departamento y/o persona responsable de cada kpi (su definición, medición objetiva y esperada, umbrales de referencia, etc...)
- Establecer el periodo de análisis para el que se mide y revisa su valor.
- Definir las acciones o tareas correctivas derivadas de un comportamiento fuera de los umbrales esperados.

↧

Como elegir el mejor grafico para cada necesidad?

April 12, 2018, 2:48 pm

≫ Next: Generatedata.com (crea datos de ejemplo para tus pilotos)

≪ Previous: Diccionario Business Intelligence: KPI

Muy útil este diagrama de 'chart chooser', gracias a stephanieevergreen.com

↧

Generatedata.com (crea datos de ejemplo para tus pilotos)

April 12, 2018, 2:58 pm

≫ Next: Sabes quién creó el término 'Data Lake'?

≪ Previous: Como elegir el mejor grafico para cada necesidad?

¿Necesitas personalizar el formato de los datos de ejemplo o prueba?

Pues bien, esa es la idea de este programa (Generatedata.com) Es una herramienta libre y de código abierto escrita en JavaScript, PHP y MySQL que te permite generar rápidamente grandes volúmenes de datos personalizados en una variedad de formatos para su uso en pruebas de software, rellenar bases de datos, etc.

↧

Sabes quién creó el término 'Data Lake'?

April 12, 2018, 3:07 pm

≫ Next: Comparacion de sistemas Open Source OLAP para Big Data

≪ Previous: Generatedata.com (crea datos de ejemplo para tus pilotos)

What is a data lake?

A data lake is a repository designed to store large amounts of data in native form. This data can be structured, semi-structured or unstructured, and include tables, text files, system logs, and more.

The term was coined by James Dixon, CTO of Pentaho, a business intelligence software company, and was meant to evoke a large reservoir into which vast amounts of data can be poured. Business users of all kinds can dip into the data lake and get the type of information they need for their application. The concept has gained in popularity with the explosion of machine data and rapidly decreasing cost of storage.

There are key differences between data lakes and the data warehouses that have been traditionally used for data analysis. First, data warehouses are designed for structured data. Related to this is the fact that data lakes do not impose a schema to the data when it is written – or ingested. Rather, the schema is applied when the data is read – or pulled – from the data lake, thus supporting multiple use cases on the same data. Lastly, data lakes have grown in popularity with the rise of data scientists, who tend to work in more of an ad hoc, experimental fashion than the business analysts of yore.

Articulo original del 2010

↧

Comparacion de sistemas Open Source OLAP para Big Data

April 12, 2018, 3:24 pm

≫ Next: From Big Data to Fast Data

≪ Previous: Sabes quién creó el término 'Data Lake'?

Ya os hemos hablado en este blog mucho de nuestra solucion Open Source OLAP para Big Data preferida, que es Apache Kylin:

-x50 faster 'near real time' Big Data OLAP Analytics Architecture
- Use Case “Dashboard with Kylin (OLAP Hadoop) & Power BI”
- Cuadros de mando con Tableau y Apache Kylin (OLAP con Big Data)
- BI meet Big Data, a Happy Story
- 7 Ejemplos y Aplicaciones practicas de Big Data
- Analysis Big Data OLAP sobre Hadoop con Apache Kylin
- Real Time Analytics, concepts and tools
- Hadoop Hive y Pentaho: Business Intelligence con Big Data (Caso Practico)

Hoy os vamos a contar sobre otras alternativas gracias a Roman Lementov:

I want to compare ClickHouse, Druid and Pinot, the three open source data stores that run analytical queries over big volumes of data with interactive latencies.

ClickHouse, Druid and Pinot have fundamentally similar architecture, and their own niche between general-purpose Big Data processing frameworks such as Impala, Presto, Spark, and columnar databases with proper support for unique primary keys, point updates and deletes, such as InfluxDB.

Due to their architectural similarity, ClickHouse, Druid and Pinot have approximately the same “optimization limit”. But as of now, all three systems are immature and very far from that limit. Substantial efficiency improvements to either of those systems (when applied to a specific use case) are possible in a matter of a few engineer-months of work. I don’t recommend to compare performance of the subject systems at all, choose the one which source code you are able to understand and modify, or in which you want to invest.

Among those three systems, ClickHouse stands a little apart from Druid and Pinot, while the latter two are almost identical, they are pretty much two independently developed implementations of exactly the same system.

ClickHouse more resembles “traditional” databases like PostgreSQL. A single-node installation of ClickHouse is possible. On small scale (less than 1 TB of memory, less than 100 CPU cores) ClickHouse is much more interesting than Druid or Pinot, if you still want to compare with them, because ClickHouse is simpler and has less moving parts and services. I would say that it competes with InfluxDB or Prometheus on this scale, rather than with Druid or Pinot.

Druid and Pinot more resemble other Big Data systems in the Hadoop ecosystem. They retain “self-driving” properties even on very large scale (more than 500 nodes), while ClickHouse requires a lot of attention of professional SREs. Also, Druid and Pinot are in the better position to optimize for infrastructure costs of large clusters, and better suited for the cloud environments, than ClickHouse.

The only sustainable difference between Druid and Pinot is that Pinot depends on Helix framework and going to continue to depend on ZooKeeper, while Druid could move away from the dependency on ZooKeeper. On the other hand, Druid installations are going to continue to depend on the presence of some SQL database.

Currently Pinot is optimized better than Druid. (But please read again above — “I don’t recommend to compare performance of the subject systems at all”, and corresponding sections in the post.)

↧

From Big Data to Fast Data

April 13, 2018, 8:27 am

≫ Next: Libro Gratuito: Front-End Developer Handbook 2018

≪ Previous: Comparacion de sistemas Open Source OLAP para Big Data

Muy buen articulo de Raul Estrada. Principales puntos:

1. Data acquisition: pipeline for performance

In this step, data enters the system from diverse sources. The key focus of this stage is performance, as this step impacts of how much data the whole system can receive at any given point in time.

Technologies
For this stage you should consider streaming APIs and messaging solutions like:
- Apache Kafka - open-source stream processing platform
- Akka Streams - open-source stream processing based on Akka
- Amazon Kinesis - Amazon data stream processing solution
- ActiveMQ - open-source message broker with a JMS client in Java
- RabbitMQ - open-source message broker with a JMS client in Erlang
- JBoss AMQ - lightweight MOM developed by JBoss
- Oracle Tuxedo - middleware message platform by Oracle
- Sonic MQ - messaging system platform by Sonic

For handling many of these key principles of data acquisition, the winner is Apache Kafka because it’s open source, focused on high-throughput, low-latency, and handles real-time data feeds.

2. Data storage: flexible experimentation leads to solutions

There are a lot of points of view for designing this layer, but all should consider two perspectives: logical (i.e. the model) and physical data storage. The key focus for this stage is "experimentation” and flexibility.

Technologies
For this stage consider distributed database storage solutions like:
- Apache Cassandra - distributed NoSQL DBMS
- Couchbase - NoSQL document-oriented database
- Amazon DynamoDB - fully managed proprietary NoSQL database
- Apache Hive - data warehouse built on Apache Hadoop
- Redis - distributed in-memory key-value store
- Riak - distributed NoSQL key-value data store
- Neo4J - graph database management system
- MariaDB - with Galera form a replication cluster based on MySQL
- MongoDB - cross-platform document-oriented database
- MemSQL - distributed in-memory SQL RDBMS

For handling many of key principles of data storage just explained, the most balanced option is Apache Cassandra. It is open source, distributed, NoSQL, and designed to handle large data across many commodity servers with no single point of failure.

3. Data processing: combining tools and approaches

Years ago, there was discussion about whether big data systems should be (modern) stream processing or (traditional) batch processing. Today we know the correct answer for fast data is that most systems must be hybrid — both batch and stream at the same time. The type of processing is now defined by the process itself, not by the tool. The key focus of this stage is "combination."

Technologies
For this stage, you should consider data processing solutions like:
- Apache Spark - engine for large-scale data processing
- Apache Flink - open-source stream processing framework
- Apache Storm - open-source distributed realtime computation system
- Apache Beam - open-source, unified model for batch and streaming data
- Tensorflow - open-source library for machine intelligence

For managing many of the key principles of data storage just explained, the winner is a tie between Spark (micro batching) and Flink (streaming).

4. Data visualization

Visualization communicates data or information by encoding it as visual objects in graphs, to clearly and efficiently get information to users. This stage is not easy; it’s both an art and a science.

Technologies

For this layer you should consider visualization solutions in these three categories:

Notebook reports: Apache Zeppelin and Jupyter notebooks
Charts, maps, and graphics: Tableau
Customized charts, maps, and graphics: D3.js and Gephi

↧

Libro Gratuito: Front-End Developer Handbook 2018

April 14, 2018, 7:38 am

≫ Next: STDashboard, a free license way to create Dashboards

≪ Previous: From Big Data to Fast Data

Que todavía no lo habéis descargado? Un libro imprescindible!! Front-End Developer Handbook 2018

Descargar pdf

Contenido:

Introduction
WhatIsaFront-EndDeveloper?
RecapofFront-endDevin2017
In2018expect...

PartI:TheFront-EndPractice
Front-EndJobsTitles
CommonWebTechEmployed
Front-EndDevSkills
Front-EndDevsDevelopFor...
Front-EndonaTeam
Generalist/Full-StackMyth
Front-Endinterviewquestions
Front-EndJobBoards
Front-EndSalaries
HowFDsAreMade

PartII:LearningFront-EndDev
SelfDirectedLearning
LearnInternet/Web
LearnWebBrowsers
LearnDNS
LearnHTTP/Networks
LearnWebHosting
LearnGeneralFront-EndDev
LearnUI/InteractionDesign
LearnHTML&CSS
LearnSEO
LearnJavaScript
LearnWebAnimation
LearnDOM,BOM&jQuery
LearnWebFonts,Icons,&Images
LearnAccessibility
LearnWeb/BrowserAPIs
LearnJSON
LearnJSTemplates
LearnStaticSiteGenerators
LearnComputerScienceviaJS
LearnFront-EndAppArchitecture
LearnDataAPI(i.e.JSON/REST)Design
LearnReact
LearnStateManagement
LearnProgressiveWebApp
LearnJSAPIDesign
LearnWebDevTools
LearnCommandLine
LearnNode.js
LearnJSModules
LearnJSModuleloaders/bundlers
LearnPackageManagers
LearnVersionControl
LearnBuild&TaskAutomation
LearnSitePerformanceOptimization
LearnTesting
LearnHeadlessBrowsers
LearnOfflineDev
LearnWeb/Browser/AppSecurity
LearnMulti-DeviceDev(e.g.,RWD)
DirectedLearning
Front-EndSchools,Courses,&Bootcamps
Front-EndDevstoLearnFrom
Newsletters,News,&Podcasts

PartIII:Front-EndDevTools
Doc/APIBrowsingTools
SEOTools
Prototyping&WireframingTools
DiagrammingTools
HTTP/NetworkTools
CodeEditingTools
BrowserTools
HTMLTools
CSSTools
DOMTools
JavaScriptTools
StaticSiteGeneratorsTools
AccessibilityDevTools
AppFrameworks(Desktop,Mobileetc.)Tools
StateManagementTools
ProgressiveWebAppTools
GUIDevelopment/BuildTools
Templating/DataBindingTools
UIWidget&ComponentToolkits
DataVisualization(e.g.,Charts)Tools
Graphics(e.g.,SVG,canvas,webgl)Tools
AnimationTools
JSONTools
PlaceholderImages/TextTools
TestingTools
Front-endDataStorageTools
Module/PackageLoadingTools
Module/PackageRepo.Tools
HostingTools
ProjectManagement&CodeHosting
Collaboration&CommunicationTools
CMSHosted/APITools
BAAS(forFront-EndDevs)Tools
OfflineTools
SecurityTools
Tasking(akaBuild)Tools
DeploymentTools
Site/AppMonitoringTools
JSErrorMonitoringTools
PerformanceTools
ToolsforFindingTools

↧

STDashboard, a free license way to create Dashboards

April 18, 2018, 12:57 am

≫ Next: Por que muchos Data Scientist estan dejando sus trabajos?

≪ Previous: Libro Gratuito: Front-End Developer Handbook 2018

The improvements in this version of STDashboard are focused on user interface for panel and dashboard and also some enhancement in performance and close some old bugs. It works with Pentaho and embeded in web applications

You can see it in action in this Pentaho Demo Online and as a part of LinceBI suite

STDashboard doesn´t requiere anual license, you can manage unlimited users and it´s open source based.

STDashboard includes professional services (training, support and maintenance, docs and bug resolution - so, you have high enterprise level guaranteed -)

Interested? contact Stratebi or LinceBI

See a Video Demo:

About UI improvements:

- New set of predefined dashboard templates. We have designed a new way to manage dashboard panels that allow you to shape the dashboard in almost any combination of size, proportion and amount of panel you want to have. For this reason we have created a set of different layouts for most common cases.

- Embed in any web application. This sample shows STDashboard in LinceBI

- Self managed panel. Add and remove panels, now in stdashboard you can add or remove panels easily using the button inside each panel header.

- New layout management. Now an stashboard layout is composed of a list panel container, the containers in this list are stacked vertically in the page. There are two types of such containers; horizontal and vertical, each one stores a list of real panels (the ones where the graph are drawn) in an horizontal or vertical flow, in this ways you can combine those panels to achieve almost any layout you can imagine.

- Resizable panels. We have included the possibility of resize the panel horizontally or vertically, keeping the proportion of graph inside it in correspondence with horizontal adjacent panels without making an horizontal scroll in the page, that means if you shrink a panel horizontally and there is another panel in the same row, the other panels also shrink an a proportional way to allow all panels in a row fit the horizontal size of the window.

Is interesting to note here that we have implemented this functionality using pure GWT API, to avoid external dependencies and ensure portability between browsers.

- Draggable panels. Each panel in the entire dashboard can be dragged to any parent container. In the header of each single panel the is a handle that allow dragging the panels to any panel container in the dashboard.

- Responsive Dashboard. The ability to resize dynamically the panels and graph when the window's dimensions change, or when a user make zoom in the page is now implemented, also in most phones the dashboard can be seen proportionally and keeping the original layout.

- Persistent state of the layout. When you save a dashboard to a file, we are saving the visual state of it and store it in the file. Then, when you open the dashboard, all the details of visual interface are hold and you can see the dashboard exactly the same previous to saved, that means panels size, locations are restored effectively.

About performance:

- In some points of the application an specific query was causing performance problem. To know if a member has child or not in a multilevel hierarchy, the previous code issued a query to list all the sons of that member and check if the size is greater than 0, our solutions in this case for this type of query was simply check the level of the current member and in this way answer that boolean query.

- Connection to cubes using the new MondrianOlap4jDriver java class. This improve the connection performance and stability because is designed for mondrian connections, the previous code was using an standard JDBC connection.

About new enhacements:

- Date configuration for filters. Date dimension are special dimensions, because almost any cube has at least one defined and are very used for make range query over fact table, to allow dynamic filter in panels, we had to enable a .property file that allow the user to define their date dimension and configure the way they want to use it in queries.

- Added the Pentaho File Explorer to allows the users navigation through the files stored in pentaho, like reports, documents, etc and embeed it inside a panel in the dashboard

↧