Quantcast
Channel: Business Intelligence y Big Data: ¡Aprende Gratis sobre Analytics!
Viewing all 866 articles
Browse latest View live

Por que muchos Data Scientist estan dejando sus trabajos?

$
0
0

Muy revelador lo que nos cuentan en este articulo del Towards Data Science, y que coincide con muchas situaciones y casos reales que conocemos y que se están produciendo.

La frustración con el día a día del trabajo de los Data Scientist, respecto a las expectativas es importante (muchos conocéis que es llamado 'el trabajo más atractivo del siglo XXI'). La realidad es que muchos abandonan sus puestos de trabajo en grandes compañías, cuando parecían ser lo más deseados


Estas son las razones:

1. Las expectativas no coinciden con la realidad



Cuando son contratados, los Data Scientist creen que van a estar resolviendo problemas muy complejos y cruciales para la compañía, con algoritmos novedosos y sofisticados.
La realidad es que se encuentran que a la compañía lo que le importa es que tipo de gráfico debe aparecer en los informes o cuadros de mando del próximo comité de dirección, en mayor proporción que optimizar el mejor algoritmo

Creen que van a ser muy importantes en la compañía y salvo que ésta se dedique especificamente a 'Machine Learning' (muy pocas), serán solo un empleado más, por muy grande o multinacional que sea la compañía


2. Las relaciones en la empresa son más importantes



Por mucho que piensen los Data Scientist que van a ser valorados por conocer hasta el algortimo más complejo (y esto les haga tener más relevancia en las compañias), la realidad es que será más importante ayudar a las personas de negocio que pidan realizar tareas más sencillas y repetitivas como cargar ficheros de datos, hacer limpieza de los mismos y crear algunos informes, como forma de progresar en la misma


3. Te van a ver como 'el de los datos', en general



Da igual que expliques la diferencias, el nivel de conocimiento que como 'Data Scientis' tienes de Spark, Hadoop, Hive, Pig, SQL, Neo4J, MySQL, Python, R, Scala, Tensorflow, A/B Testing, NLP anything machine learning... tu eres el experto en datos, por lo que la mayor parte de tu tiempo, los responsables de estas grandes empresas te pedirán informes, por que no cuadran los datos, un bonito dashboard, cargar tablas o CSVs, etc....


4. Trabajar en equipos especializados y solitarios no siempre funciona




Los Data Scientist pueden ser muy buenos con premios ganados en Kaggle, conocer muchos algoritmos y trabajar bien en equipos pequeños.
Pero para las grandes organizaciones los resultados de un Data Scientist o su equipo es solo una pieza dentro de un gran puzzle que son los objetivos empresariales y, por tanto, es importante ir alineados con el resto de áreas y departamentos, lo que necesita de 'mano izquierda' o saber manejarse con las personas en las empresas, algo frustrante para muchos Data Scientist



Introducing STMonitoring for Pentaho

$
0
0

One of the things more useful when you are running a Pentaho production environment with a lot of users accessing the BI server, using reports, dashbords, olap analysis... is monitor the whole user performance.

                           

That´s why we´ve created STMonitoring (included free in all of the projects we help to develop and in some solutions, like LinceBI). It includes a set of predefined dashboards, reports and olap analysis based on several monitoring models including:


User session events model:

- Analysis by year, month, day, hour and minute
- Session event (login, logout)
- User
- Session status (abandoned, ended, started)
  • Session Duration
  • Session Avg Duration
  • Session Max Duration
  • Session Min Duration
  • Session Count
  • Acc. Login Count by Time
  • Avg. Login Session Count by Time
  • Max. Login Session Count by Time
  • Acc. Logout Count by Time
  • Avg. Logout Session Count by Time
  • Max. Logout Session Count by Time
  • Concurrent Sessions Count by Time





Server Content access model:

- Analysis by year, month, day, hour and minute
- User
- Content type (CDE, Pentaho Analyzer, CDE, Saiku Analytics, STPivot, STReport, STDashboard, Pentaho Reporting, STAgile...)
- Content extension (prpt, wcdf, xaction, xjpivot...)
- Content (complete path)

  • Duration
  • Avg duration
  • Access count



Want to know more? send an email

RStudio papers: listos para descargar

$
0
0
Con los cheat sheets siguientes (lo que vienen a ser resumenes o 'chuletas') se hace mucho más fácil aprender el uso de las mejores librerías y paquetes para R. Pulsa en las imágenes para descargar los pdf (TensorFlow, Shiny, Sparklyr, ggplot2...)






Como obtener beneficios de tus datos en lugar de cederlos gratuitamente

$
0
0

Eso es lo que promete la startup Wibson, con un buen número de especialistas y fondos detrás. La idea es buena, habrá que seguirles la pista para ver si su uso se va extendiendo
"Wibson is a blockchain-based, decentralized data marketplace that provides individuals a way to securely and anonymously sell validated private information in a trusted environment"
"In today’s economy, data equals money. Unfortunately, it doesn’t mean money for you.Giant tech companies cleverly use the Internet’s underlying technical protocols to capture and control your personal information"

Que algoritmo de Machine Learning elegir para cada problema?

$
0
0

Dado que existen muchos algoritmos, como hemos venido contando ultimamente, os vamos a dar unas pistas para ayudaros: 

1. Cuando usar Machine Learning

Lo primero que tenemos que tener en cuenta es que, aunque hablar y usar Machine Learning es una tendencia y es 'cool', debemos ser conscientes de que sea de utilidad. Hemos visto que los Data Scientist están de moda pero muchos abandonan sus trabajos, por no adecuar las expectativas

Os puede ser útil esta 'Breve Historia del Machine Learning', como punto de arranque

Algunos ejemplos útiles serían los de detectar patrones entre múltiples datos o identificar excepciones o anomalías dificiles de detectar. Ej) Reconocimiento visual de rostros 



Debo usar 'machine learning' para crear un Data Mart de ventas mensuales? probablemente no

También hay que tener en cuenta la diferencia entre los especialistas en Business Intelligence, Data Scientist y Data Engineer

Son muchos los lenguajes de programación que pueden solventar nuestros problemas y necesidades, sin recurrir al Machine Learning (que trata la el proceso de programación de forma diferente)





2. Definir el problema

Se trataría de responder a las siguientes preguntas:

Que quiero hacer?

- Si lo que necesitas es agrupar o establecer categorías o grupos, puedes utilizar algoritmos de clasificación
- Si quieres predecir un importe, cantidad, ventas, etc... deberás usar algoritmos de regresión
- Si quieres detectar datos incongruentes, incorrectos, fallos, etc... usa detección de anomalías
- Si lo que tienes es un montón de datos, aparentemente inconexos y sin ninguna relación entre ellos, pues utilizar clustering, de forma que se establezcan estructuras y grupos con patrones comunes






Que información tengo disponible?

Cuantos más datos tengas mejor
Cuanto más serie histórica mejor
Cuantos más atributos, etiquetas, etc... mejor
Cuantás más clases y características de los datos... mejor

Cuales son las limitaciones?

Hay que tener suficiente capacidad de almacenamiento
Hay que tener suficiente velocidad de procesamiento
Hay que tener paciencia y tiempo para entrenar los algoritmos
Los resultados nunca son concluyentes o completos


3. Conocer un poco de teoría de Machine Learning

Sí, hay que 'echar codos'y estudiar. Y no poco, si no bastante. Es necesario conocer matemáticas, estadística y teoría sobre Machine Learning





Glosario de los principales términos en Machine Learning
Curso de Machine Learning por Google


4. Cuales son los algoritmos de Machine Learning más populares

Cada vez hay más. No os agobiéis. Lo mismo, que no conseguiréis resultados totalmente exactos, tampoco podrás abarcar todos los algoritmos



Curso de Machine Learning para software engineers

Los más conocidos son.
- Regresión linear
- Arboles de decisión
- Random Forest
- Boosting
- Support Vector Machine
- Redes neuronales
- K-means
- Naive Bayes

Echa un vistazo a 'Los 30 mejores proyectos de Machine Learning Open Source'


5. Elegir que algoritmo usar

Esto siempre es complicado y depende de muchos factores, como explicábamos arriba. Esta tabla puede ayudaros:




Aquí tenéis unas pequeñas chuletas de muchos de los algoritmos más habituales:





6. Consejos prácticos

- Podéis usar herramientas tanto especificas de Machine Learning (R, Python, Weka, Matlab, Spark, SAS...) como otras que incluyen para su ingesta o explotación visual (como Pentaho o PowerBI, Shiny)






- Lo primero son los datos. Revisad muy bien antes de comenzar que los datos tienen la suficiente calidad y amplitud para ser de utilidad (os evitaréis mucho trabajo en vano)

- Podéis contar con especialistas o formaros con gente como el equipo de Stratebi, que nos han ayudado a crear este post. Obviamente, hay muchos buenos especialistas con los que contar

- Haced iteraciones. No pretendáis llegar a la meta en un solo intento. En Machine Learning hay que ir aprendiendo poco a poco



En este post tenéis información más detallada, en la que nos hemos basado


Comparacion Scala vs Python para Apache Spark

$
0
0



Para todos aquellos que usan el framework de Apache Spark, sabrán que hay desarrolladores que se decantan por Scala y otros por Python. Os dejamos una comparación que os puede ayudar a decidiros




Visto en Kdnuggets

Webinar gratuito para aprender STPivot sobre Pentaho

$
0
0


El próximo jueves 24 de Mayo tienes un Webinar para conocer y sacar el mejor partido a STPivot4, la solución open source, analytics OLAP sobre Pentaho, que también puedes usar sobre ecosistemas Big Data como Apache Kylin.

Toda la info y registro del Webinar

STPivot puede ser descargado gratuitamente desde Github y desde el Marketplace de Pentaho







Comparacion entre Talend y Pentaho

$
0
0


Hace un tiempo os poníamos una primera Comparación entre Pentaho Data Integration Talend Open Studio. Hoy traemos otra comparación interesante:
  • Talend: Talend is an open-source data integration tool whereas Pentaho Kettle is a commercial open-source data integration tool
  • Talend offers limited connectivity to concurrent databases, and other forms of data but has a dependency factor of Java drivers to connect to the data sources whereas Pentaho offers a wide range of connectivity to extensive databases, and other forms of data
  • Talend has its support which exists majorly in the US whereas Pentaho its support which not only exists in the US, and also targets the UK, Asia Pacific markets

Although both Talend and Pentaho tools carry similar characteristics, here one needs to understand the GUI which Pentaho Kettle holds a slight advantage.
Below we see the salient characteristics and prominent offerings of the Pentaho Kettle to Talend:
  • Pentaho kettle is twice faster when compared to Talend
  • Pentaho kettle’s GUI is easier to run when compared to Talend’s GUI Adapts well to the system
  • Can easily deal with different data clusters
  • Can be used as a slave server on many machines while transformation processing
  • Cost of ownership

Talend is more useful when there is an existing system where a Java program is already running/being implemented.
Listed below are the advantages of Talend code generation approach
  • Easy deployment (for standalone Java application)
  • Saves time
  • Cost-effective


Visto en Educba

Curso en Madrid de Machine Learning

Como funciona Internet of Things

$
0
0


Las 7 C del Internet of Things (IoT)



Vaya, se trataba de buscar otra letra para concretar puntos importantes de una tecnología de moda. Ahora tenemos las 7 Cs del Internet of Things, y lo dice Forbes: 1 — Consumption: The first stage of the IoT is always consumption. We could also use the word ‘ingestion’ here i.e. we need to build devices that are capable of producing operational data so that we can consume it into our IT structures. 2– Connection: The existence of smart connections...


List of Open Source solutions for Smart Cities - Internet of Things projects



Increasingly projects are carried on so-called 'Smart Cities', supported by Big Data, Internet of Things... and the good news is that most of them are made with Open Source technologies. We can share, from TodoBI.com our insights about these technologies Making a city “smart” involves a set of areas we will outline below: Without IOT (Internet Of Things), there will be no Smart City.  Since automatic collected data is the most efficient...


Cuadros de Mando y Business Intelligence para Ciudades Inteligentes



Cada vez son más las ciudades que están implementando soluciones de Ciudades Inteligentes, Smart Cities... en donde se abarcan una gran cantidad de aspectos, en cuando a tecnologías, dispositivos, analítica de datos, etc... Lo principal en todos ellos es que son soluciones que deben integrar información e indicadores diversos de todo tipo de fuentes de datos: bases de datos relacionales tradicionales, redes sociales, aplicaciones móviles, sensores......


35 Open Source Tools para Internet of Things (IoT)


Cada vez hay más relación entre el Business Intelligence, el Big Data, el Open Source e Internet of Things. Sobre todo de la mano de los proyectos y desarrollos SmartCity, en los que cada vez se emplean más estas tecnologías, como nos cuentan nuestros compañeros de Stratebi. La buena noticia es que hay una gran variedad de teconologías open source que nos lo permiten. Echadle un vistazo: 1. Arduino 2. Eclipse IoT Project 3. Kinoma 4. M2MLabs Mainspring 5. Node-RED Hardware 6. Arduino Yún 7. BeagleBoard 8. Flutter 9....

Big Data Olap con Superset (AirBnB)

$
0
0


Os venimos contando desde hace ya un tiempo, el potencial del mundo Big Data y OLAP Business Intelligence, con diferentes tecnologías. Hoy, os contamos la arquitectura usando Superset, creado por AirBnB

Nuestros compañeros de Stratebi han creado un entorno de prueba para que lo veas, además, en funcionamiento

Información publicada recientemente sobre el tema:

x50 faster 'near real time' Big Data OLAP Analytics Architecture
Comparacion de sistemas Open Source OLAP para Big Data
Use Case “Dashboard with Kylin (OLAP Hadoop) & Power BI”
Cuadros de mando con Tableau y Apache Kylin (OLAP con Big Data)
BI meet Big Data, a Happy Story
7 Ejemplos y Aplicaciones practicas de Big Data
Analysis Big Data OLAP sobre Hadoop con Apache Kylin
Real Time Analytics, concepts and tools
Hadoop Hive y Pentaho: Business Intelligence con Big Data (Caso Practico)



Arquitectura:



En el caso de estudio que presentamos, hacemos uso de las herramientas Apache Kylin y Apache Superset para dar soporte al análisis mediante Cuadros de Mando de un almacén de datos (Data Warehouse, DW) que contiene datos con características Big Data (Volumen, Velocidad y Variedad).
Se trata de un gran Volumen de datos académicos, relativos a los últimos 15 años de una universidad de gran tamaño. A partir de esta fuente de datos, se ha diseñado un modelo multidimensional para el análisis del rendimiento académico. En él contamos con unos 100 millones de medidas cómo los créditos relativos a asignaturas aprobadas, suspendidas o matriculadas. Estos hechos se analizan en base a distintas dimensiones o contextos de análisis, como el Sexo, la Calificación o el Año Académico.
Dado que este Volumen de datos es demasiado grande para analizarlo con un rendimiento aceptable con los sistemas OLAP (R-OLAP y M-OLAP) tradicionales, hemos decidido probar la tecnología Apache Kylin, la cual promete tiempos de respuesta de unos pocos segundos para Volúmenes que pueden superar los 10 billones de filas en la tabla de hechos o medidas.
Además, para hacer posible la exploración de los datos del cubo de Kylin mediante lenguaje SQL y la creación de cuadros de mando que podamos compartir con los usuarios finales de los datos, hemos hecho uso de la herramienta Superset.
Apache Superset es una herramienta de visualización desarrollada por AirBnb de reciente creación. Facilita la creación de cuadros de mando de forma intuitiva y destaca por ofrecer una gran variedad de representaciones gráficas tanto para la exploración como para la visualización de los datos.
La herramienta Superset incluye de serie conectores para Sqlite y Druid pero dispone de una serie de paquetes para realizar conexiones con otras fuentes de datos. El uso del estándar SQLAlchemy permite realizar consultas en diferentes orígenes de datos, siempre que se disponga del conector correspondiente. Mediante el uso del conector con Kylin (kylinpy), es posible enviar consultas a Kylin utilizando SQL.
Superset incluye un entorno de consultas (SQL Lab) que permite desarrollar consultas SQL sobre una fuente de datos para dar soporte a una representación gráfica. Por otra parte, Superset permite crear cuadros de mandos a partir de las gráficas generadas (que parten de las consultas SQL realizadas). Tras crear el cuadro de mandos, es necesario gestionar los permisos para conceder acceso al mismo a los usuarios autorizados. En este caso se ha configurado Superset para permitir el acceso público a este cuadro de mandos.


Desarrollada por eBay y posteriormente liberada como proyecto Apache open source, Kylin es una herramienta de código libre que da soporte al procesamiento analítico en línea (OLAP) de grandes volúmenes de datos con las características del Big Data (Volumen, Velocidad y Variedad).
Sin embargo, hasta la llegada de Kylin, la tecnología OLAPestaba limitada a las bases de datos relacionales o, en el mejor de los casos, con optimizaciones para el almacenamiento multidimensional, tecnologías con importantes limitaciones para enfrentarse al Big Data.
Apache Kylin, construida sobre la base de distintas tecnologías del entorno Hadoop, proporciona una interfaz SQL que permite la realización de consultas para el análisis multidimensional de un conjunto de datos, logrando unos tiempos de consulta muy bajos (segundos) para hechos de estudio que pueden llegar hasta los 10 billones de filas o más.
Las tecnologías del entorno Hadoop fundamentales para Kylin son Apache Hive y Apache HBase. El almacén de datos (Data Warehouse, DW) se crea en forma de modelo estrella y se mantiene en Apache Hive. A partir de este modelo y mediante la definición de un modelo de metadatos del cubo OLAP, Apache Kylin, mediante un proceso offline, crea un cubo multidimensional (MOLAP) en HBase. Se trata de una estructura optimizada para su consulta a través de la interfaz SQL proporcionada por Kylin.
De esta forma cuando Kylin recibe una consulta SQL, debe decidir si puede responderla con el cubo MOLAP en HBase (en milisegundos o segundos), o sí por el contrario, no se ha incluido en el cubo MOLAP, y se ha ejecutar una consulta frente al esquema estrella en Apache Hive (minutos), lo cual es poco frecuente.
Por último, gracias al uso de SQL y la disponibilidad de drivers J/ODBC podemos conectar con herramientas de Business Intelligence como Tableau, Apache Zeppelin o incluso motores de consultas MDX como Pentaho Mondrian, permitiendo el análisis multidimensional en sus formas habituales: vistas o tablas multidimensionales, cuadros de mando o informes.



Superset es una herramienta de visualización de código abierto desarrollada por AirBnb y liberada como proyecto Apache. Se trata de un proyecto de reciente creación que se encuentra en proceso de desarrollo. 
Esta herramienta destaca por disponer de un amplio abanico de representaciones para la exploración y visualización de datos, posibilitando la creación de cuadros de mando así como por su sencillez de uso y alta disponibilidad, siendo diseñado para funcionar bien tanto en ordenadores personales como en entornos distribuidos.
Por otra parte, Superset utiliza SQLAlchemy para facilitar la integración con diferentes gestores de bases de datos relacionales (como MySQL, PostgreSQL, Oracle, etc.) así como otros gestores de datos no relacionales orientados al Big Data (como Kylin, Druid o Vertica). Para realizar la conexión de Superset con alguna de estas fuentes de datos, se necesita instalar un paquete que actúa como middleware y configurar la conexión con SQLAlchemy.
Otras funcionalidades por destacar de Superset son la seguridad y autenticación que permite el uso de fuentes como LDAP, OAuth o OpenID. Se pueden utilizar diferentes usuarios y roles con permisos específicos de acceso, creación o modificación de fuentes de datos, gráficas, cuadros de mando etc.

Sí estas interesado en hacer tu proyecto con esta tecnología no dudes en solicitar presupuesto en StrateBI.

Pentaho 8.1 ya esta aquí, conoce las novedades!!

$
0
0


Pentaho 8.1 ya esta disponible (aquí para descargar de Sourceforge) y que mejor que Pedro Alves para contarnos. Os dejamos las principales novedades y en que versión (EE o CE) están disponibles:

Cloud Google Storage (EE)

Google BigQuery – JDBC Support  (EE/CE)

Google BigQuery – Bulk Loader  (EE)


Google Drive  (EE/CE)

Analytics over BigQuery  (EE/CE, depending on the tool used)

Big Data / Adaptive Execution Layer (AEL) Improvements 

Bigger and Better (EE/CE)

Sub Transformation support (EE/CE)

Big Data formats: Added support for Orc (EE/CE)

Worker Nodes (EE)

New Streaming Datasources: MQTT, and JMS (Active MQ / IBM MQ) (EE/CE)


Safe Stop (EE/CE)

Streaming Dataservices (EE/CE)

CTools and Streaming Visualizations (EE/CE)

Time Series Visualizations (EE/CE)

Data Exploration Tool Updates (EE)


 Additional updates:

     Salesforce connector API update (API version 41)
     Splunk connection updated to version 7
     Mongo version updated to 3.6.3 driver (supporting 3.4 and 3.6)
     Cassandra version updated to support version 3.1 and Datastax 5.1
     PDI repository browser performance updates, including lazy loading
     Improvements on the Text and Hadoop file outputs, including limit and control file handling
     Improved logging by removing auto-refresh from the kettle logging servlet
     Admin can empty trash folder of other users on PUC
     Clear button in PDI step search in spoon
     Override JDBC driver class and URL for a connection
     Suppressed the Pentaho ‘session expired’ pop-up on SSO scenarios, redirecting to the proper login page
     Included the possibility to schedule generation of reports with a timestamp to avoid overwriting content

In summary (and wearing my marketing hat) with Pentaho 8.1 you can:

      Deploy in hybrid and multi-cloud environments with comprehensive support for Google Cloud Platform, Microsoft Azure and AWS for both data integration and analytics
      Connect, process and visualize streaming data, fromMQTT, JMS, and IBM MQ message queues and gain insights from time series visualizations
      Get better platform performance and increase user productivity with improved logging, additional lineage information, and faster repository access

Bloom, Graph Visualisation y Discovery tool para Neo4j

$
0
0

Muy interesante la presentación de la nueva herramienta de visualización para Neo4J, Bloom, realmente espectacular

Además, tienes otras posibilidades de visualización para Neo4J

Aquí podéis ver una Demo usando Neo4J con los Panama Papers y para cálculo de distancias, en este caso usando Linkurious

Bloom visually reveals the value of data relationships and identifies connectedness paths between interesting clusters and nodes. These situations often include:


  • Identifying the relationship (or hidden path) between individuals
  • Connecting people to activities, locations, compaines, devices and other objects
  • Demonstrating to management the innovative impact of graphs
  • Illustrating the context and paths of graph designs and Cypher queries
Bloom gives you the ability to:
  • Inspect the animated graph by panning and zooming across the visible domain
  • Snapshot scenes using a screen capture tool and paste to publish
  • Select a node and toggle to understand properties and adjacent nodes based on its relationships
  • Edit nodes, relationships and properties
  • Pick a template and view the metadata perspective of that template against your data
  • Initiate queries within the search box based on suggestions and template phrases
  • Advance the scene and choose a new query to execute in the search box
  • Save your history including “hints” that inform the illustration so Bloom remembers where you left off

New Data Connectors in LinceBI

$
0
0


LinceBI, an open source based Big Data Analytics solution, with a free license model with professional support, recently increase the number of data connectors

Now, you have a complete set of data connectors in order to make easier data injection. 

Recently, we give you some details about LinceBi functionalities

Even more, it includes a predefined industry oriented models, dashboads, KPIS, reports and Analysis... so deploy a 'ready to use' Analytics solution is very easy

Las 10 mejores charlas TED de Analisis de Datos

$
0
0

Data: Languages in the world

Las mejores APIs para Machine Learning

$
0
0

Webinar STPivot4 Open Source for Pentaho ya disponible

$
0
0

Mas de 100 inscritos al Webinar sobre Business Intelligence Open Source, centrado en el uso de la herramienta OLAP, STPivot4, disponible en Github y en el Marketplace de Pentaho

Os dejamos el video completo del Webinar realizado





Este pasado jueves 24 de Mayo hemos tenido un Webinar para conocer y sacar el mejor partido a STPivot4, la solución open source, analytics OLAP sobre Pentaho, que también puedes usar sobre ecosistemas Big Data como Apache Kylin.

Toda la info y registro de STPivot4

STPivot puede ser descargado gratuitamente desde Github y desde el Marketplace de Pentaho







Las 20 mejores librerias para Data Scientists en R

Nuestro mundo en datos

$
0
0

Para todos los que consideran que la mejor forma de estar informados y opinar con criterio de historia, economía y política es basarse en datos, esta es tu web: Our World in Data




Viewing all 866 articles
Browse latest View live