Quantcast
Channel: Business Intelligence y Big Data: ¡Aprende Gratis sobre Analytics!
Viewing all 866 articles
Browse latest View live

Business Intelligence Open Source Tips in March

$
0
0

Comparativa Kettle (Pentaho Data Integration) y Talend

$
0
0
Hace unos días os hablábamos de que el ETL es crucial y hoy os mostramos una comparativa de las dos mejores herramientas Open Source de ETL (Kettle de Pentaho y Talend), que tampoco empieza a ser arriesgado a decir que se están convirtiendo en las mejores, sobre todo si valoramos el coste y la posibilidad de integración y modificación respecto a Informatica Powercenter, Oracle, Microsoft o IBM

Tanto Kettle como Talend son grandes herramientas, muy visuales, que nos permiten integrar todo tipo de fuentes, incluyendo también Big Data para hacer todo tipo de transformaciones y proyectos de integración o para preparar potentes entornos analíticos, también con soluciones Open Source como podéis ver en esta Demo Online, donde se han usado Kettle y Talend en el backend




Descargar la comparativa de Excella 

Comparativa economica y deportiva del Real Madrid y FC Barcelona

$
0
0






Cada vez es más importante para los clubes deportivos conocer el coste económico y rentabilidad de sus grandes jugadores, en relación a su rendimiento deportivo. Pero también conocer su impacto en las redes sociales

Más aún, si comparamos entre eternos rivales como el Real Madrid y el FC Barcelona

En esta web puedes comprobar cuanto le cuesta a cada equipo los goles de Messi y Ronaldo, que delanteras son más rentables, cuanto gana Ramos y Piqué cada hora...



20 razones que nos llevan a tomar malas decisiones

$
0
0
Buena infografía. Imprimidla y colgarla en la pared


Ejemplos de Business Intelligence Open Source

$
0
0

Hace unos días se celebró el interesante evento organizado por BI-Spain sobre Business Intelligence y visualización

Una de las presentaciones más interesantes fue la de nuestros compañeros de Stratebi que hablaron de como usar Pentaho y otras soluciones Open Source para crear grandes aplicaciones Business Intelligence y de visualización Big Data, real time, Internet of Things, Social Media....

Aquí podéis ver el video de dicha prsesentación en la que se mostraron muy buenos ejemplos



En el siguiente enlace podéis acceder y trabajar directamente con la aplicación


Ya esta disponible Pentaho 6.1

Preguntas clave en una entrevista para conocer si sabes Pentaho

$
0
0
Muchos os preguntaréis, cuales son los principales conocimientos que se pueden evaluar en un especialista para trabajar con Pentaho, aquí os damos unas pistas:

1.Define Pentaho and its usage.

Revered as one of the most efficient and resourceful data integration tools (DI), Pentaho virtually supports all available data sources and allows scalable data clustering and data mining. It is a light-weight Business Intelligence suite executing Online Analytical Processing (OLAP) services, ETL functions, reports and dashboards creation and other data-analysis and visualization operations.

2.Explain the important features of Pentaho.

• Pentaho is capable of creating Advanced Reporting Algorithms regardless of their input and output data format.
• It supports various report formats, whether Excel spreadsheets, XMLs, PDF docs, CSV files.
• It is a Professionally Certified DI Software rendered by the renowned Pentaho Company headquartered in Florida, United States.
• Offers enhanced functionality and in-Hadoop functionality
• Allows dynamic drill down into larger and greater information
• Rapid Interactive response optimization
• Explore and view multidimensional data

3.Name major applications comprising Pentaho BI Project.

• Business Intelligence Platform
• Dashboards and Visualizations
• Reporting
• Data Mining
• Data Analysis
• Data Integration and ETL (also called Kettle)
• Data Discovery and Analysis (OLAP)

4.What is the importance of metadata in Pentaho?

A metadata model in Pentaho formulates the physical structure of your database into a logical business model. These mappings are stored in a central repository and allow developers and administrators to build business-logical DB tables that are cost effective and optimized. It further simplifies the working of business users allowing them to create formatted reports and dashboards ensuring security to data access.
All in all, metadata model provides an encapsulation around the physical definitions of your database and the logical representation and define relationships between them.

5.Define Pentaho Reporting Evaluation.

Pentaho Reporting Evaluation is a particular package of a subset of the Pentaho Reporting capabilities, designed for typical first-phase evaluation activities such as accessing sample data, creating and editing reports, and viewing and interacting with reports.

6.Explain the benefits of Data Integration.

• The biggest benefit is that integrating data improves consistency and reduces conflicting and erratic data from the DB. Integration of data allows users to fetch exactly what they look for, enabling them utilizeand work with what they collected.
• Accurate data extraction, which further facilitates flexible reporting and monitoring of the available volumes of data
• Helps meet deadlines for effective business management
• Track customer’s information and buying behavior to improve traffic and conversions in the future, thus advancing your business performance.

7.What is MDX and its usage?

MDX is an acronym for ‘Multi-Dimensional Expressions,’ the standard query language introduced by Microsoft SQL OLAP Services. MDX is an imperative part of XML for analysis API, which has a different structure than SQL. A basic MDX query is:
SELECT {[Quantity].[Unit Sales], [Quantity].[Store Sales]} ON COLUMNS,
{[Product].members} ON ROWS
FROM [Sales]
WHERE [Time].[1999].[Q2]

8.Define three major types of Data Integration Jobs.

• Transformation Jobs: Used for preparing data and used only when the there is no change in data until transforming of data job is finished
• Provisioning Jobs: Used for transmission/transfer of large volumes of data. Used only when no change is data is allowed unless job transformation and on large provisioning requirement.
• Hybrid Jobs: Execute both transformation and provisioning jobs. No limitations for data changes; it can be updates regardless of success/failure. The transforming and provisioning requirements are not large in this case.

9.Illustrate the difference between transformations and jobs.

While transformations refer to shifting and transforming rows from source system to target system, jobs perform high level operations like implementing transformations, file transfer via FTP, sending mails, etc.
Another significant difference is that the transformation allows parallel execution whereas jobs implement steps in order.

10.How to perform database join with PDI (Pentaho Data Integration)?

PDI supports joining of two tables form the same databse using a ‘Table Input’ method, performing the join in SQL only.
On the other hand, for joining two tables in different databases, users implement ‘Database Join’ step. However, in database join, each input row query executes on the target system from the main stream, resulting in lower performance as the number of queries implement on the B increases.
To avoid the above situation, there is yet another option to join rows form two different Table Input steps. You can use ‘Merge Join ‘step, using the SQL query having ‘ORDER BY’ clause. Remember, the rows must be perfectly sorted before implementing merge join.

11.Explain how to sequentialize transformations?

Since PDI transformations support parallel execution of all the steps/operations, it is impossible to sequentialize transformations in Pentaho. Moreover, to make this happen, users need to change the core architecture, which will actually result in slow processing.

12.Explain Pentaho Reporting Evaluation.

Pentaho Reporting evaluation is a complete package of its reporting abilities, activities and tools, specifically designed for first-phase evaluation like accessing the sample, generating and updating reports, viewing them and performing various interactions. This evaluation consists of Pentaho platform components, Report Designer and ad hoc interface for reporting used for local installation. 

13.Can fieldnames in a row duplicated in Pentaho?

No, Pentaho doesn’t allow field duplication.

14.Does transformation allow filed duplication?

“Select Values” will rename a field as you select the original field also.  The original field will have a duplicate name of the other field now.

15.How to use database connections from repository?

You can either create a new transformation/job or close and reopen the ones already loaded in Spoon.

16.Explain in brief the concept Pentaho Dashboard.

Dashboards are the collection of various information objects on single page including diagrams, tables and textual information. The Pentaho AJAX API is used to extract BI information while Pentaho Solution Repository contains the content definitions. The steps involved in Dashboard creation include
• Adding dashboard to the solution
• Defining dashboard content
• Implementing filters
• Editing dashboards

17.How to use logic from one transformation/job in other process?

Transformation logic can be shared using subtransformations, which provides seamless loading and transformation of variables enhancing efficiency and productivity of the system. Subtransformations can be called and reconfigured when required.

18.Explain the use of Pentaho reporting.

Pentaho reporting enables businesses to create structured and informative reports to easily access, format and deliver meaningful and important information to clients and customers. They also help business users to analyze and track consumer’s behavior for the specific time and functionality, thereby directing them towards the right success path.

19.What is Pentaho Data Mining?

Pentaho Data Mining refers to the Weka Project, which consists of a detailed tool set for machine learning and data mining. Weka is open source software for extracting large sers of information about users, clients and businesses. It is built on Java programming.

20.Is Data Integration and ETL Programming same?

No. Data Integration refers to passing of data from one type of systems to other within the same application. On the contrary, ETL is used to extract and access data from different sources. And transform it into other objects and tables.

21.Explain Hierarchy Flattening.

It is just the construction of parent child relationships in a database. Hierarchy Flattening uses both horizontal and vertical formats, which enables easy and trouble-free identification of sub elements. It further allows users to understand and read the main hierarchy of BI and includes Parent column, Child Column, Parent attributes and Child attributes.

22.Give a brief about PDI architecture.

PDI architecture

23.Explain Pentaho report Designer (PRD).

PRD is a graphic tool to execute report-editing functions and create simple and advanced reports and help users export them in PDF, Excel, HTML and CSV files. PRD consists of Java-based report engine offering data integration, portability and scalability. Thus, it can be embedded in Java web applications and also other application servers like Pentaho BAserver.

24.Define Pentaho Report types.

There are several categories of Pentaho reports:
• Transactional Reports: Data to be used form transactions. Objective is to publish detailed and comprehensive data for day-to-day organization’s activities like purchase orders, sales reporting
• Tactical Reports: data comes from daily or weekly transactional data summary. Objective is to present short-term information for instant decision making like replacing merchandize.
• Strategic Reports: data comes from stable and reliable sources to create long-term business information reports like season sales analysis.
• Helper Reports: data comes from various resources and includes images, videos to present a variety of activities.

25.What are variables and arguments in transformations?

Transformations dialog box consists of two different tables: one of arguments and the other of variables. While arguments refer to command line specified during batch processing, PDI variables refer to objects that are set in a previous transformation/job in the OS.

26.How to configure JNDI for Pentaho DI Server?

Pentaho offers JNDI connection configuration for local DI to avoid continuous running of application server during the development and testing of transformations.  Edit the properties in jdbc.propertiesfile located at…\data-integration-server\pentaho-solutions\system\simple-jndi.





Visto en Intellipat

Ranking de las mejores Bases de Datos

$
0
0
Mas de 300 bases de datos son evaluadas en la comparativa que realizan en DB-engines anualmente

Un imprescindible para todos los que manejan datos. Cada vez tenemos más opciones y tecnologías donde elegir. Ah, y la mayoría, son Open Source




Listado completo de Open Data Portals en el mundo

Ranking de principales usos y tecnologias del Big Data

$
0
0

Se habla mucho de Big Data, sus tecnologías, aplicaciones, etc... pero resulta difícil concretar el principal uso que le podemos dar, así como su nivel de madurez. 

A continuación se indican las principales tecnologías en las que tiene una aplicación real:
  1. Predictive analytics: software and/or hardware solutions that allow firms to discover, evaluate, optimize, and deploy predictive models by analyzing big data sources to improve business performance or mitigate risk.
  2. NoSQL databases: key-value, document, and graph databases.
  3. Search and knowledge discovery: tools and technologies to support self-service extraction of information and new insights from large repositories of unstructured and structured data that resides in multiple sources such as file systems, databases, streams, APIs, and other platforms and applications.
  4. Stream analytics: software that can filter, aggregate, enrich, and analyze a high throughput of data from multiple disparate live data sources and in any data format.
  5. In-memory data fabric: provides low-latency access and processing of large quantities of data by distributing data across the dynamic random access memory (DRAM), Flash, or SSD of a distributed computer system.
  6. Distributed file stores: a computer network where data is stored on more than one node, often in a replicated fashion, for redundancy and performance.
  7. Data virtualization: a technology that delivers information from various data sources, including big data sources such as Hadoop and distributed data stores in real-time and near-real time.
  8. Data integration: tools for data orchestration across solutions such as Amazon Elastic MapReduce (EMR), Apache Hive, Apache Pig, Apache Spark, MapReduce, Couchbase, Hadoop, and MongoDB.
  9. Data preparation: software that eases the burden of sourcing, shaping, cleansing, and sharing diverse and messy data sets to accelerate data’s usefulness for analytics.
  10. Data quality: products that conduct data cleansing and enrichment on large, high-velocity data sets, using parallel operations on distributed data stores and databases.

Visto en Forbes

12 aplicaciones gratuitas para crear Dashboards

$
0
0


Muchos de vosotros nos preguntáis sobre los Dashboards, que cada vez son mas demandados para soluciones de todo tipo: Business Intelligence, Real Time, Big Data, IoT, Direccion (EIS), etc...

Os traemos una recopilación de 12 soluciones gratuitas para tener cuadros de mando, en algunos casos, además son open source y en otros puedes tenerlo en tus propios servidores sin depender del fabricante de software comercial, como veis hay algunos casos

ClicData is a cloud based dashboard platform that successfully delivers an easy to use, drag and drop graphical interface, while providing the tools for power users to deliver high levels of sophistication. 

Bittlesupports the creation of online dashboards specifically for the SME user. The free package restricts data storage and data sources, and comes with a standard graphics library (instead of a more advanced one). Bittle also supports report creation.

Dashsupports real-time dashboards for websites, business and personal use. The free version supports a single dashboard.

STDashboard is a no license solution working on top of open source solutions like Pentaho, Mondrian... where a user can create a lot of dashboards in minutes, including external content as reports, olap views and any web content. Not require user technical skills



CDE supports dashboards for websites, business and personal use in Pentaho. It requires technical skills, but you can get powerful Dashboards
Dashzen supports the creation of both private and public dashboards in the cloud. Private dashboards can be shared with nominated people. A variety of gadgets make up a dashboard, some of which are connected with various data sources (salesforce, Twitter, StackExchange etc).

InetSoftprovide a free version of their excellent Style Scope platform. Style Scope Free Edition is a small-footprint server that delivers Web-based interactive Flash dashboards and visualizations that can be shared within an organization. The Java-based application can be installed on any Windows, Unix, or Mac desktop and can be connected to data in standard relational databases as well as spreadsheets.

Power BI Designeris a business dashboard and data management tool, and it seems Microsoft has at last realised there is an analytical world outside Excel. Free restricted for some cases

SAP Lumira lets you understand your data by building visualizations using a drag and drop interface. Combine and analyze data from Excel and other enterprise sources and quickly discover unique insight – no scripts, predefined queries or reports required. Free restricted for some cases

Slemma is a cloud BI and dashboard software that allows devs and non-devs alike to do ad hoc visual analysis against data.  Slemma plugs in directly to the most popular databases (including XMLA data sources), cloud storage and cloud services, and allows to bypass the need for a warehouse. It is easy to create a dashboard by using intuitive drag-and-drop interface or writing and running SQLs to build charts.


Syncfusion Essential Studio Community License provides free access to the entire product offering for individual developers and small businesses. It includes all products available in Essential Studio Enterprise Edition and the enterprise solutions for big data, dashboards and reporting. Support and updates are also included. 

Netvibesis more geared to social media analytics, but can also be used outside this domain. The free service provides the dashboard and reader.

Qlik Sense is a next-generation, self-service data visualization and analysis application that empowers business users to easily create personalized visualizations, reports and dashboards with drag-and-drop simplicity. Free restricted for some cases

SpagoBIprovides dashboard capability as part of a much larger open source BI suite. SpagoBI offers a specific engine allowing the development of real-time monitoring consoles, to be used in Business, operational and BAM (Business Activity Monitoring) processes.


Zoho Reports is an online reporting and business intelligence service that helps you easily analyze your business data, and create insightful reports & dashboards for informed decision-making. It allows you to create and share powerful reports. The free service limits users (2) and data, and has cut down functionality.

Mas info
Dashboards y Visualizacion
Curso de Visualización y Dashboards

Visto en ButlerAnalytics

La historia de Pentaho

$
0
0
Una gran historia de la que formamos parte desde los comienzos y con un gran futuro


Hadoop Hive y Pentaho: Business Intelligence con Big Data (Caso Practico)

$
0
0


Cuando los profesionales del Business Intelligence (BI) oímos hablar de Big Data existe una cuestión que nos suele venir a la cabeza casi de forma natural ¿Es posible usar Big Data para el desarrollo de aplicaciones de BI típicas como el análisis OLAP o la generación de informes? 

A continuación, si la respuesta es afirmativa, con seguridad nos surgirán algunas dudas más:

  •   Posibilidades de conexión con las herramientas de BI. Por ejemplo con Pentaho, la suite BI Open Source más conocida y líder del mercado
  •   Rendimiento con aplicaciones de generación de informes y OLAP
  •   Carga de datos relacionales, procesos de ETL con Big Data, automatización de los procesos…

Para intentar dar respuesta a algunas de las cuestiones anteriores, hemos llevado a cabo un conjunto de pruebas para el desarrollo de aplicaciones BI haciendo uso del binomio Hadoop – Pentaho

La prueba ha consistido en replicar un Data Warehouse  generado en un proyecto real sobre una BBDD Oracle y con una alta volumetría, a un nuevo Data Warehouse en el clúster Hadoop usando la herramienta Apache Hive

Gracias a la conexión JDBC, conectaremos Hive con las aplicaciones disponibles en la suite Pentaho para evaluar la viabilidad de la generación de informes o reporting con Big Data, siendo esta una de las aplicaciones BI más demandadas en la actualidad por las empresas.
 
Para llevar a cabo la prueba hemos usado las últimas versiones 6.X de las herramientas de Pentaho y disponemos de un clúster Hadoop con las siguientes características:

·         Distribución 2.4 de Hortonworks
·         2 máquinas o hosts
·         2 procesadores por máquina (total 4)
·         16 Gb Ram por máquina (total 32 Gb)


Generación de informes

En la siguiente imagen puede verse la arquitectura de la aplicación BI desarrollada:


Para la carga de las tablas del DW de Oracle en Hadoop hemos usado tanto Sqoop como Pentaho Data Integration, gracias a la integración de esta última con HDFS y Sqoop. 

Tras esto, para la creación del Data Warehouse en Hadoop hemos usado la herramienta Apache Hive. Esta herramienta soporta consultas en lenguaje SQL y usa como almacenamiento el sistema de archivos distribuido de Hadoop HDFS. 
Además, recientemente se ha incorporado en la distribución Hortonworks el nuevo motor de ejecución Apache Tez, que mejora en gran medida el rendimiento de Hive haciendo uso intensivo de la memoria RAM del clúster y evitando el uso de IO a disco siempre que sea posible.

Por último, hemos usado la conexión JDBC disponible en Hive para conectar con las siguientes aplicaciones de la suite Pentaho, con el objetivo de dar soporte a la generación de informes sobre el Data Warehouse creado Hive:

 * Pentaho Reporting Designer: Usada para la generación de informes estáticos y parametrizables. Para las pruebas hemos creado 3 informes con consultas de distinta complejidad.

* Pentaho Metadata Editor: Creación de un modelo de metadatos que es usado por aplicaciones como STReport para la generación de informes AdHoc, herramienta incluida en la suite Lince BI, desarrollada por el equipo de StrateBI a partir de Saiku Reporting. Con STReport generaremos 3 informes con consultas similares a las de los 3 informes estáticos generados con Pentaho Reporting Designer.

* Pentaho BA Analytics (Servidor de BI): Servidor de BI de Pentaho, donde ejecutaremos los informes creados con Pentaho Reporting Designer y crearemos nuevos informes sobre el modelo de metadatos usando la herramienta STReport



Dado que los entornos Big Data están preparados para procesar volúmenes de datos mucho más grandes que los de nuestro DW de ejemplo, hemos creado dos tablas de hechos adicionales a la original de 1.240.361 filas, las cuales tienen 5.161.444 filas (x4) y 25.807.220 (x20) respectivamente. De esta forma hemos creado versiones de los 6 informes (3 estáticos con PRD y 3 adhoc con PME + STReport) que se ejecutan sobre las 3 tablas de hechos de distinta volumétrica. 

Tras la ejecución, en la siguiente tabla se muestran los tiempos de generación medidos:



Conclusiones

Esta prueba nos demuestra que es posible la generación de informes sobre datos que están almacenados en una plataforma Big Data como Apache Hadoop, gracias a las capacidades de la herramienta Apache Hive y su conectividad JDBC. 

También hemos comprobado como las herramientas de la suite Pentaho, gracias a su conectividad con Hadoop, son el complemento ideal para el desarrollo de aplicaciones BI que hacen uso del Big Data
No obstante es necesario tener en cuenta los tiempos de respuesta en la generación de informes, los cuales hacen que la generación de informes sobre Hive sea recomendada en casos los que el tiempo respuesta instantánea no sea un requisito indispensable. A cambio, obtenemos la posibilidad de generar informes sobre datos de tipo Big Data (Volumen, Variedad y Velocidad). 

En cualquier caso, nuestro clúster de pruebas tiene unas prestaciones muy reducidas, siendo habitual el despliegue de clúster que cuentan con más 5 máquinas y un cantidad de memoria RAM en conjunto superior a los 100 Gb. Es precisamente el uso intensivo de la RAM por Apache Hive (sobre el motor de ejecución Tez), lo que seguramente está penalizando nuestros tiempos en respuesta en más de 10-15 segundos.

Dado que existen más herramientas y aplicaciones BI susceptibles de ser desarrollados con la tecnología Big Data, en pruebas posteriores nos proponemos comprobar las capacidades de Apache Impala para la generación de informes en una distribución de Cloudera o el análisis OLAP usando el novedoso Kylin sobre Hadoop

Esperamos que os sea útil

·  


Cuestionario: Cuantos tipos de graficos conoces?

$
0
0

Para todos los que os gusta el Business Intelligence os va a encantar este test. Eso sí, os va a desesperar un poco ver como no recordáis el nombre de muchos gráficos de uso común.

Adelante con ellos: Entrar al Cuestionario

Streaming SQL with Apache Calcite

$
0
0


A new approach to Business Intelligence using Big Data Technologies by Julian Hyde, creator of Mondrian OLAP





Pentaho BI Server integration with Jasig CAS. A Quick Installation Guide

$
0
0

This quick installation guide aims to deploy a Pentaho Business Intelligence Server (BISERVER), version 5.4.0.1 Community Edition, in a local environment configured to use Central Authentication Service (CAS)protocol.

CAS provides access to a user to multiple systems with a single log-in process (Single sign-on, SSO). It requires that all established communications are conducted through Secure Sockets Layer (SSL), by which an  X.509 certificate will be also also needed for this deployment

Documento en español

Whitepaper in english


Predice el ganador de la Champions League con Business Intelligence

Business Intelligence Open Source tips in May

$
0
0

STMobile, aplicacion android para acceder a tu plataforma web Pentaho

$
0
0


Para todos aquellos que trabajáis con Pentaho, ya tenéis disponible la primera versión de la aplicación Android para acceder a entornos Pentaho

Con ST Mobile podrás acceder a tu plataforma web Pentaho Business Intelligence - Big Data Analytics y aprovechar todas las ventajas de tu Sistema de Inteligencia de Negocios desde un dispositivo Android en cualquier lugar y momento.

Controla indicadores de rendimiento; comparte información con empleados, proveedores y socios; calcula oportunidades comerciales rentables; conoce el comportamiento de tus clientes y mucho más con STMobile.
Nota: El uso de esta aplicación requiere una cuenta en un servidor Pentaho. 
Características:
- Accede de forma sencilla a la información alojada en tu servidor Pentaho.
- Sincronízala entre todos los usuarios del servidor.
- Abre archivos del servidor desde un dispositivo Android.
- Descarga archivos y carpetas completas en formato comprimido desde el servidor a un dispositivo Android.

Nuevas mejoras en Reporting Adhoc con Pentaho

$
0
0
Hace unas semanas, os hablabamos de las mejoras que habíamos desarrollado para el componente Reporting Adhoc de Pentaho, cuya evolución habían paralizado los creadores. 

Aquí, en esta Demo Online, además, lo podéis ver en funcionamiento

Hoy os contamos nuevas mejoras y novedades:


- Posibilidad de Seleccionar desde el Menú




- Mejorado el diseño de la barra de Menú y nuevo generador gráfico



- Estadisticas de ejecución de la query y generacion del informe





- Look & Feel homogenizado en todas las ventanas emergentes


Viewing all 866 articles
Browse latest View live