ncs-beatriz-sonia-martinez-s

Beatriz Sonia Martínez

Consultora Pentaho

Pentaho es un proyecto iniciado por una comunidad OpenSource, es la alternativa Open Source comercial para el BI (Business Intelligence o inteligencia de negocio). Fue diseñada para cubrir las necesidades empresariales de Análisis de Datos e Informes de las organizaciones.

Las soluciones están escritas en Java lo que la hace una solución muy flexible, ya que se pueden crear nuevos módulos para adaptarlo a las necesidades específicas de la organización.

ncs-febrero2018-blog-pentaho2

Pentaho proporciona reporting intuitivo, análisis OLAP, cuadros de mando, integración de datos, minería de datos y plataforma BI; lo que va a permitir:

  • Informar: acceder a los datos y suministrar información a toda la empresa.
  • Analizar: explorar y analizar los datos interactivamente y de forma muy rápida.
  • Sintetizar: conseguir inmediata visibilidad con medidas y ratios a través de cuadros de mando.
  • Integrar: pule e integra datos estén donde estén y desde múltiples fuentes.
  • Investigar: permite hacer minería de datos para descubrir patrones ocultos o tendencias futuras.

La suite Pentaho BI está compuesta por diferentes módulos que son:

  • Pentaho Analysis Services: basado en Modrian que es un servidor OLAP (procesamiento analítico en línea) escrito en Java. Es compatible con MDX (expresiones multidimensionales) y el lenguaje de consulta XML para el Análisis y especificaciones de la interfaz olap4j.
  • Pentaho Reporting: Consiste en un motor de presentación, capaz de generar informes programáticos sobre la base de un archivo de definición XML.
  • Pentaho Data Mining: Es una envoltura alrededor del proyecto Weka (Minería de datos). Es una suite de software que usa estrategias de aprendizaje de máquina, aprendizaje automático y minería de datos. Cuenta con series de clasificación, de regresión, de reglas de asociación, y de algoritmos de clustering, para así apoyar las tareas de análisis predictivo.
  • Pentaho Dashboard: Es una plataforma integrada para proporcionar información sobre sus datos, donde se pueden ver informes, gráficos interactivos y los cubos creados con las herramientas Pentaho Report Designer.
  • Pentaho para Apache Hadoop: Es un conector de bajo nivel para facilitar el acceso a grandes volúmenes manejados en el proyecto Apache Hadoop.

Pentaho ofrece una edición empresarial y comunitaria del software. El software empresarial se obtiene a través de una suscripción anual y contiene funciones y soporte adicionales que no se encuentran en la edición de la comunidad.

Características básicas

  • Plataforma 100% J2EE: asegurando la escalabilidad, integración y portabilidad.
  • Servidor: puede correr en servidores compatibles con J2EE como JBOSS AS, WebSphere, Tomcat, WebLogic y Oracle AS.
  • Base de datos: vía JDBC, IBM DB2, Microsft SQL Server, MySQL, Oracle, PostgreSQL, NCR Teradata, Firebird,...
  • Sistema operativo: no hay dependencia. Lenguaje interpretado.
  • Lenguaje de programación: Java, Javascript, JSP, XSL (XSLT/XPath/XSL-FO).
  • Interfaz de desarrollo: Java SWT, Eclipse, Web-based.
  • Repositorio de datos: basado en XML.
  • Todos los componentes están expuestos vía Web Services para facilitar la integración con Arquitecturas Orientadas a Servicios (SOA).

Ventajas y desventajas

Las ventajas más importantes a considerar a la hora de la elección de la herramienta son:

  • Open Source, al ser de código abierto, no es necesario adquirir licencias para su uso (coste cero).
  • Multiplataforma, funciona tanto en Linux, Windows y macintosh
    Entorno gráfico de desarrollo
  • Usa tecnologiás estándar como Java, XML o Javascript
  • Posee entornos gráficos de desarrollo tanto en PDI, como BI server, y las demás herramientas.
  • Fácil de instalar y configurar.
  • Es una solución flexible, ya que al estar desarrollada en Java, permite crear nuevas funcionalidades o módulos para adaptarlo a las necesidades de la organización.
  • Cuenta con un poderoso motor de data mining y servidor OLAP.
  • En las últimas versiones muy enfocado a Big Data y bases de datos no relacionales.
  • Hay una inmensa comunidad trabajando y testeando las nuevas versiones de community y trabajando en nuevas funcionalidades.

La principal desventaja es que no hay demasiada documentación fiable. Pentaho dispone un manual de usuario básico, en la que no se detallan muchos de los conceptos, lo que dificulta el desarrollo y el despliegue de la solución. Además, la mayoría de esta documentación está creada por usuarios, que normalmente detallan soluciones a problemas concretos.

Otra de la desventaja de Pentaho, es que las herramientas que forman parte de la suite, se han desarrollado por separado. Es decir, los desarrolladores se ven con la obligación de usar diferentes metodologías para poder hacer las mismas acciones pero en diferentes herramientas, perjudicando el aprendizaje y desarrollo de posibles soluciones.

Información relacionada