Pentaho Data Integration (PDI)

Introducción

Pentaho Data Integration (PDI) incluye un motor de integración de datos de Código Abierto, una interfaz de usuario para el desarrollo de las tareas y transformaciones y utilidades de línea de comando para la ejecución de tareas (útiles para programar tareas de integración de datos)

Conexiones

Una conexión incluye todos los parámetros de conexión a una Base de Datos. Las conexiones pueden ser compartidas y utilizadas por cualquier componente que requiera acceder a una Base de Datos.

Los drivers JBDC deberán estar presentes  en el directorio <data-integration>\lib

driver-jdbc-pdi

Transformaciones

Una transformación incluye un conjunto de pasos conectados por saltos que definen un flujo de transformación para cada fila.

transformacion-pdi

Cada paso de la transformación debe tener un nombre y realiza una tarea específica de extracción, transformación o carga recibiendo filas por un salto de entrada y enviando filas por uno o más saltos de salida. Los pasos se ejecutan en paralelo y, en términos generales, realizan las siguientes tareas:

  • Entrada de datos
  • Insertar o actualizar datos
  • Búsqueda de datos
  • Transformar y calcular datos

Una fila es un conjunto de campos que contienen datos en uno de los siguientes tipos:

  • String. Secuencias de caracteres.
  • Number. Números con punto flotante
  • Integer. Números enteros.
  • BigNumber. Número con mayor precisión de Integer.
  • Date. Fecha con precisión hasta el milisegundo.
  • Boolean. Valor lógico como true o false
  • Binary. Datos binarios como imágenes, sonidos, videos, etc.

Tareas (Jobs)

Una tarea permite controlar la secuencia en la cual se ejecutan las trasformaciones; por ejemplo, ejecutar primero la carga de las dimensiones y luego las carga de los hechos. Los saltos entre los pasos de una tarea determinan el orden en el cuál se ejecutan los pasos, la ejecución del siguiente paso en una tarea se puede hacer 1) de manera incondicional, 2) si el paso previo se ejecutó con éxito y 3) si el paso previo no se ejecutó con éxito.

tarea-pdi

Carga de Dimensiones

Durante la carga de dimensiones deben considerarse los siguientes aspectos:

  • La creación de una fila para representar el caso “Inexistente”, “Nulo”
  • Decodificación y renombramiento de campos a valores textuales descriptivos
  • La preservación del histórico de cambios

Carga de Hechos

Durante la carga de hechos deben considerarse los siguientes aspectos:

  • Identificar los hechos nuevos o modificados desde la última carga.
  • Realizar agregaciones
  • Identificar la fila apropiada para cada dimensión en las tablas de hecho

Referencias

  • Bouman, Roland (2009) Pentaho® Solutions: Business Intelligence and DataWarehousing with Pentaho and MySQL®. Wiley
  • Casters, Matt (2010). Pentaho® Kettle Solutions: Building Open Source ETL Solutions with Pentaho Data  Integration. Wiley.
  • Mockaroo: Servicio para la generación de Datos de Prueba

Comments are closed.