Una vez que tenemos identificados los orígenes de datos y definido el Data Warehouse y/o los Data Marts, básicamente lo que tenemos es una estructura preparada para el análisis de la información, pero hasta el momento, vacía. Veremos ahora el proceso ETL, comentando brevemente la solucion SSIS para BI corporativo y presentando Power Query.

Los procesos ETL (por sus siglas en inglés: Extract, Transform and Load) son los que se encargan de poblar de información, pasando una serie de procesos a partir de la extracción desde los diversos orígenes, que hagan las transformaciones y cálculos necesarios, que hagan tareas de limpieza, que detecten incoherencias, datos sin completar, validaciones de reglas de negocio y demás. Y una vez hechas todas estas integraciones y transformaciones para conseguir la estructura y calidad del dato necesaria para almacenarla en el destino, que la graben (carguen) en el Data Warehouse y/o en los Data Marts.

Los procesos ETL se ejecutan periódicamente (cada minuto, cada hora, cada día, cada semana, cada mes, cada semana de lunes a viernes, etc.), siendo a día de hoy la ejecución diaria la más habitual (normalmente, durante el periodo de poca o ninguna actividad en los sistemas transaccionales, que suele ser por las noches), para que así, cuando los usuarios de negocio lleguen cada mañana, tengan toda la información hasta el cierre del día anterior actualizada.

Diseñar un buen proceso ETL es vital para cualquier proyecto. Tanto por la calidad del dato, como por duración de su ejecución.

Hoy en día la mayoría de las herramientas que existen para realizar los procesos ETL están orientadas a su instalación en servidores y a su uso por parte del departamento de TI.

En el caso de la plataforma Microsoft, la herramienta es SQL Server Integration Services (SSIS). Esta es la definición que hace Microsoft de ella:

“Microsoft Integration Services es una plataforma para la creación de soluciones empresariales de transformaciones de datos e integración de datos. Integration Services sirve para resolver complejos problemas empresariales mediante la copia o descarga de archivos, el envío de mensajes de correo electrónico como respuesta a eventos, la actualización de almacenamientos de datos, la limpieza y minería de datos, y la administración de objetos y datos de SQL Server. Los paquetes pueden funcionar por separado o conjuntamente con otros paquetes para hacer frente a las complejas necesidades de la empresa. Integration Services puede extraer y transformar datos de muchos orígenes distintos, como archivos de datos XML, archivos planos y orígenes de datos relacionales, y, posteriormente, cargarlos en uno o varios destinos.

Integration Services contiene un variado conjunto de tareas y transformaciones integradas, herramientas para la creación de paquetes y el servicio Integration Services para ejecutar y administrar los paquetes. Las herramientas gráficas de Integration Services se pueden usar para crear soluciones sin escribir una sola línea de código. También se puede programar el amplio modelo de objetos de Integration Services para crear paquetes mediante programación y codificar tareas personalizadas y otros objetos de paquete.”

Si desea profundizar en sus conocimientos sobre SQL Server Integration Services (SSIS) puede descargar el libro gratuito “Microsoft BI: Vea el cubo medio lleno”, autor: Salvador Ramos, editorial SolidQ Press. http://bit.ly/LibroBIcubo y también puede compartir este enlace con los técnicos de su equipo.

Por el momento sólo queremos que se quede con la idea de que Microsoft ofrece una potente herramienta ETL orienta al uso por el departamento de TI. Esto ocurre igual en las plataformas de BI de otros fabricantes; la diferencia es que Microsoft ha creado una herramienta ETL adicional, orientada al usuario de negocio, llamada Power Query, que se integra en Excel 2013 como un “complemento” (add-in) que se puede descargar de forma gratuita desde su web, y una vez instalada, simplemente, agrega una opción de menú, también llamada Power Query, a la “cinta” (ribbon) de menús de Excel. Evidentemente no tiene la potencia y flexibilidad de una herramienta ETL para BI corporativo y orientada al personal de TI, pero es ideal para soluciones de BI Personal, tanto por su potencia como por su facilidad de uso. A continuación estudiaremos más a fondo esta herramienta.

Si está habituado a construir informes y cuadros de mando a base de copiar y pegar datos de los orígenes a sus hojas Excel, y a partir de ahí seguir la misma secuencia de pasos manuales, una y otra vez, hasta convertirlos en información útil y aplicar complejas fórmulas, que tiene que revisar todo cada vez que cambian los datos, por si han cambiado los rangos de celdas u otros detalles. Power Query le ayudará a automatizar, de una vez por todas, estos procesos y se complementará con el resto de componentes de Power BI para facilitarle el análisis de información.

Nota: También hay una versión de Power Query para Excel 2010 que puede descargar e instalar de forma gratuita. Son muy similares ambas versiones, aunque aquí vamos a utilizar Power Query para Excel 2013.

Trabajando con Power Query

Power Query es un complemento para Excel que nos permite conectarnos a una gran diversidad de orígenes de datos (Access, MySQL, SQL Server, Oracle, archivos de texto, fuentes públicas de datos, OData, Marketplace, etc.) y transformar los datos obtenidos en función de nuestras necesidades. Puede crear o eliminar columnas, renombrarlas, combinar tablas, unir tablas, hacer cálculos; en definitiva partir de los datos de origen y hacer todas las transformaciones necesarias para convertirlos en información preparada para el análisis, y finalmente almacenarlos, tanto en una hoja Excel tradicional (WorkSheet) como en los nuevos modelos de Power Pivot (Excel Data Model). Todos estos procesos quedan almacenados para su posterior ejecución que refresque los datos, tan sólo pulsando el botón “Refrescar”, sin necesidad de repetir una y otra vez esas tareas repetitivas y tediosas de transformación de forma manual que realizamos con el Excel tradicional cada vez que queremos actualizar la información.

En otras palabras, lo podríamos definir como una “herramienta ETL (Extract, Transform and Load) orientada al usuario final” (no es necesario saber de programación) y que está totalmente integrada en Excel. Como puede comprobar en la siguiente imagen, su interfaz es un menú más en la “cinta” (Ribbon) de Excel.

ribbonexcel

Nota: Aunque disponga de Excel en Español, las opciones de Power Query no han sido traducidas, sólo están disponibles inglés. Puede apreciarlo en la imagen anterior.

En la siguiente imagen vamos a ubicar Power Query junto con el resto de componentes de Power BI para Excel, con el objetivo de tener una visión global:

Power query introduccion

Hasta aquí la introducción a Power Query. En las siguientes entregas entraremos en detalle sobre los posibles orígenes de datos que podemos explotar, como son archivos planos, a archivos XML, páginas web, la mayoría de las bases de datos del mercado, listas de SharePoint, incluso Facebook y fuentes Open Data.

Si os gustan nuestros posts, desde SolidQ os invitamos a visitar nuestro bloga suscribiros a nuestra newsletter para recibir las últimas novedades del sector en vuestro correo 🙂

Salvador Ramos

Mentor & Training Delivery Lead at SolidQ
I am a Mentor at SolidQ currently focused on the area of ​​Business Intelligence. After more than 20 years of experience I have participated in many different projects, from small desktop applications to larger ones.

My last jobs have been as an IT director, consultant and trainer. My wide job experience in transactional projects, in sectors such as banking, payment methods, hotels, gas station networks... I have also a lot of experience in SQL Server and the rest of the components of the Microsoft BI platform.
Salvador Ramos

Latest posts by Salvador Ramos (see all)