En este blog mostraremos información acerca de la nueva funcionalidad de Power BI, los llamados dataflows, que ya existen en otros servicios como Office 365. Hay que recalcar que esta nueva utilidad se encuentra todavía en fase beta, por lo que a día de hoy está sujeta a cambios y actualizaciones.

Los Dataflows son una nueva funcionalidad del servicio Power BI para procesos ETL de autoservicio que permiten a los analistas y/o usuarios de negocio compartir entidades de datos reutilizables y construirlos mediante Power Query.

A diferencia de los Datasets de Power BI, que al fin y al cabo son modelos tabulares de Analysis Services, los Dataflows se almacenan como entidades en Common Data Service (CMD) en Azure Data Lake Storage Gen2 (ADLSg2). Tanto los Datasets (Analysis Services) como los Dataflows (CMD) tienen en común la característica de que la tecnología subyacente es opaca para el usuario.

Figura 1. Esquema funcional

 

Los Dataflows permiten que los mismos usuarios que están familiarizados con los conjuntos de datos, informes y consultas en Power BI también creen los bloques de construcción de datos reutilizables que luego pueden servir como fuente de datos para sus Datasets.

 

Limitaciones de los Dataflows

Antes de entrar de lleno en el tema, es importante saber que los Dataflows tienen algunas limitaciones en función del tipo de usuario de Power BI. Para poder usar está funcionalidad hay que ser, como mínimo, un usuario Pro. Con una licencia estándar gratuita no podremos disfrutar de los Dataflows.

Ahora, dependiendo si la licencia es Premium o Pro, dispondremos de más o menos funcionalidades dentro de los Dataflows:

FuncionalidadLicencia ProLicencia Premium
Actualización programada8/día48/día
Almacenamiento total10 GB/usuario100 TB/nodo
Creación de flujos de datos con Power Query Online
Administración de flujo de datos en Power BI
Conector de datos de flujos de datos en Power BI Desktop
Integración con Azure
Entidades calculadas (transformaciones en almacenamiento mediante M)
Nuevos conectores
Actualización incremental de flujos de datos
Ejecución en capacidad Premium de Power BI/ejecución paralela de transformaciones
Entidades vinculadas a flujos de datos
Esquema estandarizado/soporte integrado para Common Data Service

Tabla 1. Información obtenida de la página oficial de Microsoft (docs.microsoft.com)

 

Ejemplo de creación y uso de Dataflows

A continuación, se mostrará detalladamente los pasos a seguir para poder crear y utilizar los Dataflows con una licencia de Power BI Pro.

Lo primero que deberemos de hacer es dirigirnos a nuestro servicio app.powerbi.com. Allí, crearemos un Workspace sobre el que crearemos nuestro Dataflow. Para el uso de los Dataflows es necesario descargar y configurar el Data Gateway para conectar a nuestro origen de datos.

Figura 2. Necesidad de descargar y configurar el Data Gateway

 

Una vez que hayamos creado nuestro Workspace y configurado el Data Gateway para que apunte al origen de datos, accederemos al nuevo Workspace y crearemos nuestro Dataflow.

Figura 3. Creación del Dataflow

 

Inmediatamente nos aparecerá la ventana en la que se encuentra el editor de Dataflows. En ella, lo primero que debemos hacer es añadir una nueva entidad que será nuestro origen de datos. A continuación, se nos pide seleccionar un origen de datos. En nuestro caso, SQL Server. Después, configuraremos la conexión a este origen de datos seleccionando el Gateway que debemos haber descargado, instalado y configurado previamente.

Figura 4. Configuración de la conexión del Dataflow

 

A continuación, ya tendremos la conexión creada a nuestro origen de datos y podremos extraer las tablas que queramos mediante Power Query:

Figura 5. Datos importados

 

En la siguiente ventana tendremos un editor de consultas muy parecido al que tenemos en Power BI Desktop donde, mediante código M o transformaciones básicas, podremos modificar nuestros datos de origen. Sobre el icono de cada tabla, en la parte izquierda, vemos un interrogante. Éste desaparecerá a medida que vayamos clickando en cada una de las tablas y se haga el primer refresco de la información. Una vez que hayamos hecho las modificaciones pertinentes en el editor, clickaremos en el botón “Done” y ya podremos guardar nuestro primer Dataflow, el cual puede ser editado siempre que el usuario lo necesite.

Figura 6. Editor de query del Dataflow

 

Para conectar al Dataflow desde Power BI, es necesario hacer un primer refresco del dato.

Figura 7. Primer refresco del dato

 

Además, de igual manera que ocurre con el resto de elementos del servicio de Power BI, a los Dataflows también se les puede establecer un refresco programado de los datos. Como vemos, al tratarse de una licencia Pro y como hemos comentado en el apartado previo de limitaciones, “solo“ puedo programar 8 refrescos.

Figura 8. Refresco programado

 

Por último, desde Power BI Desktop, podremos conectar a nuestro Dataflow y tratarlo como un origen más de datos en el que podemos hacer las relaciones necesarias, crear medidas DAX, editar las queries usando código M o transformaciones básicas…

Figura 9. Conexión a nuestro Dataflow desde Power BI Desktop

 

Hay que comentar que al tratarse de una versión beta, tiene sus pequeños fallos. Entre estos fallos, por ejemplo, al importar las tablas de nuestro Dataflow, Power BI nos crea unas relaciones. Estas relaciones no tienen por qué estar hechas por los campos correctos. Además, tampoco se relacionan todas las tablas entre sí. Por este motivo, es conveniente que el usuario las revise cuando vaya a empezar con el modelado.

Figura 10. Modelo creado automáticamente que es conveniente revisar

 

Bibliografía

La información técnica de este blog ha sido extraída de:

Rafael Toledo

Rafael Toledo

Data Platform Specialist at SolidQ
Rafael Toledo