Instalar y conectar Sqoop con SQL Server

Instalar y conectar Sqoop con SQL Server

Como comentamos en el post anterior, Sqoop nos permite la transferencia de datos entre bases de datos relacionales (RDBMS) y Hadoop. En este post vamos a explicar como conectar SQL Server 2012 con Sqoop.Por defecto, Sqoop no viene instalado en HDInsight, por lo que debemos realizarla nosotros, pero se trata de un proceso muy sencillo que ahora veremos.

(más…)

Optimizando el componente DQS Cleansing en SSIS 2012 (parte 1 de 2)

Optimizando el componente DQS Cleansing en SSIS 2012 (parte 1 de 2)

En la actualización para la Cumulative Update 1 del documento DQS Performance Best Practices podíamos encontrar las recomendaciones hardware así como las estimaciones de tiempo que el grupo de producto daba como orientación a la hora de ejecutar los diferentes procesos que puede llevar a cabo SQL Server 2012 Data Quality Services. Además, encontramos información acerca de los factores de mejora de estos procesos en el caso hipotético de que doblemos el número de núcleos de proceso (cores), siempre dependientes de la arquitectura general de la que dispongamos, conocido como el scale-up factor. (más…)
Hackeando los grupos de disponibilidad: Rompiendo el límite de cinco réplicas

Hackeando los grupos de disponibilidad: Rompiendo el límite de cinco réplicas

Los grupos de disponibilidad son una nueva característica de SQL Server 2012 muy útil en muchos escenarios. Un escenario donde es especialmente útil es aquel en el que tenemos múltiples copias de solo lectura de una o varias bases de datos en varios servidores. Estos escenarios se cubrían habitualmente mediante el uso de Log Shipping con múltiples secundarios o bien con replicación transaccional. (más…)
Cargar Slowly Changing Dimensions sin castigar a nuestro DWH relacional

Cargar Slowly Changing Dimensions sin castigar a nuestro DWH relacional

En ocasiones al construir sistemas de Inteligencia de Negocios nos podemos olvidar de las buenas prácticas sobre nuestros sistemas relacionales en los que nos apoyamos. Sin embargo, esto puede derivar en problemas para nuestros procesos de carga. Para evitarlo es conveniente diseñar correctamente nuestros sistemas a todos los niveles, desde la primera fuente de datos hasta el último reporte que construyamos. (más…)
SSIS Capturar duplicados en el flujo de datos

SSIS Capturar duplicados en el flujo de datos

Es muy común encontrarnos con escenarios en los que tenemos que consumir orígenes de datos que contienen duplicados, tanto por columnas clave como por filas completas. Integration Services ofrece componentes que permite eliminar los duplicados (componente Sort), pero en esta entrada vamos a centrarnos en un diseño que nos permita capturar las filas duplicadas por columnas clave para su posterior tratamiento, utilizando la menor cantidad de código posible (componente Script). (más…)

Máquina virtual con SQL Server 2012

Ayer durante la sesión B300002 (Entendiendo el espectro de BI) del SolidQ Summit hablábamos sobre una máquina virtual publicada por Microsoft que disponía de SQL Server 2012 en su última versión. En esta máquina disponéis de SSAS instalado en sus 3 variantes (tabular, multidimensional y PowerPivot para SharePoint). En esta máquina tenéis disponible SharePoint y PowerPivot para SharePoint, además de PowerView para crear esos informes tan divertidos que venimos viendo durante todo el Summit. (más…)
Administrando SSIS 2012 mediante T-SQL

Administrando SSIS 2012 mediante T-SQL

En SQL Server 2012 se introduce la nueva arquitectura para Integration Services, con una base de datos dedicada y un nuevo modelo de despliegue basado en esta arquitectura. Podéis encontrar información acerca de estos cambios en los artículos anteriores de esta serie. (más…)
Aplanando mi dimensión Padre-Hijo

Aplanando mi dimensión Padre-Hijo

Cuando hablamos de una dimensión Padre-Hijo (Parent-Child en inglés) debemos tener en mente que si esta crece demasiado podríamos tener problemas de rendimiento. Por este motivo muchas veces se aconseja intentar aplanar la dimensión. Esta tarea puede ser más sencilla o compleja en función de nuestra lógica de negocio. Mi intención con este post no es más que mostrar un pequeño ejemplo que nos encontramos para conocer una de las posibles formas de hacerlo. En nuestro ejemplo tenemos una dimensión Padre-Hijo que dispone de versionado tipo 2 para el atributo que indica quién es el padre. Aquí un ejemplo (para simplificar el ejemplo sólo se muestran las columnas clave): (más…)