Blog Archive

SQL-Server

 
Eladio Rincón

Estado actual (18 de abril 2012) de los Appliances de Data Warehouse en Plataforma Microsoft

2012-05-18 16:28:55 por Eladio Rincón

Introducción

Hace algo más de un mes que salió SQL Server 2012 con funcionalidades muy interesantes para el mundo de los data warehouses. La funcionalidad a la que más provecho se le puede sacar de SQL Server 2012 es la compresión – almacenamiento – de tipo columnar;  si desea ver un video sobre dicha característica, Enrique Puig lo detalló en las 12 horas de SQL Server 2012 (en castellano). También, si desea más profundidad sobre el tema, podría asistir a la siguiente sesión del SolidQ Summit 2012: Índices Columnares en SQL Server 2012;

Sin embargo, los fabricantes todavía no tienen actualizados sus appliances a SQL Server 2012 por lo que dicha funcionalidad no se puede utilizar. DELL parece que está preparando una novedad importante en su generación 12 de PowerEdge, donde parece que además de utilizar Índices columnares, utilizarán almacenamiento tipo Flash via PCI – por fín. Por parte de HP, la generación de servidores G6 es la que actualmente se comercializa con los los appliances, pero están trabajando muy duro para actualizar todos sus appliances a G7, que también promete. Ayer jueves 17, en un evento de HP-España comentaron que se está preparando un G7 con almacenamiento Flash (no especificaron si discos SSD o tarjetas PCI) para el Business Data Warehouse appliance con SQL Server 2012.

Todos estos movimientos no son gratuitos; Oracle lleva ya un tiempo con Exadata utilizando flash PCI en sus servidores Sun, y a diferencia de los appliances de SQL Server – parece – que tiene mecanismos nativos de Oracle para decidir qué información cachear en la PCI y cual no. Desde luego es una ventaja competitiva importante, porque puede aplicar inteligencia al uso de PCI. El contrapunto es el coste de la solución que resulta poco competitiva desde el punto de vista de precios.

La diferencia entre Exadata y lo que parece va a liberar HP con almacenamiento Flash es que HP ofrecería todo el storage en almacenamiento Flash, mientras que Exadata sólo ofrece un porcentaje de todo el almacenamiento; desde el pto. de vista de arquitectura, en Exadata la memoria Flash actúa como caché-intermedia entre los discos y el SGBD, que resulta diferente a la propuesta de HP-G7-Flash donde todo el data estará almacenado en Flash.

¿Cuales son los appliances que existen ahora mismo en el mercado?

Vivimos unos días en los que la explosión de los appliance está viviendo su momentum, y si a nosotros – orientados a tecnologías específicas – nos cuesta seguir la pista, prefiero no imaginar el lío que deben tener en sus cabezas los CIO o CTO que deben tener una perspectiva muy a alto nivel.

 

Para explicar los appliances existentes, me centraré en HP porque es el fabricante con los el que estoy más familiarizados; creo que HP es quién más está apostando por los appliances de SQL Server, aunque ahora está “empujando” DELL también en la misma línea.

HP tiene 3 líneas diferenciadas de appliances para gestión de datos y 1 arquitectura de referencia que en realidad no es appliance:

1) HP Business Decision Appliance

2 procesadores Six-Core Intel® Xeon® 5650 processors, 96GB de RAM

8 SAS Drives: HP 300GB 6G SAS 10K rpm SFF (2.5-inch) Dual Port Enterprise

Microsoft Windows Server 2008 R2 Enterprise Edition

Microsoft SharePoint Server 2010

Microsoft SQL Server 2008 R2 Enterprise

El precio de lista está en torno a 15.000USD, donde está licenciado el sistema operativo.

El resto de componentes deben comprarse aunque están pre-instalados (SQL Server y SharePoint).

Este appliance es pequeñito, y su mercado son PYMES y DataMarts Departamentales no son demasiado grandes.

 

2) HP Business Datawarehouse Appliance

-Utilizando la serie HP ProLiant DL370, “capacitado” para gestionar hasta 5TB de datos comprimidos; el almacenamiento tiene capacidad para 2TB físicos que sería la capacidad máxima de almacenamiento. El precio de esta máquina (con OS incluido está en torno a los 30.000EUR, y aparte se debe licenciar SQL Server.

-Un aspecto muy interesante de este appliance es que tiene aplicativos preinstalados – llamado Appliance Configuration Utility – para desplegar bases de datos, monitorizar, realizar cargas, mantenimiento, y análisis de fragmentación; dicho de otro modo, HP-MS proporciona una serie de herramientas muy útiles para la gestión del appliance. En general es muy útil para gente no experta en SQL Server porque tiene plantillas muy interesantes para su instalación/monitorización/movimiento de datos.

3) Arquitectura de Referencia (RA) Fast Track Data Warehouse

En una frase: yo me lo guiso y yo me lo como. La RA es un conjunto de buenas prácticas, guias, configuraciones, trucos, tips,etc. para que tu puedas montar el Appliance en tu organización. Te aporta la flexibilidad de trabajar con diferentes modelos de máquinas, y a la vez poder elegir cual es el almacenamiento que necesitas; la RA da soluciones para almacenamiento desde 1TB hasta 80-100TB. Los aspectos clave son los siguientes:

-Basado en almacenamiento no-muy-caro: Cabinas MSA P3000.

-Basado en G7 de Proliant: DL360, DL38x (Intel y AMD), DL58x (Intel y AMD), y DL980

Informacion de la RA la tienes aquí: donde puede descargar la herramienta de Sizing que te ayuda a calcular qué hardware necesitas para tus necesidades de negocio, y el documento oficial de la RA.

Esta documentación está preparada para SQL Server 2008R2 Enterprise Edition, y se está trabajando en la versión para SQL Server 2012; para la versión 2012, me atrevo a asegurar que en lugar de configuraciones con mínimo 96GB de RAM, lo definirán con 128GB de RAM mínimo para sacar el máximo partido al almacenamiento columnar.

Los precios obviamente varian en función de qué configuración haya elegido, pero recuerde que es muy importante seguir las guias de referencia; por ejemplo, el sistema de almacenamiento no debe ser compartido con otros sistemas. La razón es porque está super-optimizado al límite, y en caso de tener que servir datos a otros sistemas satélite, el sistema quedaría “des-balanceado”.

Aquí podemos ayudar a nuestros clientes mucho por varias razones:

-SolidQ-Ibero ha sido la única empresa que ha implementado Fast Track en clientes en España.

-SolidQ-Ibero-Brazil-CE, han sido los únicos que han formado a clientes y partners e incluso a HP en Fast Track: hemos formado en FTDW en: Budapest, Moscú, Madrid, Lisboa, Praga, Hong-Kong, Sao-Paulo, Kuala Lumpur. En el Summit 2011 tuvimos una sesión al respecto.

4) HP Enterprise Datawarehouse Appliance

Microsoft y HP deben ponerse de acuerdo con los nombres, porque unos le llamada Enterprise (HP) y otros Parallel (Microsoft). No se confunda que es el mismo nombre. Este appliance es el que resulta completamente diferente a todos los anteriores; pasamos de una arquitectura SMP a MMP; primero un dibujo:

Un Rack de Control que es el punto de entrada al appliance y gestión.

Uno (o varios) Racks de Datos, que está formado por servidores BL 360 y cabinas P3000 para almacenar los datos.

En el Rack de Control, el componente más importante es el nodo de control, es quien se encarga de pedir al rack de datos que ejecute las consultas que le van llegando.

Cada servidor en el rack de datos, se le llama Compute Node, y está asociado a su propia cabina.

La conexión entre los Racks está montada sobre una red Infiniband ultra-rápida.

Especificaciones hardware:

    1. Control Node - HP ProLiant DL380 (2x X5690) G7 servers (2)
      • Twelve (12) HP 8GB (1x8GB) Dual Rank x4 PC3-10600 (DDR3-1333) Registered CAS-9 Memory Kit
      • Fourteen (14) HP 300GB 6G SAS 10K rpm SFF (2.5-inch) DualPort Enterprise Hard Drive
    2. Control Node storage: HP MSA P2000 G3 array (2)
    3. Management servers - HP ProLiant DL360 G7 servers (2)
    4. Landing Zone - HP ProLiant DL370 G6
    5. Compute Nodes - HP ProLiant DL360 (2x X5670) G7 servers
      • Twelve (12) HP 8GB 2x4 PC3-10600R-9
      • Eight (8) HP 600GB 6G SAS 10K 2.5in DP ENT HDD

El sistema de almacenamiento de cada Compute node tiene las siguientes opciones de almacenamiento:

  1. Option 1:
    • One (1) HP P2000 G3 FC MSA Dual Controller LFF Modular Smart Array System
    • Eleven (11) HP P2000 300GB 6G SAS 15K LFF (3.5 inch) DP ENT HDD
  2. Option 2:
    • One (1) HP P2000 G3 MSA FC Dual Controller SFF Modular Smart Array System
    • Twenty-four (24) HP 300GB 6G SAS 10K SFF (2.5 inch) DP ENT HDD
  3. Option 3:
    • One (1) HP P2000 G3 MSA FC Dual Controller LFF Modular Smart Array System
    • Eleven (11) HP P2000 1TB 6G SAS 7.2K LFF (3.5 inch) DP MDL HDD
  4. Option 4:
    • One (1) HP P2000 G3 MSA FC Dual Controller SFF Modular Smart Array System
    • Twenty-four (24) HP P2000 600GB 6G SAS 10K SFF (2.5 inch) DP ENT HDD

Donde para un Rack, dependiendo de la capacidad de los discos, podría irse de 15TB hasta 61TB.

también se pueden elegir diferentes configuraciones: desde medio rack, hasta 4 racks, donde el almacenamiento sería el siguiente:

 

Considere que los calculos de almacenamiento son basados en RAID1, y asumiendo una compresión de 3.5X.

El precio del hardware de 1 rack está en torno a 1M USD (precio de lista), y no están incluidas las licencias. El precio debe ponerlo en contexto con otra soluciones del mercado como Teradata, Exadata y Netezza; en este caso, el precio de EDW/PDW resulta mucho más competitivo que la competencia. Calculando son 10 nodos de calculo don 2 procesadores cada uno, si asemenajos a licencia normal de SQL Server 2008 Enterprise Edition, estaríamos hablado de 2 x 10 x 25.000 USD = 500.000 USD sólo por los nodos de cálculo… luego faltaría el nodo de cálculo, landing zone, managment nodes, ec. … de todas formas son “estimaciones” mias, y debería contactar con su represetante de ventas de Microsoft.

Respecto al software: está basado en SQL Server 2008 R2 (SI, es SQL Server a pesar de que hace unos años se adquiriera DatAllegro), y actualmente se encuentra en versión AU3 (Appliance Update 3). Nosotros hemos trabajado en configuraciones con un Rack de datos en CPDs de Microsoft en EEUU, y la verdad es que es una delicia. En concreto, hemos desarrollado la formación oficial para PDW, y estamos ejecutando Pruebas de Concepto para empresas de Europa. También estamos eventos de un día para clientes de Microsoft en diferentes países (si estás interesado, contacta conmigo a ver si podemos hacer algo).

En definitiva, este appliance es una apuesta para clientes que necesitan consultar y procesar grandes cantidades de datos, y para ello tiene funcionalidades peculiares, como por ejemplo:

  • Mover datos al Appliance a velocidades muy altas
  • Cargar datos en tablas con tasas de transferencias sobre 2TB/hora
  • Crear tablas de forma casi instantánea aprovechando distribución de datos entre nodos de cálculo
  • Leer tablas a velocidades muy altas (17GB/sec)

Conclusión

Cada appliance está construido para escenarios concretos:

  • HP Business Decision Appliance: Datawarehouse chiquititos con SQL Server y SharePoint en el mismo servidor.
  • HP Business Datawarehouse Appliance: Data Marts Departamentales.
  • Arquitectura de Referencia (RA) Fast Track Data Warehouse: Realmente no es un appliance.
  • HP Enterprise Datawarehouse Appliance: para sistemas realmente grandes (hasta 500TB).

Actualmente todos los Appliances están diseñados y optimizados para SQL Server 2008R2; los fabricantes se están esforzando en actualizarlos a 2012 en los próximos meses.

Comments

No Comments
Leave a Comment
(*) Title:
(*) Name:
Your URL:
(*) Comments:
Follow us on: