Apache Hive en HDInsight: Primeras consultas (queries) HiveQL (II)

Apache Hive en HDInsight: Primeras consultas (queries) HiveQL (II)

En publicaciones anteriores hemos creado la BBDD de Hive para almacenar datos, y hemos cargado datos en HDInsight (HDI) además de crear la tabla externa que hace referencia a los archivos cargados.Recapitulando información de la Introducción a Hive, debemos recordar que el objetivo que se persigue con Hive es:

  • Utilizar un lenguaje parecido al SQL tradicional (HiveSQ).
  • Mediante este lenguaje ejecutar trabajos Map&Reduce sobre el data almacenado.

A continuación vamos a ejecutar consultas con la herramienta de línea de comando y analizaremos el comportamiento.

(más…)

Apache Hive en HDInsight: Primeras consultas (queries) HiveQL

Apache Hive en HDInsight: Primeras consultas (queries) HiveQL

En publicaciones anteriores hemos creado la BBDD de Hive para almacenar datos, y hemos cargado datos en HDInsight (HDI) además de crear la tabla externa que hace referencia a los archivos cargados.Recapitulando información de la Introducción a Hive, debemos recordar que el objetivo que se persigue con Hive es:

  • Utilizar un lenguaje parecido al SQL tradicional (HiveSQ).
  • Mediante este lenguaje ejecutar trabajos Map&Reduce sobre el data almacenado.

A continuación vamos a ejecutar consultas con la herramienta de línea de comando y analizaremos el comportamiento.

(más…)

Introducción Sqoop en HDInsight

Introducción Sqoop en HDInsight

El punto fuerte de la plataforma Hadoop es la posibilidad de trabajar con datos en diferentes formatos. Por lo general, en las organizaciones los datos se almacenan de forma estructurada en sistemas de bases de datos relacionales (RDBMS) o datawarehourse. Apache Sqoop es una herramienta que nos permite extraer información de un sistema estructurado (como por ejemplo SQL Server, MySQL o Oracle) y almacenarlo en HDFS (Hadoop Distributed File System) para sea procesada posteriormente. El procesamiento se puede hacer mediante programas de MapReduce o mediante otras herramientas como Hive. Una vez hemos explotado los datos y obtenido los resultados necesarios, podemos exportar dichos resultados a una base de datos relacional para presentarlos a usuarios finales. Además, Sqoop está integrado con Oozie, que permite la programar y automatizar tareas de importación y exportación. (más…)
Apache Hive en HDInsight: Creación de tablas y carga de datos básica

Apache Hive en HDInsight: Creación de tablas y carga de datos básica

Hive es un datawarehouse que ayuda a acceder (leer, escribir y borrar) a información almacenada en Hadoop. Hadoop utiliza como sistema de almacenamiento HDFS. En el caso concreto de HDInsight, Microsoft ha reemplazado el almacenamiento HDFS por almacenamiento Windows Azure Blob Storage (WASB). En esta publicación, hemos visto de forma cómo reemplaza HDInsight el almacenamiento de HDFS por WASB.  Una de las “quejas” que suele tener la comunidad de Hadoop respecto al almacenamiento HDFS es la complejidad de su administración. Viendo la filosofía que propone Microsoft en Azure con la virtualización del almacenamiento, es muy práctico delegar en Microsoft para la gestión eficiente del almacenamiento. Considera que en tus proyectos de Big-Data, el almacenamiento será una ubicación donde se irán colocando los archivos objeto de análisis. Más información sobre los razonamientos de Microsoft al respecto lo puedes encontrar aquí. (más…)
Primeros pasos: Creación de bases de datos en Apache Hive en HDInsight (en la nube) y paths (rutas – HDFS o WASB)

Primeros pasos: Creación de bases de datos en Apache Hive en HDInsight (en la nube) y paths (rutas – HDFS o WASB)

Anteriormente hemos conectado con la herramienta cliente (CLI) a HDInsight Developer Preview; en esta ocasión vamos a hacerlo directamente en la distribución disponible de HDInsight en Azure. Para crear un cluster de HDInsight en Windows Azure debes seguir los pasos descritos en este enlace. Esta publicación asume que has creado correctamente tu cluster HDInsight en Windows Azure. (más…)
Conectando desde Excel 2013 a Windows Azure Developer Preview con HiveODBC (Versión de HDI 30-09-2013)

Conectando desde Excel 2013 a Windows Azure Developer Preview con HiveODBC (Versión de HDI 30-09-2013)

Siguiendo los pasos descritos en era URL de Microsoft deberías conectar sin problema a servidor en la nube o versiones instaladas en la misma máquina; es decir, si tienes Excel 2013 y HDInsight “junto” y no en máquinas separadas.Sin embargo, si tienes por un lado Excel 2013, y por otro la máquina que hostea HDInsight Developer Preview deberíais seguir los pasos que indico aquí:

(más…)