Fusionar datasets con Sqoop (Sqoop merge)

Fusionar datasets con Sqoop (Sqoop merge)

Sqoop nos ofrece la posibilidad de fusionar dos conjuntos de datos o datasets en un único dataset. Supongamos que realizamos una importación desde SQL Server a HDFS, esta importación se guardará en un directorio en HDFS, y luego realizamos una carga incremental sobre la misma tabla, la carga incremental la deberemos guardar en un directorio distinto ya que sino sobrescribiremos los datos importados anteriormente. Bien, entonces tenemos dos directorios en HDFS con los datos de la tabla, es en este escenario es cuando resulta de especial interés la utilización de la herramienta Sqoop merge, para poder fusionar los datos de los directorios HDFS en uno sólo. (más…)

Guardar trabajos en Sqoop (Sqoop-job)

El proceso de importación y exportación de datos en Sqoop puede ser un proceso muy repetitivo, y si bien es cierto, que los comandos de importación y exportación de Sqoop tienen varios parámetros que pueden resultar difícil de recordar o que cometamos algún error en la escritura lo que hace que nos demoremos en la ejecución de las tareas corrigiendo ese tipo de errores. Para ello Sqoop nos permite guardar trabajos, asignándoles un nombre para luego ejecutarlos directamente. Esto resulta de especial interés por ejemplo en la importación incremental, cuando realizamos el proceso repetidamente. (más…)
Instalar y conectar Sqoop con SQL Server

Instalar y conectar Sqoop con SQL Server

Como comentamos en el post anterior, Sqoop nos permite la transferencia de datos entre bases de datos relacionales (RDBMS) y Hadoop. En este post vamos a explicar como conectar SQL Server 2012 con Sqoop.Por defecto, Sqoop no viene instalado en HDInsight, por lo que debemos realizarla nosotros, pero se trata de un proceso muy sencillo que ahora veremos.

(más…)

Primeros pasos: Creación de bases de datos en Apache Hive en HDInsight (en la nube) y paths (rutas – HDFS o WASB)

Primeros pasos: Creación de bases de datos en Apache Hive en HDInsight (en la nube) y paths (rutas – HDFS o WASB)

Anteriormente hemos conectado con la herramienta cliente (CLI) a HDInsight Developer Preview; en esta ocasión vamos a hacerlo directamente en la distribución disponible de HDInsight en Azure. Para crear un cluster de HDInsight en Windows Azure debes seguir los pasos descritos en este enlace. Esta publicación asume que has creado correctamente tu cluster HDInsight en Windows Azure. (más…)
Apache Hive en HDInsight. Introduccion al tutorial

Apache Hive en HDInsight. Introduccion al tutorial

Analizar y consultar información almacendada en Hadoop puede ser complicado; el diseño, desarrollo, pruebas y lanzamiento de programas Map&Reduce (MR) contra Hadoop es costoso en el ciclo de vida de los datos y se necesitaban alternativas. En las fases iniciales del programa Apache Hadoop, los equipos de Facebook y Yahoo tuvieron que resolver este dilema tomando caminos diferentes; Hadoop abrió el proyecto Apache Pig, y Facebook inició el proyecto Apache Hive. (más…)

Importar datos desde DataMarket a Hadoop Azure

Importar datos desde DataMarket a Hadoop Azure

En el post anterior vimos como acceder a una tabla de ejemplo almacenada en el cluster de Hadoop Azure, pero, ¿cómo importamos los datos que nosotros queramos?Hadoop Azure ofrece la posibilidad de importar datos desde DataMarket, desde Windows Azure Blob Storage y desde Amazon S3. En este caso vamos a ver como se importarían los datos utilizando como origen DataMarket.

(más…)

Hive, Sqoop y Pig

Hive, Sqoop y Pig

Seguimos con los conceptos básicos acerca de Hadoop, vamos a explicar brevemente estos tres conceptos Hive, Sqoop y Pig con el fin de conocer sus diferencias y para que se emplea cada uno de ellos.

(más…)