Fusionar datasets con Sqoop (Sqoop merge)

Fusionar datasets con Sqoop (Sqoop merge)

Sqoop nos ofrece la posibilidad de fusionar dos conjuntos de datos o datasets en un único dataset. Supongamos que realizamos una importación desde SQL Server a HDFS, esta importación se guardará en un directorio en HDFS, y luego realizamos una carga incremental sobre la misma tabla, la carga incremental la deberemos guardar en un directorio distinto ya que sino sobrescribiremos los datos importados anteriormente. Bien, entonces tenemos dos directorios en HDFS con los datos de la tabla, es en este escenario es cuando resulta de especial interés la utilización de la herramienta Sqoop merge, para poder fusionar los datos de los directorios HDFS en uno sólo. (más…)

Guardar trabajos en Sqoop (Sqoop-job)

El proceso de importación y exportación de datos en Sqoop puede ser un proceso muy repetitivo, y si bien es cierto, que los comandos de importación y exportación de Sqoop tienen varios parámetros que pueden resultar difícil de recordar o que cometamos algún error en la escritura lo que hace que nos demoremos en la ejecución de las tareas corrigiendo ese tipo de errores. Para ello Sqoop nos permite guardar trabajos, asignándoles un nombre para luego ejecutarlos directamente. Esto resulta de especial interés por ejemplo en la importación incremental, cuando realizamos el proceso repetidamente. (más…)
Primeros pasos: Creación de bases de datos en Apache Hive en HDInsight (en la nube) y paths (rutas – HDFS o WASB)

Primeros pasos: Creación de bases de datos en Apache Hive en HDInsight (en la nube) y paths (rutas – HDFS o WASB)

Anteriormente hemos conectado con la herramienta cliente (CLI) a HDInsight Developer Preview; en esta ocasión vamos a hacerlo directamente en la distribución disponible de HDInsight en Azure. Para crear un cluster de HDInsight en Windows Azure debes seguir los pasos descritos en este enlace. Esta publicación asume que has creado correctamente tu cluster HDInsight en Windows Azure. (más…)
Apache Hive en HDInsight. Introduccion al tutorial

Apache Hive en HDInsight. Introduccion al tutorial

Analizar y consultar información almacendada en Hadoop puede ser complicado; el diseño, desarrollo, pruebas y lanzamiento de programas Map&Reduce (MR) contra Hadoop es costoso en el ciclo de vida de los datos y se necesitaban alternativas. En las fases iniciales del programa Apache Hadoop, los equipos de Facebook y Yahoo tuvieron que resolver este dilema tomando caminos diferentes; Hadoop abrió el proyecto Apache Pig, y Facebook inició el proyecto Apache Hive. (más…)

Error al importar datos desde DataMarket a Hadoop Azure

Error al importar datos desde DataMarket a Hadoop Azure

En al anterior post vimos cómo podíamos importar datos desde DataMarket. Me encontré con un error cuando importaba los datos desde DataMarket, el cual voy a explicar en este post a qué se debe.

El procedimiento para importar los datos desde DataMarket es trivial al explicado en el anterior post, pero en este caso vamos a elegir importar los datos de UK Met Office Weather Open Data.

(más…)