En esta sesión veremos diferentes métodos para cargar datos en un cluster de HDInsight (Hadoop). Veremos como cada método es válido para: datos desde origenes OLTP, datos desde origenes sin estructura y datos a los que se dota estructura para presentarselos a HDInsight. En cada escenario se debe considerar el uso posterior que se le dará al dato para hacerlo de la forma más eficiente. Habrá casos en los que el dato se serializa con librerías .NET y en otros casos el dato se procesará como texto puro.

Tras cargar los datos, hay que procesarlos, hay que dotar de sentido al cluster analítico. Para ello mostraremos técnicas para estructurar la información de cara a su análisis. Veremos cómo se puede aprovechar de esta estructura Hive, así como .NET para procesar trabajos Map & Reduce. El resultado de este procesamiento será el origen para procesamiento posterior co otras tecnologías como Polibase de PDW, SSAS, y otras herramientas como Mahout, etc.


Presentación realizada por Yolanda Olmedo, Eladio Rincón y Daniel Seara.


  • 1. Carga y procesamiento de datos en HDInsight @erincon Eladio Rincón Director Área Relacional erincon@solidq.com @yolrod Yolanda Olmedo DPS yolmedo@solidq.com @Daniel_Seara Daniel Seara Mentor dseara@solidq.com
  • 2. Agenda • Almacenamiento en HDInsight • Carga de datos • Herramientas para la carga de datos • Estructurados • No estructurados • Especiales • Transformaciones • Hive • Pig • Map Reduce • Obteniendo resultados 2
  • 3. • Azure HDInsight cluster • Hortonworks Data Platform • Arquitectura HDInsight Almacenamiento 3
  • 4. HDInsight Ecosistema 4 Distributed Storage (HDFS) Distributed Processing (Map Reduce) ODBC World’s Data (Azure Data Marketplace) Windows Azure Storage
  • 5. • Bibliotecas .Net que facilitan la tarea • Serialización • JSON • AVRO – Interacción con HDInsight y Azure Carga de Datos Herramientas para la carga de Datos 5
  • 6. DEMO 6 Encontrando lo que necesitamos con NuGet
  • 7. Escenario Datos de clima y consumo de cerveza  Analizar grandes volúmenes de información respecto del clima y su correlación de consumo, relacionado con períodos estacionales 7
  • 8. • Sqoop • Importación/exportación RDMS  Hadoop • Azure PowerShell • Extensión de PowerShell para interactuar con Azure • AzureHDInsightSqoopJobDefinition • … Carga de Datos Estructurados 8
  • 9. DEMO 9 Importando datos de base de datos a HDInsight
  • 10. • ¡Serialización! • AVRO • JSON • CSV • ORC (Optimized Row Columnar) • Transformar y almacenar • Herramientas de serialización • Herramientas de almacenamiento en la nube Carga de Datos No Estructurados 10
  • 11. DEMO 11 Llevando datos no estrcuturados a HDInsight
  • 12. • Definir la estructura de datos necesarios • “Copiar” entre el origen e instancias de la estructura • Serializar Carga de Datos Casos especiales 12
  • 13. DEMO 13 Llevando datos diferentes a HDInsight
  • 14. • Núcleo de Hadoop • Procesamiento paralelo • Divide trabajo en pequeñas tareas • Tolerancia a fallos Transformaciones MapReduce 14
  • 15. Transformaciones MapReduce 15 MapReduce Mapper Mapper Mapper Reducer Reducer Reducer Mezcla y ordena
  • 16. • Sistema Data Warehouse para Hadoop • Consultas Ad-hoc • Lenguaje de consulta como SQL: HiveQL • Por detrás ejecuta MapReduce Transformaciones Hive 16
  • 17. • Lenguaje de scripting de alto nivel • Fácil programación extensible • Ejecuta trabajos MapReduce Transformaciones Pig 17
  • 18. DEMO 18 Leyendo información del cluster
  • 19. Si quieres disfrutar de las mejores sesiones de nuestros mentores de España y Latino América, ésta es tu oportunidad. http://summit.solidq.com Síguenos: 22