Blog Archive

 

 About this blog

 
About this blog
Your Name 
BI-courses

Si te interesa esta información, y estás dispuesto a convertirte en un profesional altamente cualificado en el área de Business Intelligence con las herramientas de Microsoft, te recomiendo que estudies con detalle la información sobre el Máster en BI certificado por SolidQ, no dejes pasar esta oportunidad.

Recuerda que el área de Business Intelligence, es de las pocas en las que no hay paro en este momento y según las consultoras internacionales más prestigiosas tendrá un crecimiento cercano al 10% anual en los próximos años.
Javier Torrenteras

Big data analysis o como analizar cantidades ingentes de datos en la nube

2011-10-27 10:39:00 por Javier Torrenteras

Cada día el volumen de datos que se manejan en las empresas es más grande, esto unido a la nube y sus “ilimitados” recursos de computación y almacenaje está haciendo que aparezcan nuevas tendencias en la forma de manejar toda esa información. Hasta tal punto el tema tiene relevancia que en TDWI han publicado un informe referente a este tema y van a tener una conferencia dedicada en exclusiva al análisis de grandes datos. He estado revisando la forma de operar de varias empresas y he llegado a las siguientes conclusiones: 

  1. La carga de datos inicial no indican cómo se sube a la nube, solo en el caso de Amazon pero creo que esa aproximación puede ser igual de válida en todos los casos. Para volúmenes pequeños se sube mediante un programita que se encarga de preparar los datos en un formato concreto y que luego se sube via internet y se cargan en el almacén correspondiente. Si los cálculos de subida son muy grandes Amazon te aconseja que se los envíes en un soporte físico a una dirección concreta y con los datos en un formato concreto y ellos se encargan de enchufarlos a su red y subirlos (me parece muy curiosa que sean tan claros en ese aspecto).
  2. La parte de subidas incrementales de información, en los que explican algo, básicamente consiste en asegurar que vas subiendo en periodos lo suficientemente cortos como para no acumular mucho dato y que no se te genere una cola de datos que no haya forma de subir.
  3. En cuanto al procesamiento, al estar hablando de la nube todos asumen que tiene recursos ilimitados y que pueden procesar casi cualquier cosa por lo que el límite de computación parece que actualmente no existe.
  4. Con respecto al análisis, digamos que hay dos escuelas:
    • a. Asociación de datos. Está orientado a encontrar y explotar patrones de comportamiento. La base es Hadoop y el algoritmo MapReduce de Google basado en procesamiento paralelo y asociación de cosas, básicamente es lo que usan para su algoritmo de búsqueda para hacerse una idea, hay variedades: HPCC que dice ser mejor (así lo explica en su web) e incluso Microsoft Research tiene el suyo (Dryad). La explotación está basada en lanzar consultas contra la masa de datos que ha sido previamente agregada usando dichos algoritmos, pero no he visto nada en plan acceso gráfico. Desde mi punto de vista está muy ligado a analistas avanzados. Dentro de esta categoría entrarían IBM, Amazon (en realidad Amazon es un simple contenedor en general, aporta recursos, se pueden subir las máquinas virtuales de la tecnología que quieras, aporta algoritmos, etc, pero no da un servicio completo, solo los productos para que tu te montes el puzzle) , HPCC, Opera Solutions y Quantivo.
    • b. Procesamiento en memoria. Estilo PowerPivot, almacenamiento en columnas con procesamiento paralelo y una interfaz directa con el usuario (1010Data que se considera un sistema NoSQL) y un concepto de virtual OLAP que comentan en Kognitio. Este último me ha llamado la atención por varias razones: adopta el mismo modelo multidimensional en el que se basa OLAP pero llevándolo a agregaciones y almacenamiento en memoria (de ahí lo de virtual), es decir, utiliza los dos conceptos de Microsoft (Powerpivot y OLAP) pero combinados en un único enfoque y todo esto lo sustenta en un whitepaper que ha escrito uno de nuestros mentores (Mark Whitehorn) ¿curioso cuando menos ,no? y para mas inri, se han asociado con Microstrategy de manera que uno pone el modelo y el otro la interfaz gráfica, me da que vamos a escuchar hablar de esto en breve.

Por parte de Microsoft creo que el enfoque que se está dando en Denali de potenciar el modelo tabular, unido a la explosión comercial de Azure puede que venga dado un poco por estos temas. Veremos que pasa cuando salga Azure Analysis (o como vaya a ser el nombre comercial/en clave) si se inclinarán a un modelo tabular basado en la memoria sin límite de Azure, o si estará enfocado al modelo OLAP basado en el uso infinito de CPU y de almacenamiento.

     

Comments

No Comments
Leave a Comment
(*) Title:
(*) Name:
Your URL:
(*) Comments:
Follow us on: