
Big data: ¿qué necesitas aprender? Una pequeña guía para principiantes 
Big data: ¿cómo empezar?
En todas partes, decimos que es el futuro, que debemos ir al big data. Tan pronto como sea posible. Muy bien. Pero entonces, ¿por dónde empezar? ¿Qué debe aprenderse con urgencia? ¿Qué debes formarte para convertirte en un maestro del Big Data?
Lectura recomendada : Todo lo que necesitas saber sobre el detergente con hiedra
En lugar de ofrecer aquí un inventario de formaciones típicas, con títulos que mantendrán ese sentimiento de palabras clave de moda, preferimos contarte la historia del Big Data. ¿Cómo y por qué llegamos a esto?
¿De dónde viene este término y qué desarrollos tecnológicos debería explotar el mundo del big data?
También recomendado : Todo sobre el uso de Vermogal para realzar tu cabello: consejos y experiencias compartidas
Al tener una mejor visión de lo que es el Big Data, deduces lo que necesitas aprender para convertirte en un experto en el tema, y sobre todo lo que debes aprender por ti mismo.
Big data: ¿cuál es la diferencia con el análisis de datos?
La primera pregunta es la que nos permite entender la novedad de este asunto. ¿Cuál es la diferencia entre el Big Data y el buen análisis de datos antiguos y los cursos de estadística que organizamos en la secundaria —y a veces más allá?
De hecho, la novedad proviene de Internet y del hecho de que todos los datos ahora se producen instantáneamente desde todos lados.
Según IBM, la especie humana produce 2,5 quintillones (25 mil millones de millones) de bits de datos cada día, comer, dormir, jugar, trabajar, etc. Esto es equivalente a 2 pilas de DVD apiladas una sobre la otra cuya alturavaría de la tierra… a la luna ¡Sabiendo, por lo tanto, que estos DVD contienen todo, desde los textos que enviamos, hasta las fotos que tomamos, hasta los datos de todas las máquinas que se comunican entre sí, lo que explica por qué los datos se han vuelto , en un lenguaje común, tan “grandes” .
Y así, cuando la gente habla de estos megadatos , generalmente piensan en el hecho de que vamos a tomar una gran parte de esos datos, analizarlos y deducir algo interesante.
De hecho, es mucho más que eso.
El Big Data es mucho más que eso.
Big Data, también se compone de:
- tomar grandes cantidades de datos provenientes de diferentes fuentes ,
- usar estos datos de tipos muy diferentes, producidos a ritmos diferentes sin necesariamente tener que “traducirlos” en formatos específicos.
- almacenar estos datos para que puedan ser utilizados al mismo tiempo para un montón de análisis diferentes con fines diferentes.
- y hacer todo esto muy rápido, y a veces incluso… en tiempo real.
Al principio, hablamos de los 3V o VVV: volumen (grandes cantidades), variedad (diferentes tipos de datos) y velocidad (velocidad de procesamiento).
Big Data vs. almacén de datos
Pero lo que el acrónimo VVV no ha puesto en perspectiva , es esta innovación central que significa que los datos no necesitan ser sistemáticamente “transformados” para ser analizados.
Este procesamiento “no destructivo” significaba que las organizaciones podían ahora analizar los mismos lotes de datos para diferentes fines y extraer esos datos de fuentes que los habían recolectado para fines aún diferentes.
Por lo tanto, ha surgido un nuevo enfoque, muy diferente de aquel que conocíamos en la época sobre la exploración de datos y los almacenes de datos .
El almacén de datos clásico fue diseñado para un uso específico. Los datos fueron estructurados y convertidos en formatos específicos. Los datos originales son necesariamente destruidos en el proceso.
Hablábamos del proceso ETL: “extraer, transformar y cargar”.
El enfoque ETL se limita, por lo tanto, a análisis específicos para datos específicos. Era perfecto si todos tus datos existían en tu sistema de transacción. Pero ya no es tan terrible, cuando conoces todos los datos que existen aquí y allá en nuestro mundo hiperconectado, produciendo todos los quintillones de datos mencionados anteriormente.
Por lo tanto, esta es una de las primeras cosas que debes aprender en el mundo delBig Data: — mira hacia afuera, pregunta qué datos están disponibles fuera del sistema — mira los datos disponibles para todos, los famosos datos abiertos — pregunta cómo podríamos conectarlos, cruzarlos, lo que aprenderíamos de estos con los datos que ya tenemos.
¿El fin de los almacenes de datos?
No creas que el Big Data hace que los almacenes de datos sean obsoletos . Los sistemas Big Data te llevan a trabajar con datos no estructurados, pero el tipo de resultados de consulta que obtienes está lejos de la sofisticación de los almacenes de datos.
El almacén de datos está diseñado para un análisis profundo de los datos , lo que es posible precisamente porque los datos han sido transformados y planificados en un formato específico.
Los proveedores de almacenes de datos han estado trabajando durante años para optimizar sus motores de búsqueda para satisfacer las expectativas típicas de una empresa específica. Los
Si tú o tu organización son especialistas en el tema, no te sientas atrasado o superado. No estamos hablando exactamente de lo mismo.
Big Data te permite analizar muchos más datos provenientes de numerosas fuentes, pero con una resolución menos fina. El
El Big Data es un mundo impresionista que siempre necesitará el hiperrealismo de los almacenes de datos.
Es por eso que estamos condenados a vivir con los almacenes de datos tradicionales y el nuevo estilo de procesamiento llamado Big Data.
Por lo tanto, el Big Data no se trata de desaprender lo que has aprendido de la formación en el almacén de datos. El Data Scientist no necesariamente tiene que reemplazar al ingeniero de Business Intelligence.
En cambio, será necesario que la empresa plantee la cuestión de cómo asegurarse de que ambos se enriquezcan mutuamente. Y eso también debe ser aprendido y estudiado.
Avances tecnológicos detrás del Big Data
Esto es por el lado filosófico y organizacional.
Pero también hay una dimensión tecnológica . Nuevamente, el Big Data se basa en una revolución que hay que entender. Y a la que es necesario adaptarse a través de una formación ad hoc y el aprendizaje.
A diferencia de 3V , el Big Data es 3V 1U: volumen, variedad, velocidad y más: uso no destructivo de los datos.
Para lograrlo, los desafíos tecnológicos debían ser alcanzados con éxito.
En primer lugar, el desarrollo de sistemas informáticos distribuidos : este es el dominio de Hadoop , por ejemplo.
También se necesitaba un método para poner en perspectiva datos dispares : este es el territorio de MapReduce de Google o más recientemente Apache Spark
Finalmente, se necesitaba un principio de infraestructura en la nube/Internet para acceder a los datos y utilizarlos como se desee.
Hasta hace doce años, era imposible manipular volúmenes de datos como los que necesitamos hoy. En ese momento, seguramente tuvimos la impresión de que esos volúmenes de datos eran enormes y que nuestros almacenes de datos eran capaces de un procesamiento masivo.
Pero los límites de esos dispositivos de la época en términos de localización y almacenamiento, de potencia de cálculo y de la imposibilidad de procesar datos de diferentes tipos no nos permitieron hacer frente a unnuevo contexto : el de un mundo donde, gracias a Internet, los datos se producen e interconectan en todas partes, en todas las direcciones y en todo momento.
MapReduce
Alrededor de 2003, investigadores de Google desarrollaron MapReduce. Esta técnica de programación simplifica el procesamiento de conjuntos de datos al reducir primero los datos a conjuntos de pares clave/valor, y luego realizar cálculos sobre datos con claves similares para reducir todo a un solo valor. Cada “gran trozo” de datos podría ser procesado en paralelo en cientos, incluso miles de máquinas de bajo costo. Esta técnica de procesamiento paralelo a gran escala permitió a Google generar resultados de búsqueda sobre volúmenes de datos increíblemente más grandes que antes, y esto, haciéndolo más rápido.
Google es el origen de dos avances tecnológicos que hicieron posible el Big Data:
El primero fue Hadoop, que se compone de dos servicios clave:
- un sistema de almacenamiento de datos , utilizando HDFS (Sistema de archivos distribuido de Hadoop)
- un sistema de procesamiento de datos paralelo , utilizando una técnica llamada Map Reduce.
Hadoop se ejecuta en un conjunto de servidores en una arquitectura compartida.
Los servidores pueden ser añadidos o eliminados a voluntad en un clúster de Hadoop. El sistema detecta y resuelve problemas en cada servidor. Hadoop, en otras palabras, “se auto-repara”. Por lo tanto, puede seguir proporcionando datos y funcionar a gran escala ejecutando tareas que requieren alto rendimiento, a pesar de cambios o fallos.
Su verdadero valor añadido está aún en otro lugar: proviene de los complementos y extensiones personalizables de su tecnología. Hadoop ofrece proyectos adicionales que añaden funcionalidades a la plataforma:
- Hadoop Common: Estas son las herramientas básicas necesarias para otros proyectos de Hadoop
- Chukwa: un sistema de recuperación de datos para gestionar grandes sistemas distribuidos.
- HBase: una base de datos distribuida y escalable que soporta almacenamiento de datos estructurados para grandes tablas.
- HDFS: un sistema distribuido que proporciona acceso rápido a los datos de las aplicaciones
- Hive: infraestructura de almacén de datos que proporciona una síntesis de datos y un sistema de consultas ad hoc.
- MapReduce: una infraestructura de software para procesos de conjuntos de datos distribuidos
- Pig: importantes un lenguaje y un marco para la ejecución de procesos paralelos.
- ZooKeeper: un servicio de coordinación de alto rendimiento para aplicaciones distribuidas.
La implementación de una plataforma Hadoop incluye necesariamente algunos de estos subproyectos.
Por ejemplo, muchas organizaciones eligen usar HDFS como su sistema de gestión de archivos distribuido principal y HBase como base de datos que puede almacenar miles de millones de columnas de datos. Y el uso de MapReduce (o Spark) es entonces casi evidente ya que aporta velocidad y agilidad a la plataforma Hadoop.
Con MapReduce, los desarrolladores pueden crear programas que procesan volúmenes masivos de datos no estructurados en paralelo a través de un clúster de procesadores distribuidos de forma independiente. El marco de MapReduce se divide en dos espacios funcionales:
- Map , una función que distribuye el trabajo a diferentes nodos en los clústeres de computadoras.
- Reduce , una función que reúne el trabajo y resume los resultados en un solo valor.
Una de las principales ventajas de Map Reduce es que es tolerante a fallos o fault-tolerant. ¿Cómo lo hace? “Supervisa” cada nodo del clúster regularmente. Se supone que debe devolver periódicamente un trabajo completo con actualizaciones de “estado”. Si un nodo permanece en silencio más de lo necesario, un nodo maestro lo señala y reasigna el trabajo a los otros nodos del clúster.
Construido originalmente para indexar el motor de búsqueda Nutch, Hadoop ahora se utiliza en todas las grandes industrias para la cantidad de tareas de Big Data.
En otras palabras, gracias al sistema informático distribuido HDFS y YARN (Yet Another Resource Negotiator), el software permite al usuario procesar volúmenes gigantescos de datos distribuidos en miles de computadoras, como si fuera una enorme máquina.
¿Cómo adaptar esto a tu caso? La historia de estos saltos tecnológicos es inevitablemente vinculante para ti y tu organización.
¿No conoces la informática distribuida? Es urgente comprenderlo mejor y formar a ti mismo o a tus equipos.
En cuanto a las herramientas, la historia de Hadoop muestra cuán lógica es su imposición al universo del Big Data. Su universo no debe serte ajeno. Piénsalo.
Pero la historia no ha terminado.
En 2009, los investigadores de la Universidad de California en Berkeley desarrollaron Apache Spark, una alternativa a MapReduce. Spark realiza sus cálculos en paralelo utilizando almacenamiento en memoria, es hasta 100 veces más rápido que MapReduce. Spark puede ser utilizado solo o dentro de Hadoop.
Incluso con Hadoop, siempre necesitas una forma de almacenar y acceder a los datos.
Generalmente, es para eso que se utilizan bases de datos NoSQL como Mongo DB, CouchDB o Cassandra para el procesamiento de datos no estructurados o semi-estructurados y distribuidos en varias máquinas.
A diferencia de los almacenes de datos, donde cantidades masivas de datos se envían a un formato unificado y se almacenan en un solo almacén de datos, estas herramientas no modifican la naturaleza o ubicación de los datos originales — los correos electrónicos siguen siendo correos electrónicos, los datos del sensor siguen siendo los datos del sensor — y pueden ser almacenados prácticamente en cualquier lugar.
Un problema persiste : tener cantidades masivas de datos en bases de datos NoSQL instaladas en clústeres de máquinas no es muy útil mientras no hagas nada. Ahí es donde el análisis de Big Data entra en juego.
Herramientas como Tableau, Splunk y Jasper BI te permiten analizar estos datos para identificar patrones, extraer significados y revelar nuevas perspectivas. Lo que hagas con ello dependerá de tus necesidades.
Nuevamente, las habilidades en estos análisis son particularmente demandadas. Esto forma parte de las habilidades a adquirir.
Ten en cuenta también que dominar las bases de datos NoSQL parece importante, si no indispensable. Conocer y dominar NoSQL parece, por lo tanto, esencial para el mundo del Big Data. Aunque… en este artículo, verás que SQL está volviendo a estar de moda en el universo del Big Data.
Continuará, entonces…
¿Necesitas un diagnóstico más preciso?
¿Qué necesitas aprender? ¿Quién necesita ser capacitado en qué en tu organización? Contáctanos para un diagnóstico preciso.
Fuente: InfoWorld. Artículo escrito por Galen Gruman (editor en jefe), Steve Nunez (editor en jefe), Frank Ohlhorst y Dan Tynan.
Etiqueta: El Big Data: ¿qué es?