
Big data: cosa devi imparare? Un piccolo guida per i principianti 
Big data: come iniziare?
Ovunque diciamo che è il futuro, che dobbiamo passare al big data. Il prima possibile. Molto bene. Ma da cosa iniziare? Cosa deve essere imparato con urgenza? Cosa devi formarti per diventare un maestro del Big Data?
Ulteriori letture : Tutto quello che c'è da sapere sul detersivo con edera
Invece di proporre qui un inventario delle formazioni tipiche, con titoli che manterranno questo senso di parole chiave alla moda, abbiamo preferito raccontarvi la storia del Big Data. Come e perché siamo arrivati a questo?
Da dove proviene questo termine e quali sviluppi tecnologici il mondo del big data dovrebbe esplodere?
Leggi anche : Scopri tutto ciò che c'è da sapere sui vegetali cucurbitacei
Avere una migliore visione di cosa sia il Big Data ti permette di dedurre cosa devi imparare per diventare un asso dell’argomento, e soprattutto cosa devi imparare da solo.
Big data: qual è la differenza rispetto all’analisi dei dati?
La prima domanda è quella che ci consente di comprendere la novità di questa faccenda. Qual è la differenza tra il Big Data e la buona analisi dei dati tradizionali e i corsi di statistica che abbiamo organizzato al liceo — e a volte oltre?
In effetti, la novità proviene da Internet e dal fatto che tutti i dati vengono ora prodotti istantaneamente da ogni parte.
Secondo IBM, l’umanità produce 2,5 quintilioni (25 miliardi di miliardi) di bit di dati ogni giorno, mangiare, dormire, giocare, lavorare, ecc. Questo è l’equivalente di 2 pile di DVD impilate l’una sull’altra la cui altezza varia dalla terra… alla luna! Sapendo, quindi, che questi DVD contengono tutto, dai testi che inviamo, alle foto che scattiamo, ai dati di tutte le macchine che comunicano tra loro, si spiega perché i dati siano diventati, in un linguaggio comune, così « grandi » .
E quindi, quando le persone parlano di questi megadati, pensano generalmente al fatto che prenderemo una grande parte di questi dati, li analizzeremo e ne dedurremo qualcosa di interessante.
In effetti, è molto più di questo.
Il Big Data è molto più di questo.
Big Data, si compone anche di:
- prendere grandi quantità di dati provenienti da diverse fonti,
- utilizzare questi dati di tipi molto diversi, prodotti a ritmi diversi senza necessariamente doverli « tradurre » in formati specifici.
- per archiviare questi dati affinché possano essere utilizzati contemporaneamente per un sacco di analisi diverse per scopi diversi.
- e fare tutto questo molto rapidamente, e a volte anche… in tempo reale.
All’inizio, abbiamo parlato dei 3V o VVV: volume (grandi quantità), varietà (diversi tipi di dati) e velocità (velocità di elaborazione).
Big Data vs. magazzino di dati
Ma ciò che l’acronimo VVV non ha messo in prospettiva è questa innovazione centrale che significa che i dati non devono essere sistematicamente « trasformati » per essere analizzati.
Questo trattamento « non distruttivo » significava che le organizzazioni potevano ora analizzare gli stessi lotti di dati per scopi diversi ed estrarre questi dati da fonti che li avevano raccolti per scopi ancora diversi.
È quindi emersa una nuova approccio, molto diversa da quella che conoscevamo all’epoca intorno all’ esplorazione dei dati e ai magazzini di dati.
Il magazzino di dati classico è stato progettato per un uso specifico. I dati sono stati strutturati e convertiti in formati specifici. I dati iniziali vengono necessariamente distrutti nel processo.
Noi parlavamo del processo ETL : « estrarre, trasformare e caricare ».
L’approccio ETL è quindi limitato ad analisi specifiche per dati specifici. Era perfetto se tutti i tuoi dati esistevano nel tuo sistema di transazione. Ma non è più così terribile, quando conosci tutti i dati che esistono qui e là nel nostro mondo iper-connesso, producendo tutti i quintillioni di dati menzionati sopra.
Quindi, è una delle prime cose da imparare nel mondo delBig Data: — guarda fuori, chiedi quali dati sono disponibili al di fuori del sistema — guarda i dati disponibili per tutti, i famosi dati aperti — chiedi come potremmo collegarli, incrociarli, cosa impareremmo da questi con i dati che abbiamo già.
La fine dei magazzini di dati?
Non credere che il Big Data renda obsoleti i magazzini di dati. I sistemi Big Data ti portano a lavorare con dati non strutturati, ma il tipo di risultati di query che ottieni è lontano dalla sofisticazione dei magazzini di dati.
Il magazzino di dati è progettato per un’analisi approfondita dei dati, il che è reso possibile proprio perché i dati sono stati trasformati e pianificati in un formato specifico.
I fornitori di magazzini di dati lavorano da anni per ottimizzare i loro motori di ricerca per soddisfare le aspettative tipiche di un’azienda specifica. I
Se tu o la tua organizzazione siete specialisti della cosa, non sentirti in ritardo o sopraffatto. Non si sta parlando esattamente della stessa cosa.
Il Big Data ti consente di analizzare molti più dati provenienti da molte fonti, ma con una risoluzione meno fine. Il
Il Big Data è un mondo impressionista che avrà sempre bisogno dell’iperrealismo dei magazzini di dati.
È per questo che siamo condannati a vivere con i magazzini di dati tradizionali e il nuovo stile di elaborazione chiamato Big Data.
Il Big Data non consiste quindi nel disimparare ciò che hai appreso dalla formazione nel magazzino di dati. Il Data Scientist non deve necessariamente sostituire l’ingegnere di Business Intelligence.
Invece, sarà necessario che l’azienda sollevi la questione di come garantire che entrambi si arricchiscano a vicenda. E anche questo deve essere appreso e studiato.
Scoperte tecnologiche dietro il Big Data
È per il lato filosofico e organizzativo.
Ma c’è anche la dimensione tecnologica. Ancora una volta, il Big Data si basa su una rivoluzione che deve essere compresa. E alla quale è necessario adattarsi attraverso una formazione ad hoc e un apprendimento.
Contrariamente ai 3V, il Big Data è 3V 1U: volume, varietà, velocità e in più: utilizzo non distruttivo dei dati.
Per raggiungere questo obiettivo, le sfide tecnologiche dovevano essere affrontate con successo.
In primo luogo, lo sviluppo di sistemi informatici distribuiti: questo è il dominio di Hadoop, ad esempio.
Ci è voluto anche un metodo per mettere in prospettiva dati disparati: questo è il territorio di MapReduce di Google o più recentemente Apache Spark
Infine, ci è voluto un principio di infrastruttura cloud/Internet per accedere ai dati e utilizzarli come desiderato.
Fino a dodici anni fa, era impossibile manipolare volumi di dati come quelli di cui abbiamo bisogno oggi. All’epoca, avevamo sicuramente l’impressione che questi volumi di dati fossero enormi e che i nostri magazzini di dati fossero capaci di un’elaborazione massiccia.
Ma i limiti di questi dispositivi dell’epoca in termini di localizzazione e archiviazione, potenza di calcolo e impossibilità di elaborare dati di diversi tipi non ci hanno permesso di affrontare unnuovo contesto: quello di un mondo in cui, grazie a Internet, i dati vengono prodotti e interconnessi ovunque, in tutte le direzioni e in qualsiasi momento.
MapReduce
Verso il 2003, dei ricercatori di Google hanno sviluppato MapReduce. Questa tecnica di programmazione semplifica l’elaborazione di set di dati riducendo prima i dati a insiemi di coppie chiave/valore, quindi eseguendo calcoli su dati con chiavi simili per ridurre tutto a un’unica valore. Ogni « grosso pezzo » di dati potrebbe essere elaborato in parallelo su centinaia, se non migliaia di macchine poco costose. Questa tecnica di elaborazione parallela su larga scala ha permesso a Google di generare risultati di ricerca su volumi di dati incredibilmente più grandi rispetto a prima, e questo, andando più veloce.
Google è all’origine delle due scoperte tecnologiche che hanno reso possibile il Big Data:
La prima era Hadoop, che si compone di due servizi chiave:
- un sistema di archiviazione dei dati , utilizzando HDFS (Hadoop Distributed File System)
- un sistema di elaborazione dati parallelo , utilizzando una tecnica chiamata Map Reduce.
Hadoop viene eseguito su un insieme di server in un’architettura non condivisa.
I server possono essere aggiunti o rimossi a piacere in un cluster Hadoop. Il sistema rileva e risolve i problemi su ogni server. Hadoop, in altre parole, « si auto-guarisce ». Pertanto, può continuare a fornire dati e a funzionare su larga scala eseguendo compiti che richiedono elevate prestazioni, nonostante cambiamenti o guasti.
Il suo vero valore aggiunto è altrove: proviene dagli add-on e dai componenti personalizzabili della sua tecnologia. Hadoop offre progetti aggiuntivi che aggiungono funzionalità alla piattaforma:
- Hadoop Common: Questi sono gli strumenti di base necessari per altri progetti Hadoop
- Chukwa: un sistema di recupero dati per gestire grandi sistemi distribuiti.
- HBase: un database distribuito e scalabile che supporta l’archiviazione di dati strutturati per grandi tabelle.
- HDFS: un sistema distribuito che fornisce accesso rapido ai dati delle applicazioni
- Hive: infrastruttura di magazzino dati che fornisce una sintesi dei dati e un sistema di query ad hoc.
- MapReduce: un’infrastruttura software per i processi di set di dati distribuiti
- Pig: importante un linguaggio e un framework per l’esecuzione di processi paralleli.
- ZooKeeper: un servizio di coordinamento ad alte prestazioni per applicazioni distribuite.
Implementare una piattaforma Hadoop include necessariamente alcuni di questi sotto-progetti.
Ad esempio, molte organizzazioni scelgono di utilizzare HDFS come sistema di gestione file distribuito principale e HBase come database in grado di archiviare miliardi di colonne di dati. E l’uso di MapReduce (o Spark) è quindi quasi ovvio poiché porta velocità e agilità alla piattaforma Hadoop.
Con MapReduce, gli sviluppatori possono creare programmi che elaborano volumi massicci di dati non strutturati in parallelo tramite un cluster di processori distribuiti su indipendenti. Il framework MapReduce è diviso in due spazi funzionali:
- Map , una funzione che distribuisce il lavoro a diversi nodi nei cluster di computer.
- Reduce , una funzione che raccoglie il lavoro e riassume i risultati in un valore semplice.
Uno dei principali vantaggi di Map Reduce è che è tollerante ai guasti o fault-tolerant. Come fa? « Sorveglia » ogni nodo del cluster regolarmente. Questo è tenuto a restituire periodicamente un lavoro completo con aggiornamenti di « stato ». Se un nodo rimane silenzioso più del necessario, un nodo master lo segnala e riassegna il lavoro agli altri nodi del cluster.
Originariamente costruito per indicizzare il motore di ricerca Nutch, Hadoop è ora utilizzato in tutte le grandi industrie per la quantità di compiti Big Data.
In altre parole, grazie al sistema informatico distribuito HDFS e YARN (Yet Another Resource Negotiator), il software consente all’utente di elaborare enormi volumi di dati distribuiti su migliaia di computer, come se fosse un’enorme macchina.
Come adattare questo al tuo caso? La storia di questi salti tecnologici è inevitabilmente vincolante per te e la tua organizzazione.
Non conosci l’informatica distribuita? È urgente comprenderlo meglio e formare te stesso o i tuoi team.
Quanto agli strumenti, la storia di Hadoop mostra quanto la sua logica sia imposta all’universo del Big Data. Il suo universo non deve rimanerti estraneo. Pensaci.
Ma la storia non è finita.
Nel 2009, i ricercatori dell’Università della California a Berkeley hanno sviluppato Apache Spark, un’alternativa a MapReduce. Spark esegue i suoi calcoli in parallelo utilizzando l’archiviazione in memoria, è fino a 100 volte più veloce di MapReduce. Spark può essere utilizzato da solo o all’interno di Hadoop.
Anche con Hadoop, hai sempre bisogno di un modo per archiviare e accedere ai dati.
Questo è generalmente ciò per cui vengono utilizzati i database NoSQL come Mongo DB, CouchDG o Cassandra per l’elaborazione di dati non strutturati o semi-strutturati e distribuiti su più macchine.
Contrariamente ai magazzini di dati, dove enormi quantità di dati vengono inviate a un formato unificato e archiviate in un unico deposito di dati, questi strumenti non modificano la natura o la posizione dei dati originali — le email rimangono email, i dati del sensore rimangono dati del sensore — e possono essere archiviati praticamente ovunque.
Un problema rimane: avere enormi quantità di dati nei database NoSQL installati in cluster di macchine non è molto utile finché non fai nulla. È qui che l’analisi dei Big Data interviene.
Strumenti come Tableau, Splunk e Jasper BI ti consentono di analizzare questi dati per identificare modelli, estrarre significati e rivelare nuove prospettive. Ciò che ne fai dipenderà dalle tue esigenze.
Ancora una volta, le competenze in queste analisi sono particolarmente richieste. Fa parte delle competenze da acquisire.
Nota anche che la padronanza dei database NoSQL sembra importante, se non indispensabile. Conoscere e padroneggiare il NoSQL sembra quindi essenziale per il mondo del Big Data. Anche se… in questo articolo, vedrai che SQL è tornato in auge nell’universo del Big Data.
A seguire, allora…
Hai bisogno di una diagnosi più precisa?
Di cosa hai bisogno di imparare? Chi ha bisogno di essere formato su cosa nella tua organizzazione? Contattaci per una diagnosi precisa.
Fonte: InfoWorld. Articolo scritto da Galen Gruman (caporedattore), Steve Nunez (caporedattore), Frank Ohlhorst e Dan Tynan.
Tag: Il Big Data: cos’è?