Tudo sobre big data - Les Meilleurs du Web

Big data: o que você precisa aprender? Um pequeno guia para iniciantes

Big data: como começar?

Por toda parte, dizemos que é o futuro, que precisamos ir para o big data. Assim que possível. Muito bem. Mas então, por onde começar? O que precisa ser aprendido com urgência? O que você deve treinar para se tornar um mestre do Big Data?

Leitura complementar : Tudo sobre detergente com hera

Em vez de propor aqui um inventário das formações típicas, com títulos que manterão esse sentimento de palavras-chave da moda, preferimos contar a história do Big Data. Como e por que chegamos a isso?

De onde vem esse termo e quais desenvolvimentos tecnológicos o mundo do big data deve explodir?

Para descobrir também : Tudo sobre a origem e a rastreabilidade da carne no Lidl

Ao ter uma visão melhor do que é o Big Data, você deduz o que precisa aprender para se tornar um expert no assunto, e principalmente o que você deve aprender por conta própria.

Big data: qual é a diferença em relação à análise de dados?

A primeira pergunta é aquela que nos permite entender a novidade dessa questão. Qual é a diferença entre o Big Data e a boa análise de dados antigos e os cursos de estatística que organizamos no ensino médio — e às vezes além?

Na verdade, a novidade vem da Internet e do fato de que todos os dados agora são produzidos instantaneamente de todos os lados.

Segundo a IBM, a espécie humana produz 2,5 quintilhões (25 bilhões de bilhões) de bits de dados a cada dia, comer, dormir, jogar, trabalhar, etc. Isso é o equivalente a 2 pilhas de DVDs empilhadas uma sobre a outra cuja altura varia da terra… à lua! Sabendo, portanto, que esses DVDs contêm tudo, desde os textos que enviamos, até as fotos que tiramos, os dados de todas as máquinas que se comunicam umas com as outras, isso explica por que os dados se tornaram, em uma linguagem comum, tão “grandes”.

E assim, quando as pessoas falam sobre esses megadados, geralmente pensam que vamos pegar uma grande parte desses dados, analisá-los e deduzir algo interessante.

Na verdade, é muito mais do que isso.

O Big Data é muito mais do que isso.

Big Data, ele também se compõe de:

captar grandes quantidades de dados provenientes de diferentes fontes,
usar esses dados de tipos muito diferentes, produzidos em ritmos diferentes sem necessariamente ter que “traduzir” em formatos específicos.
armazenar esses dados para que possam ser usados ao mesmo tempo para um monte de análises diferentes para fins diferentes.
e fazer tudo isso muito rápido, e às vezes até… em tempo real.

No início, falamos dos 3V ou VVV: volume (grandes quantidades), variedade (diferentes tipos de dados) e velocidade (velocidade de processamento).

Big Data vs. armazém de dados

Mas o que o acrônimo VVV não colocou em perspectiva é essa inovação central que significa que os dados não precisam ser sistematicamente “transformados” para serem analisados.

Esse processamento “não destrutivo” significava que as organizações agora podiam analisar os mesmos lotes de dados para fins diferentes e extrair esses dados de fontes que as haviam coletado para fins ainda diferentes.

Uma nova abordagem surgiu, muito diferente daquela que conhecíamos na época em torno da exploração de dados e dos armazéns de dados.

O armazém de dados clássico foi projetado para um uso específico. Os dados foram estruturados e convertidos em formatos específicos. Os dados originais são necessariamente dizimados no processo.

Falávamos do processo ETL: “extrair, transformar e carregar”.

A abordagem ETL se limita, portanto, a análises específicas para dados específicos. Era perfeita se todos os seus dados existissem em seu sistema de transação. Mas isso não é mais tão terrível, quando você conhece todos os dados que existem aqui e ali em nosso mundo hiperconectado, produzindo todos os quintilhões de dados mencionados acima.

Portanto, essa é uma das primeiras coisas a aprender no mundo do Big Data: — olhe para fora, pergunte quais dados estão disponíveis fora do sistema — olhe para os dados disponíveis para todos, os famosos dados abertos — pergunte como poderíamos conectá-los, cruzá-los, o que aprenderíamos com esses dados que já temos.

O fim dos armazéns de dados?

Não acredite que o Big Data torna os armazéns de dados obsoletos. Os sistemas Big Data fazem você trabalhar com dados não estruturados, mas o tipo de resultados de consulta que você obtém está longe da sofisticação dos armazéns de dados.

O armazém de dados é projetado para uma análise aprofundada dos dados, o que é possível precisamente porque os dados foram transformados e planejados em um formato específico.

Fornecedores de armazéns de dados trabalham há anos para otimizar seus motores de busca para atender às expectativas típicas de uma empresa específica.

Se você ou sua organização são especialistas na área, não se sintam atrasados ou sobrecarregados. Não estamos falando exatamente da mesma coisa.

Big Data permite que você analise muito mais dados provenientes de muitas fontes, mas com uma resolução menos fina. O

O Big Data é um mundo impressionista que sempre precisará do hiper-realismo dos armazéns de dados.

É por isso que estamos condenados a viver com os armazéns de dados tradicionais e o novo estilo de processamento chamado Big Data.

Portanto, o Big Data não se trata de desaprender o que você aprendeu no treinamento em armazém de dados. O Cientista de Dados não precisa necessariamente substituir o engenheiro de Business Intelligence.

Em vez disso, será necessário que a empresa levante a questão de como garantir que ambos se enriqueçam mutuamente. E isso também deve ser aprendido e estudado.

Avanços tecnológicos por trás do Big Data

É para o lado filosófico e organizacional.

Mas também há a dimensão tecnológica. Mais uma vez, o Big Data é baseado em uma revolução que precisa ser compreendida. E à qual é necessário se adaptar por meio de treinamento ad hoc e aprendizado.

Diferente dos 3V, o Big Data é 3V 1U: volume, variedade, velocidade e mais: uso não destrutivo dos dados.

Para alcançar isso, os desafios tecnológicos precisavam ser superados com sucesso.

Em primeiro lugar, o desenvolvimento de sistemas de computação distribuídos: esse é o domínio do Hadoop, por exemplo.

Também foi necessária uma metodologia para colocar em perspectiva dados díspares: esse é o território do MapReduce do Google ou mais recentemente do Apache Spark.

Finalmente, foi necessário um princípio de infraestrutura em nuvem/Internet para acessar os dados e usá-los como desejado.

Até doze anos atrás, era impossível manipular volumes de dados como os que precisamos hoje. Na época, certamente tivemos a impressão de que esses volumes de dados eram enormes e que nossos armazéns de dados eram capazes de um processamento massivo.

Mas os limites desses dispositivos da época em termos de localização e armazenamento, poder de computação e a impossibilidade de processar dados de diferentes tipos não nos permitiram enfrentar um novo contexto: o de um mundo onde, graças à Internet, os dados são produzidos e interconectados em todos os lugares, em todas as direções e a qualquer momento.

MapReduce

Por volta de 2003, pesquisadores do Google desenvolveram o MapReduce. Essa técnica de programação simplifica o processamento de conjuntos de dados, reduzindo primeiro os dados a conjuntos de pares chave/valor, e depois realizando cálculos sobre dados com chaves semelhantes para reduzir tudo a um único valor. Cada “grande pedaço” de dados poderia ser processado em paralelo em centenas, até milhares de máquinas baratas. Essa técnica de processamento paralelo em grande escala permitiu ao Google gerar resultados de busca sobre volumes de dados incrivelmente maiores do que antes, e isso, mais rapidamente.

O Google é o responsável por duas inovações tecnológicas que tornaram o Big Data possível:

O primeiro foi o Hadoop, que se compõe de dois serviços-chave:

um sistema de armazenamento de dados, utilizando HDFS (Sistema de Arquivos Distribuídos do Hadoop)
um sistema de processamento de dados paralelo, utilizando uma técnica chamada Map Reduce.

O Hadoop é executado em um conjunto de servidores em uma arquitetura compartilhada.

Os servidores podem ser adicionados ou removidos à vontade em um cluster Hadoop. O sistema detecta e resolve problemas em cada servidor. O Hadoop, em outras palavras, “se autorregenera”. Portanto, ele pode continuar a fornecer dados e operar em grande escala, executando tarefas que exigem alto desempenho, apesar de mudanças ou falhas.

Seu verdadeiro valor agregado está em outro lugar: vem dos complementos e extensões personalizáveis de sua tecnologia. O Hadoop oferece projetos adicionais que adicionam funcionalidades à plataforma:

Hadoop Common: Esses são os ferramentas básicas necessárias para outros projetos Hadoop
Chukwa: um sistema de recuperação de dados para gerenciar grandes sistemas distribuídos.
HBase: um banco de dados distribuído e escalável que suporta armazenamento de dados estruturados para grandes tabelas.
HDFS: um sistema distribuído que fornece acesso rápido aos dados das aplicações
Hive: infraestrutura de armazém de dados que fornece uma síntese dos dados e um sistema de consultas ad hoc.
MapReduce: uma infraestrutura de software para processos de conjuntos de dados distribuídos
Pig: um linguagem e um framework para a execução de processos paralelos.
ZooKeeper: um serviço de coordenação de alto desempenho para aplicações distribuídas.

A implementação de uma plataforma Hadoop inclui necessariamente alguns desses subprojetos.

Por exemplo, muitas organizações escolhem usar o HDFS como sistema de gerenciamento de arquivos distribuído principal e o HBase como banco de dados que pode armazenar bilhões de colunas de dados. E o uso do MapReduce (ou Spark) é então quase evidente, pois traz velocidade e agilidade à plataforma Hadoop.

Com o MapReduce, os desenvolvedores podem criar programas que processam volumes massivos de dados não estruturados em paralelo através de um cluster de processadores distribuídos de forma independente. O framework MapReduce é dividido em dois espaços funcionais:

Map, uma função que distribui o trabalho entre diferentes nós nos clusters de computadores.
Reduce, uma função que reúne o trabalho e resume os resultados em um único valor.

Um dos principais benefícios do Map Reduce é que ele é tolerante a falhas. Como ele faz isso? Ele “monitora” cada nó do cluster regularmente. Este deve retornar periodicamente um trabalho completo com atualizações de “status”. Se um nó ficar em silêncio mais do que o necessário, um nó mestre o sinaliza e reatribui o trabalho a outros nós do cluster.

Construído originalmente para indexar o motor de busca Nutch, o Hadoop agora é usado em todas as grandes indústrias para a quantidade de tarefas de Big Data.

Em outras palavras, graças ao sistema de computação distribuída HDFS e YARN (Yet Another Resource Negotiator), o software permite ao usuário processar gigantescos volumes de dados distribuídos em milhares de computadores, como se fosse uma enorme máquina.

Como adaptar isso ao seu caso? A história desses saltos tecnológicos é inevitavelmente obrigatória para você e sua organização.

Você não conhece computação distribuída? É urgente entender melhor e treinar você mesmo ou suas equipes.

<pQuanto às ferramentas, a história do Hadoop mostra o quanto sua lógica é imposta ao universo do Big Data. Seu universo não deve ser desconhecido para você. Pense nisso.

Mas a história não acabou.

Em 2009, pesquisadores da Universidade da Califórnia em Berkeley desenvolveram o Apache Spark, uma alternativa ao MapReduce. O Spark realiza seus cálculos em paralelo usando armazenamento em memória, ele é até 100 vezes mais rápido que o MapReduce. O Spark pode ser usado sozinho ou dentro do Hadoop.

Mesmo com o Hadoop, você ainda precisa de uma maneira de armazenar e acessar os dados.

Geralmente, é isso que bancos de dados NoSQL como Mongo DB, CouchDB ou Cassandra são usados para o processamento de dados não estruturados ou semi-estruturados e distribuídos em várias máquinas.

Diferente dos armazéns de dados, onde quantidades massivas de dados são enviadas a um formato unificado e armazenadas em uma única loja de dados, essas ferramentas não modificam a natureza ou a localização dos dados originais — os e-mails permanecem e-mails, os dados do sensor permanecem dados do sensor — e podem ser armazenados praticamente em qualquer lugar.

Um problema permanece: ter quantidades massivas de dados em bancos de dados NoSQL instalados em clusters de máquinas não é muito útil enquanto você não fizer nada. É aí que a análise de Big Data entra em cena.

Ferramentas como Tableau, Splunk e Jasper BI permitem que você analise esses dados para identificar padrões, extrair significados e revelar novas perspectivas. O que você faz com isso dependerá de suas necessidades.

Mais uma vez, as habilidades nessas análises são particularmente demandadas. Isso faz parte das habilidades a serem adquiridas.

Observe também que o domínio de bancos de dados NoSQL parece importante, senão indispensável. Conhecer e dominar o NoSQL parece, portanto, essencial para o mundo do Big Data. Embora… neste artigo, você verá que o SQL está de volta em vigor no universo do Big Data.

Continuaremos, então…

Precisa de um diagnóstico mais preciso?

O que você precisa aprender? Quem precisa ser treinado em quê em sua organização? Entre em contato conosco para um diagnóstico preciso.

Fonte: InfoWorld. Artigo escrito por Galen Gruman (editor-chefe), Steve Nunez (editor-chefe), Frank Ohlhorst e Dan Tynan.

Tag: O Big Data: o que é?

Tudo sobre big data