O surgimento do termo Big Data se deu em 2001 e é reflexo do aumento expressivo dos volumes de dados observados a partir da década de 90. Este conceito se consolidou ao incluir a variedade de dados e a velocidade com que dados são criados. Estes três fatores fundamentam os 3 V's (volume, variedade e velocidade) que caracterizam o Big Data daquele tempo.

Em 2006 uma iniciativa da Apache lançou um projeto em código aberto que viabilizou o desenvolvimento de plataformas em cluster, construída sobre hardware tradicional para executar aplicativos de Big Data. Mas, foi somente em 2011, que a análise de Big Data juntamente com o Hadoop e várias tecnologias relacionadas a análise de grandes volumes, ganharam representatividade em organizações.

No princípio a tecnologia era aplicada somente pelos grandes da internet como Google e Facebook mas, com o passar do tempo e com maturidade dos ecossistemas em torno do Hadoop, passaram a ser cada vez mais utilizadas na indústria, no setor financeiro, varejo, energia, indústria médica, entre outros.

Os estudos de inteligência de negócios (BI), atingiram determinado grau de amadurecimento que acabam abrangendo perguntas mais triviais sobre o desempenho e operações de negócios, em contrapartida o surgimento do Big Data Analytics se propõe a aprofundar a análise por meios mais sofisticados, que incorporam aplicativos complexos com recursos de modelos preditivos, análises hipotéticas e algoritmos estatísticos que são utilizados por negócios de alta performance.

O processo de descobrimento de informações a exemplo dos desejos dos clientes, tendências do mercado, correlações desconhecidas e também padrões que passam despercebido é o resultado de um processo complexo de análise de um conjunto enorme e uma grande variedade de dados internos, fontes externas e dados compilados, agregados e conectados. As tecnologias e técnicas de modelagem atuais, garantem a larga escala e as aplicações de streaming de dados oferecem os mecanismos de processamento necessários para contribuir com tomadas de decisões baseadas em dados. Todo este processo é caracterizado como Big Data Analytics.

Uma vez que conseguimos ser impulsionados por sistemas e softwares especializados em análise de Big Data, é possível aumentar as vantagens competitivas e benefícios para a gestão como, por exemplo: melhorar o direcionamento das ações de marketing, aumento de performance operacional, expandir o conhecimento sobre os clientes, além de conquistar vantagens competitivas frente aos concorrentes.

As aplicações de Big Data Analytics permitem que as pessoas façam uso de grandes volumes de dados com análise de modelos preditivos e estatísticos, que não estão disponíveis em sistemas tradicionais de inteligência de mercado e análise.


O quadro acima demonstra algumas das diferenças entre as Inteligência de Mercado e os modelos mais avançados de análise de Big Data.

Grande parte da complexidade adicional acontece principalmente pela inclusão de dados não estruturados e semi estruturados pois, estes não se encaixam com bancos de dados que utilizam do conjuntos de dados relacionais e orientados a data warehouses tradicionais.

O data warehouse convencional certamente sofre com o excesso de demanda por processamento e frequência, que são necessários para atender conjuntos de Big Data. Em alguns casos como, nas negociações de ações nas bolsas de valores ou quando há interações de visitantes de aplicativos e atividades online o consumo de dados acontece em tempo real de informações, e isso exige alto desempenho e contínua atualização.


Inicialmente as implantações Big Data foram estabelecidas por empresas que faziam todo o trabalho de estruturação para a análise de grandes volumes de dados. Porém, foi por meio de plataformas que fornecem serviços em nuvem, como Microsoft e Amazon Web Service que a oferta de serviços expandiu e tornou cada vez mais simples a configuração e a gestão de clusters Hadoop na nuvem.

Para conseguirmos atender demandas de mineração de dados, processamento e análises aprofundadas, percebemos que o mercado tem inclinação a utilizar bancos de dados NoSQL como o Hadoop, além de empregar diversos complementos que poderão ser inseridos para complementar o tratamento e análise destes conjuntos de dados, como por exemplo:

YARN (Yet Another Resource Negotiator)
É um dos recursos mais relevantes do Hadoop de segunda geração. É utilizado para gerenciar clusters, são conhecidos por suportar alta intensidade computacional permitindo a escala entre servidores SQL de modo dinâmico. Foi desenvolvido pelo Facebook em 2016, e se propõe a ser mais eficiente e seguro que o NPM.

Spark
Esta aplicação tem foco em velocidade e facilidade para análises de alto nível. Oferece recursos bem documentados para Java, Scala e Python além de contar com bibliotecas que permitem o trabalho integrado em código aberto e utiliza estruturas paralelas de processamento, o que permite que usuários possam executar sistemas em cluster em grandes volumes.

Hive
É um sistema de armazenamento em código aberto utilizado para pesquisar e analisar dados e acondicionados em arquivos Hadoop

Kafta
Sistema de publicação de mensagens criado para eliminar intermediários. Podem publicar e assinar fluxos, semelhantes a uma mensagem. Armazena fluxos de registros e processa os fluxos de registros enquanto eles ocorrem.

MapReduce
São modelagens utilizadas em programações para construção de estruturas paralelas robustas que dividem processamentos e também computadores independentes.

Pig
São desenvolvimentos que suportam aplicações criadas em Hadoop.O Pig pode executar ações de Spark, MapReduce ou Tez.

Os sistemas NoSQL e clusters Hadoop são utilizados como intermediários, como por exemplo:  em um ambiente de recebimento e preparação de dados que antecipa a transferência para data warehouse ou banco de dados relacionais, que são mais adequados para uso analítico.

Outra arquitetura aplicada para suportar Big Data Analytics, adota o conceito de um data lake do Hadoop que atua como repositório de entrada de dados brutos e analisados com técnicas de Spark ou diretamente no próprio cluster Hadoop. A organização e o gerenciamento apropriado podem resultar em melhores desempenhos em todo o fluxo de ETL (Extrair, transformar e carregar) e integração dos  dados para realizar as consultas analíticas.

Uma vez que os dados estão prontos é possível aplicar processos analíticos mais sofisticados, que podem envolver as seguintes técnicas:

Análise Preditiva
Cria modelos que permitem a antecipação de resultados e comportamentos. A aplicação utiliza técnicas estatísticas, dados históricos e transacionais para identificar os padrões encontrados nos riscos e oportunidades futuro.

Mineração de Dados
Regras de associação e sequências temporais são os principais recursos para encontrar os padrões de relacionamento. As técnicas de clusterização e classificação do data mining são métodos que ajudam a descobrir fatores que influenciam as decisões de compra dos consumidores

Machine Learning
É um dos campos de atuação da engenharia e da ciência da computação que desenvolve estudos de reconhecimento de padrões por meio de algoritmos que analisam grandes conjuntos de dados.

Deep Learning
É uma área avançada ligada ao Machine Learning que se baseia em abstrações criadas por máquina por meio de conjuntos de algoritmos.

Entender as diferentes aplicações e ramificações possibilita aplicarmos um conjunto de soluções que desempenham melhor suas atividades, tal como: na análise estatística e mineração em análises de big data, desenvolvimento de ferramentas para visualização de dados e plataformas de inteligência de negócios, como também para desenvolvimento de soluções de ETL e análise que utilizam de gravações no MapReduce por meio de linguagens em Python, R, SQL, Scala entre outras apoiadas pelas tecnologias SQL-on-Hadoop.