O processo de preparação de dados que é, sem dúvidas, uma das tarefas que mais levam tempo para serem realizadas. Os métodos envolvem a coleta, agregação, estruturação e organização de dados para que sejam interpretados por componentes de visualização, análise e aprendizado de máquina. Esta preparação inclui também o pré-processamento, criação de perfis, limpeza, validação e transformação de dados de diferentes fontes e sistemas, internos e externos.

Todo trabalho de preparação de dados é realizado por profissionais de Inteligência de Negócios (em inglês, Business Intelligence) e de Tecnologia da Informação, que tem como escopo, carregar os conjuntos de dados em um data warehouse, banco de dados NoSQL ou repositórios como o Hadoop, preparar os dados para análise e garantir a qualidade das informações para que a os resultados de análises sejam precisos, consistentes e válidos.

Sempre que uma nova coleta de dados é realizada, os valores absorvidos são criados com ausências, imprecisões ou outros erros. Além disso, estes conjuntos de dados em sua maioria possuem formatos diversos, como por exemplo: csv, json, txt e entre outros, que obrigatoriamente precisam ser manipulados.

Em sistemas mais avançados de Big Data e Analytics, a preparação dos dados é uma tarefa automaticamente tratada, o que aumenta consideravelmente a eficiência do sistema, pois, a manutenção manual de dados pode levar anos para conclusão. Nesta jornada são aplicados por exemplo, algoritmos de aprendizado de máquina (em inglês, machine learning), que irão examinar os campos de dados e tratar automaticamente as imperfeições dos valores para garantir a consistência dos arquivos e dos conjuntos de dados.

Um processo efetivo de ingestão de dados se inicia com a priorização das fontes de dados, validando arquivos individuais e encaminhando itens de dados para o destino correto. Os dados podem ser transmitidos em tempo real ou ingeridos em partes. Na Ingestão em tempo real, cada item de dados é importado à medida que é emitido pela fonte. Quando são ingeridos em partes, os itens de dados são importados em lotes correspondentes a intervalos de tempo recorrentes.

Logo após a validação e conciliação dos dados, são executados processos no fluxo que irão inserir operações nos arquivos, por exemplo: aplicar aos dados fórmulas estatísticas como regressão linear. Ao finalizar o fluxo, um novo arquivo finalizado pode ser carregado em um repositório de dados ou em qualquer outro ambiente que esteja disponível para interpretação e análise.

Mesmo com todos os recursos, a automação da preparação de dados ainda é um processo que demanda significativo tempo de execução, notada a proporção do aumento do volume de dados a serem analisados. Uma das principais dificuldades das equipes que analisam dados é o tempo que se investe na localização e limpeza de dados, quando que o melhor emprego e esforço deveria ser dedicado para a análise das informações processadas.

Para absorver as dificuldades e para melhorar o desempenho dos times, é altamente recomendado instituir um processo formal de preparação de dados. Atualmente, as empresas implementam Data Lakes ou Data Hubs, que são repositórios Hadoop, onde armazena-se grandes volumes de dados estruturados e não estruturados. Ainda neste processo, todas as atividades repetidas podem ser processadas automaticamente, eliminando a necessidade de um indivíduo dedicado ao tratamento individual de dados.

O pré-processamento e preparo do dado bruto para outras operações é uma prática corriqueira de mineração de dados. A transformação para formatos específicos por exemplo, proporcionam maior facilidade para quem o manipula e também melhora a eficiência de processamento.

Entre as metodologias e ferramentas aplicadas no pré-processamento de dados, podemos destacar:

  • Amostragem: utilizada para selecionar conjuntos de dados de uma grande porção de dados;
  • Transformação: para manipulação de dados brutos para criação de uma única entrada;
  • Denoising: aplicado para remoção de ruídos dos dados;
  • Normalização: utilizado para organização e acesso eficiente dos dados;
  • Extração de Recursos: para subtrair dados específicos a contextos significados;

Para equipes de marketing e vendas que trabalham diretamente ligadas ao gerenciamento do cliente, o pré-processamento de dados pode ser aplicado como componente de mineração que extrai o conjunto de dados de rastreio de usuários na Web, como por exemplo: identificação do usuário, tempo gasto, pedidos e etc. Ao compilar e interpretar o conjunto de dados brutos, eles produzem informações mais úteis e valiosas aos propósitos dos clientes - como ações personalizadas, insights para melhoria e desenvolvimento de produtos, campanhas de marketing direcionadas, pesquisas, entre outras.


Entendendo a integração de dados:

Já vimos em outras oportunidades que a consistência e a limpeza dos dados são fundamentais para qualidade das análises, no entanto, entre todas as atividades do gerenciamento de dados, a integração é, sem dúvidas, um processamento crucial. É nesta etapa que conjuntos de dados descrevem informações consolidadas, que serão enviadas para interpretação, análise e tomada de decisões.

As aplicações direcionadas a análise de negócios são alimentadas por meio de integrações de dados aos dados de sistema de processamento transacional em Data Lakes e são deverão ser integrados de acordo com o perfil do uso como: integração em lote, feito em períodos agendados ou em tempo real, executado de maneira contínua.

É fundamental que sejam utilizados uma diversidade de coleções de fontes de dados internas e externas. Em alguns casos de uso, a utilização de mais de uma fonte é essencial para execução de atividades como por exemplo pedidos on-line que exigem dados do cliente, inventário do produto, processamento logístico e o mesmo conjunto de dados necessários ao atendimento e suporte ao cliente.

Para evidenciarmos a importância da integração de dados, observe o caso do setor de análise de crédito. Nesta aplicação, o cruzamento de informações de registro da conta, propriedades, fluxos de entrada são essenciais a concessão de crédito. Em operações industriais, sensores de tubulações são monitorados em tempo real. Nestes e em outros casos, a integração de dados ocorre de maneira automática sem necessidade de intervenção humana.

A integração de dados em sistemas de BI e análise ocorre de maneira similar. A integração de dados proporciona uma imagem dos KPIs (em inglês, Key Performance Indicator) que são indicadores de desempenho que mensuram  a operação, clientes, cadeia, riscos financeiros, processos e outros aspectos do negócio. Neste caso, a melhor interpretação e rastreio destas informações proporcionam a executivos, gerentes de negócios o melhor gerenciamento de suas operações, além de mais assertividade na construção do planejamento estratégico.

Em nível inicial, a integração de dados liga sistemas de origem e destino e roteia os dados do primeiro para o segundo. Podem ser movidos do sistema de origem para o sistema de destino para atualizações de diferentes fluxos de dados e atualizações. Como também podem alimentar bancos de dados em um repositório para análise.

Pela perspectiva técnica, profissionais de integração de dados desenvolvem soluções que automatizam e gerenciam as integrações de sistemas e conjuntos de dados. As integrações podem ocorrer de maneira direta, ou seja, simplesmente de um sistema para o outro. Por outro lado, há cada vez mais o aperfeiçoamento de soluções de integração que utilizam arquiteturas complexas em bancos de dados separados e que atuam em diferentes aplicações. Neste caso, é recomendado que sejam coordenados como parte da solução para integração de dados.

Uma prática comum para implementação é criar um schema mediador em que incorpora os esquemas de origem local em um global e faz o mapeamento das correspondências e diferenças dos elementos ao schema mediador. Este método pode ser adotado em sistemas de destino, bem como em arquiteturas virtuais que apresentam um olhar consolidado dos dados de sistemas diferentes sem necessariamente disponibilizá-lo em um repositório.



Quais os tipos de integração de dados?

O processo mais popular é o ETL (em inglês, extract, transform and load) ou extrair, transformar e carregar, que é muito comum na utilização de Data Warehouse. No ETL são extraídos os dados dos sistemas de origem, são executados processos de transformação de dados para consolidação e filtros para torná-los analíticos e por fim são carregados em uma warehouse ou repositório. O ETL é um método em lote que manipula grandes quantidades de dados e pode ser usado para alimentar variados conjuntos de dados em repositórios e demais soluções de Data Lake.

Em outro método, o ELT (em ingles, o extract, load and transform)  acontece a inversão entre a segunda e a terceira etapa, primeiramente carregando os dados em um sistema para posterior filtragem e transformação no sistemas de destino, conforme a necessidade da sua aplicação e uso individual. Essa é uma opção comum aos cientistas de dados que, optam pela preparação de conjuntos compilados de dados para modelagem, aplicação de métodos de aprendizagem de máquina e outras análises mais avançadas.

O CDC (em inglês, capture data change) ou captura de dados alterados é um método de integração de dados em tempo real que aplica atualizações de sistemas de origem nos data warehouses e demais repositórios e a integração de dados streaming, adiciona os conjuntos de dados compilados em um banco de dados para consulta de análise ou operacional.


O método de Replicação de Dados é muito utilizado para aplicações preventivas como por exemplo o Disaster Recovery, em português, Recuperação de Desastre. Neste caso os dados são replicados em lote ou em tempo real, como cópia dos dados de uma fonte de dados para outro sistema, sendo possível sincronizá-los sempre que necessário.

Na Virtualização de Dados os dados não são integrados fisicamente. Neste caso, uma camada de dados virtual é utilizada para integração dos dados. Isso permite visualizações de diferentes conjuntos de dados, sem que seja necessário esforços de carregamento de grandes volumes de dados em um banco de dados ou data warehouse. Por outro lado, a virtualização de dados pode aumentar a demanda por arquiteturas mais robustas, para serem usadas como parte de um ambiente que inclui diversas plataformas.


Principais técnicas e ferramentas de integração de dados

Como técnica e ferramenta de integração, os desenvolvedores normalmente codificam em forma de scripts escritos em SQL (em inglês, Structured Query Language), quando são utilizados bancos de dados relacionais. Por um longo período de tempo, o SQL foi a abordagem mais básica da integração. Atualmente pode-se observar a possibilidade da contratação de ferramentas e pacotes de integrações que suportam não somente o ETL e o ELT como também atendem replicações de dados, CDC e outras formas de integrações. Outras iniciativas estão focadas no desenvolvimento de soluções de virtualização e gerenciamento de dados.

Estas iniciativas têm como objetivo agilizar e manter uma documentação dos processos, que são fundamentais a necessidade de integrações em diferentes aplicativos, sistemas e bancos de dados locais.

Uma vez que o trabalho de integração de dados é feito do modo correto pode-se ter visões atuais e consistentes de clientes e do mercado. A análise e a tomada de decisões sofrem impactos de acordo com as informações extraídas e direcionam os esforços para identificação de novos negócios, ajustes na operação, em produtos que resultam em melhores desempenhos, aumento de vendas ou melhorias na manutenção do tempo de vida do cliente (LTV, em inglês Life Time Value). Quando os dados são bem integrados, também proporcionam melhores desempenhos e experiências aos clientes em atendimentos de suporte.

As iniciativas geralmente incluem também integrações de dados sobre a receita, despesas, produtividade, lucros de todas as frentes operacionais e de negócios. De maneira geral, estas informações são alimentadas em sistemas de BI que ajudam o gerenciamento de operações e de planejamento estratégico.  Quando aplicados ao público interno das empresas, as integrações apoiam na administração de colaboradores, ajudando as organizações a melhorarem os processos ligados a pessoas.

Nas indústrias, organizações estão se movimentando para tornar operações mais integradas e autônomas, com utilização diversos tipos de sensores conectados para o monitoramento, onde a execução de aplicações identificam movimentações para manutenção preventiva e emergencial que minimizam impactos na produção. Na saúde, os dados de diversos sistemas clínicos ajudam médicos em diagnósticos de doenças e em outros casos, pode melhorar a capacidade do atendimento e diminuir as reclamações.

Para finalizar, destacamos que o principal desafio das equipes que atuam com a integração de dados é sem dúvida acompanhar o aumento exponencial do volume de dados que temos a disposição e que processamos. Outras dificuldades são a unificação de conjuntos inconsistentes, enfrentar a diversidade de bancos de dados e plataformas de infraestrutura, integração de dados em nuvens e dados locais e sempre, sempre se preocupar com a qualidade dos dados.

Com todo este contexto, fica evidente que equipes de integração de dados terão melhores desempenhos com a completa documentação dos sistemas de origem e destino. Assim é possível criar soluções de arquitetura e mapeamento exigido entre eles. O conhecimento das fontes de dados internas, externas e das regras de negócios incorporadas aos dados limpos e consolidados, agregam valor e potencial comercial aos dados e por isso, a aproximação e esforços de colaboradores de outras áreas corporativas podem contribuir muito para a melhor qualificação e gerenciamento da governança de dados.