Foi a partir artigo científico de 1937 e aos 21 anos que o matemático, engenheiro eletrônico e criptógrafo americano Claude Shannon, estudante na Universidade de Michigan (Claude Elwood Shannon, 1919-2001), iniciou o conceito de dados na computação.

É creditado a ele o título de fundador do computador digital e do projeto de circuito digital. Sua tese de conceitos binários utilizados na lógica boleana de dois valores, aplica a fórmula a circuitos eletrônicos, o que lhe rendeu o título de "pai da teoria da informação".

No estudo de Claude, os dados são apresentados como uma tradução extremamente eficiente de informações para o formato de processamento e movimentação na computação. A transmissão entre computadores acontece por meio de uma transformação digital de formato para binário. Atualmente, o formato binário está na base de inúmeros dispositivos periféricos como CPUs, unidades de discos, condutores, memórias, além de assumir a forma de discos rígidos, cartões perfurados e fitas magnéticas.

Os dados podem ser traduzidos para diferentes aplicações computacionais, como por exemplo na comunicação em rede e na interconexão de componentes eletrônicos. Além disso, a palavra "dado" também caracteriza "informação de controle", responsável por descrever fatos reunidos e são aplicados também nas áreas como finanças, marketing, saúde, além é claro da ciência.

O protagonismo dos dados iniciou após a popularização do termo "processamento de dados" que, por um determinado período, consolidou todas as proficiências do que chamamos de "tecnologia da informação". Com o passar do tempo e com o advento do desenvolvimento de  processamento eletrônico de dados, foram adicionadas diversas especializações.

Armazenamento dos dados

A medição de memória ou armazenamento são mensurados a partir de megabytes ou em gigabytes. Para refletir esta medida, vamos entender que todas as informações contidas em um computador, como por exemplo textos, imagens, sons e vídeos são representados por apenas dois números, sendo:  0 e 1. O "bit" é a menor de todas as unidades de dados e descreve um único valor, já o "byte" possui um conjunto de oito dígitos binários.

Com o aumento da quantidade de dados coletados e armazenados, as unidades de medições também continuam crescendo, como por exemplo o parcialmente novo termo "brontobyte" que representa alto armazenamento de dados de bytes.

Unidade de medida de armazenamento e memória computacional
Unidade de medida de armazenamento e memória computacional


Os dados são armazenados em mainframe, usando formato de arquivo como ISAM (Indexed Sequential Access Method) e VSAM (Virtual Storage Access method). Esses formatos continuam em uso em vários tipos de máquinas e exigem cada vez mais especialização em banco de dados, sistema de gerenciamento e tecnologias de bancos de dados relacionais.

Tipos de dados:

Com o expressivo aumento da utilização de smartphones a criação de dados de vídeo, áudio, texto, entre outros registros, também acelerou o avanço e incluiu um novo tipo de dado: os dados não estruturados.

Em poucas palavras podemos dizer que a diferença é que o dado estruturado é facilmente compreendido por interpretações de bancos de dados, planilhas de excel e tabelas. Já o dado não estruturado, não possui sua estrutura definida como por exemplo em músicas, vídeos e imagens. O dado semi-estruturado acompanha padrões e hierarquias estruturais mas, não são armazenados em planilhas e tabelas, como por exemplo a utilização do código HTML. Dentre essas 3 categorias, estima-se que até 90% de todos os dados no mundo estão sob a forma de dados não estruturados.

Em consequência do enorme uso e geração de dados, a palavra Big Data é utilizada para significar dados em escala de petabyte ou maior e possuem cinco propriedades definidas, como: 5Vs  - Volume, Variedade, Velocidade, Veracidade e Valor.

Volume: representado pela quantidade - o volume de troca de e-mails, transações bancárias, interações em redes sociais, registro de chamadas e tráfego de dados em linhas telefônicas, são referências de volume.

Variedade: representa a quantidade de informações dispersas - e-mails, redes sociais, fotografias, áudios, telefones e cartões de crédito - existem diversos pontos de vista sobre a variedade de dados.

Velocidade: refere-se a velocidade com a qual você obtém essa informação - a velocidade de processamento de uma informação pode ser interpretada como vantagem competitiva em diversos modelos de negócios.

Veracidade: o dado deve refletir a realidade dos fatos - o reflexo realista da informação reconhece a relevância e valor à informação.

Valor: a diversidade de dados é importante para o processo de análise mas, saber orientar o processo para os objetivos do negócio poderá gerar riqueza intelectual e financeiramente mais compensatória.

Gerenciamento e uso de dados

Com uso de dados ganhando força nas organizações inclusive sendo utilizados para diferenciação e geração de valor para os negócios, começamos a dar mais importância a garantia da qualidade e para a utilização de registros atuais e precisos.

Entre as diversas etapas envolvidas no gerenciamento de dados incluímos a extração, limpeza, transformação e carregamento dos dados chamadas de ETL (em inglês, extract, transform and load). Além disso, os dados podem ser acrescidos por metadados que ajudam os usuários e administradores a compreender e unificar a outros dados em diferentes bancos de dados.

Com sistemas mais sofisticados e sendo possível a interpretação de dados estruturados e não estruturados, buscamos soluções que sejam capazes de absorver grandes volumes de informações, processá-los e devolvê-los para uso instantâneo na operação a fim de buscar a capitalização deste recurso.

A ideia de capitalizar a eficiência e eficácia do processamento de dados, amplia a sua utilização de operações e transações, para modelos de análises preditivas de dados. Esta análise que busca identificar padrões para prever resultados de negócios, proporcionou ainda maior sofisticação nos processos de mineração de dados, estatísticas, modelagem e inteligência artificial.

Profissionais de dados

O profissional de dados ganhou espaço definitivo a partir dos anos 80, com a difusão do SQL (Structured Query Language), demandados pelas organizações para ampliar a arquitetura, realizar os ajustes e manutenção de bancos de dados relacionais chamados RDBMS - Relational Database Management System. Posteriormente, surgiram alternativas aos bancos de dados relacionais conhecidos como No-SQL que são estruturados de formas diferentes das relações tabulares.

Além dos aspectos técnicos, a expertise de um gerenciador de dados deve considerar conhecimentos sobre a governança de dados que abrange a proteção e segurança, os processos para tomada de decisões, controle de custos e transparência do uso e manuseio dos dados.

Por fim, o título de cientista de dados é bem mais recente e é utilizado para descrever os profissionais que atuam com mineração e análise de dados. Com o advento de novas tecnologias, passamos a considerar o surgimento de outras atividades ligadas a estruturação e interpretação de dados como o "Artista de dados" que é o profissional especializado em criar visualizações em gráficos e outras maneiras de fundamentar as evidências encontradas.