Skip to Content
Guia do Big Data para iniciantes

Dados estruturados x dados não estruturados

Na última década, nossa definição e compreensão do que são dados mudaram radicalmente, orientadas em parte pela crescente disponibilidade de novas ferramentas para leitura, armazenamento e análise de dados não estruturados.

Antigamente, os dados não estruturados muitas vezes eram subutilizados em razão da dificuldade associada à interpretação deles. No entanto, as novas tecnologias não só facilitaram o entendimento dos dados não estruturados, como também a extração de valiosos insights dessa mina de ouro de informações.

De acordo com a IDC, o volume total de dados criados, capturados, copiados e consumidos no mundo todo até 2024 passará dos 149 zettabytes por ano, e grande parte deles será não estruturada. Todas as organizações serão beneficiadas com a criação de recursos de análise de dados não estruturados. A primeira parte desse caminho é simplesmente entender o que são dados estruturados e dados não estruturados.

Veja a seguir um breve resumo da diferença entre os dois tipos, com explicações mais detalhadas:

Característica

Dados estruturados

Dados não estruturados

Natureza dos dados

Normalmente quantitativa

Normalmente qualitativa

Modelo de dados

Predefinido; assim que é definido e alguns dados são armazenados; é difícil alterar o modelo

Nenhum esquema particular é envolvido nos dados não estruturados; o modelo de dados é muito flexível

Formato de dados

Um número limitado de formatos de dados está disponível

Uma enorme variedade de formatos de dados está disponível para os dados não estruturados

Banco de dados

São usados bancos de dados relacionais baseados em SQL

São usados bancos de dados NoSQL sem esquema específico

Pesquisa

É muito fácil pesquisar e localizar dados no banco de dados ou no conjunto de dados

É muito difícil procurar dados específicos devido à sua natureza não estruturada

Análise

Análise bem fácil devido à natureza quantitativa dos dados

Análise bem difícil, mesmo com as ferramentas de software disponíveis

Método de armazenamento

Data warehouses são usados para dados estruturados

Data lakes são usados para armazenar dados não estruturados

Slide

O que são dados estruturados?

Os dados estruturados têm um esquema claramente definido para as informações que contêm. Simplificando a definição, quaisquer dados que possam ser apresentados em um programa de planilha, como o Planilhas Google ou Microsoft Excel, são dados estruturados.

Neste exemplo, os dados podem ser representados como linhas e colunas. Cada coluna representa um atributo diferente, enquanto cada linha terá os dados associados ao atributo de uma única instância. Linhas e colunas compõem uma tabela que pode ser facilmente usada como referência.

Tabelas diferentes podem ser conectadas, isto é, elas podem ser consideradas relacionadas pela coluna em comum presente em ambas as tabelas.

Várias tabelas relacionadas em sucessão e combinação criam um banco de dados relacional. Por exemplo, o cliente, as vendas e os dados do inventário de uma loja de departamento podem ser considerados dados estruturados armazenados como um banco de dados relacional.

  • Cada cliente terá uma ID de cliente, bem como campos para nome, número para contato, informações de cartão de crédito, endereço, etc.
  • O banco de dados dos clientes pode ser conectado ao banco de dados de vendas, com atributos que incluem a hora da compra, códigos de itens comprados, valor total gasto, ID do cliente, etc. Ambas as tabelas serão conectadas ao atributo comum de ID do cliente.
  • Por fim, o banco de dados de vendas pode ser conectado ao banco de dados de inventário usando o atributo comum de código do item, interconectando efetivamente as três tabelas em um banco de dados relacional.

Dados estruturados como esses geralmente são armazenados em sistemas de gerenciamento de banco de dados relacional (RDBMSes, Relational Database Management Systems). Os bancos de dados podem ser gravados, lidos e manipulados usando linguagem de consulta estruturada (SQL, Structured Query Language), uma linguagem que foi desenvolvida pela IBM na década de 70 para dar suporte a seus bancos de dados de mainframe (apesar de ter sido inicialmente conhecida como linguagem de consulta em inglês sequencial ou SEQUEL). Esse nome se deve à sua leitura ser muito parecida com o inglês. O SQL em sua forma atual foi popularizado pela Relational Software, Inc. (atual Oracle).

O que são dados não estruturados?

Tudo que não é dado estruturado pode ser classificado como dado não estruturado. Estima-se que até 2025, 80% dos dados que encontrarmos serão dados não estruturados na forma de texto, áudio, imagem ou vídeo1.

Resumindo, dados não estruturados são dados modernos. Normalmente, esses dados:

  • São digitais e imprevisíveis
  • Estão sempre sendo criados e em movimento
  • São mesclados, multimodais e interoperáveis
  • São distribuídos geograficamente para melhor proteção

Os dados não estruturados podem ter metadados associados que, por sua vez, podem ter uma estrutura. Por exemplo, um vídeo pode ter metadados de resolução de vídeo, taxas de bits, quadros por segundo (FPS, Frames per Second), proprietário do vídeo, etc. Mas o vídeo em si não é estruturado. Quando há alguns metadados estruturados associados aos dados não estruturados, eles ocasionalmente são mencionados como dados semiestruturados.

Observando mais detalhadamente o exemplo de um vídeo do YouTube, alguns metadados estão presentes, como a hora do upload, a data do upload, o número de visualizações (parciais ou completas), o número de cliques em Gostei e Não gostei, etc. Mas o conteúdo dentro do título do vídeo, a descrição do vídeo e o vídeo em si não são estruturados. Eles têm um aspecto qualitativo que simplesmente não pode ser capturado pelos números.

O banco de dados mais frequentemente usado para dados não estruturados é o NoSQL. NoSQL significa “não somente SQL”, indicando que o banco de dados pode lidar com uma gama mais ampla de dados além dos recursos dos bancos de dados SQL. Não há esquema nem estrutura tabular para bancos de dados NoSQL; é apenas um conjunto de dados reunidos.

 

Armazenamento de dados não estruturados com UFFO

Isto posto, embora os dados não estruturados possam fornecer insights significativos com enorme potencial transformador, há desafios a serem vencidos. A solução de armazenamento avançada UFFO da Pure, o Pure Storage® FlashBlade®, oferece a velocidade associada à tecnologia de armazenamento flash, bem como a capacidade de escalar qualquer arquitetura rapidamente. Quer saber mais detalhes? A Pure oferece uma versão de avaliação gratuita do Pure FlashBlade para que você possa fazer um test drive da solução sem taxa de consumo.

Soluções e produtos relacionados

Solução
Análise de dados

1https://www.cio.com/article/3406806/ai-unleashes-the-power-of-unstructured-data.html

11/2024
Pure Storage FlashBlade and Ethernet for HPC Workloads
NFS with Pure Storage® FlashBlade® and Ethernet delivers high performance and data consistency for high performance computing (HPC) workloads.
Whitepaper
7 páginas
ENTRE EM CONTATO
Dúvidas ou comentários?

Tem dúvidas ou comentários sobre produtos ou certificações da Pure?  Estamos aqui para ajudar.

Agende uma demonstração

Agende uma demonstração ao vivo e veja você mesmo como a Pure pode ajudar a transformar seus dados em resultados poderosos. 

Telefone: 55-11-2844-8366

Imprensa: pr@purestorage.com

 

Sede da Pure Storage

Av. Juscelino Kubitschek, 2041

Torre B, 5º andar - Vila Olímpia

São Paulo, SP

04543-011 Brasil

info@purestorage.com

FECHAR
Seu navegador não é mais compatível.

Navegadores antigos normalmente representam riscos de segurança. Para oferecer a melhor experiência possível ao usar nosso site, atualize para qualquer um destes navegadores mais atualizados.