What Is Structured Data?

Structured data has a well-defined schema for the information it holds. To give an extremely simple definition, any data that can be presented in a spreadsheet program like Google Sheets or Microsoft Excel is structured data. In this example, data can be represented as rows and columns. Each column represents a different attribute, while each row will have the data associated with the attribute for a single instance. Rows and columns form a table that can be referenced easily. Different tables can be connected—that is, they can be said to be related by the common column present in both tables. If multiple tables are related in succession and combination, this creates a relational database. For instance, the customer, sales, and inventory data of a department store can be considered structured data stored as a relational database. Each customer will have a customer ID, as well as fields for their name, contact number, credit card information, address, etc. The database of customers can be connected to the database of sales, with attributes including the time of purchase, item codes purchased, total amount spent, customer ID, etc. Both the tables will be connected with the common attribute of customer ID. Finally, the sales database can be connected to the database of inventory using the common attribute of item code, effectively interconnecting all three tables into a relational database. Structured data like this is generally stored in relational database management systems (RDBMSes). Databases can be written, read, and manipulated using Structured Query Language (SQL), a language that was developed by IBM in the 1970s to support its mainframe databases (though it was initially known as Sequence English Query Language or SEQUEL). It was so named since it reads pretty much like the English language. SQL in its current form was popularized by Relational Software, Inc. (now called Oracle).

What Is Unstructured Data?

Every piece of data that is not structured data can be classified as unstructured data. It’s estimated that by 2025, 80% of the data we encounter will be unstructured data in the form of text, audio, image, or video 1 . In short, unstructured data is modern data. It’s often: Born digital and unpredictable Always being created and on the move Blended, multimodal, and interoperable Geo-distributed for better protection Unstructured data can have some associated metadata that can, in turn, have a structure. For example, a video can have metadata of video resolution, bit rate, frames per second (FPS), owner of the video, etc. But the video itself is unstructured. When there’s some structured metadata associated with unstructured data, it’s occasionally referred to as semi-structured data. Looking more closely at the example of a YouTube video, some metadata is present, such as the time of upload, date of upload, number of views (partial or full), number of likes and dislikes, etc. But the content inside the video title, the video description, and the video itself is unstructured. It has a qualitative aspect that cannot be captured purely by numbers. The most commonly used database for unstructured data is NoSQL. NoSQL stands for “not only SQL,” indicating that the database can handle a wider range of data beyond the capabilities of SQL databases. There’s no schema or tabular structure for NoSQL databases; it’s just a collection of data grouped together.

Pure Knowledge
Guide to Big Data
Big Data versus herkömmliche Daten

Anfängerleitfaden zu Big Data

Strukturierte Daten versus unstrukturierte Daten

In den letzten zehn Jahren haben sich unsere Definition und unser Verständnis von Daten dramatisch verändert – zum Teil aufgrund der zunehmenden Verfügbarkeit neuer Tools zum Lesen, Speichern und Analysieren unstrukturierter Daten.

In der Vergangenheit wurden unstrukturierte Daten aufgrund der Schwierigkeit, sie zu interpretieren, oft nicht umfassend genutzt. Diese neuen Technologien haben es einfacher gemacht, unstrukturierte Daten nicht nur zu verstehen, sondern auch wertvolle Erkenntnisse aus diesem Informationsschatz zu gewinnen.

Laut IDC wird das Gesamtvolumen der weltweit erstellten, erfassten, kopierten und verbrauchten Daten bis 2024 jedes Jahr 149 Zettabyte überschreiten – und ein Großteil davon wird unstrukturiert sein. Jedes Unternehmen wird vom Aufbau von Funktionen zur Analyse unstrukturierter Daten profitieren. Der erste Schritt auf diesem Weg besteht einfach darin, zu verstehen, was strukturierte Daten im Gegensatz zu unstrukturierten Daten sind.

Hier finden Sie eine kurze Zusammenfassung des Unterschieds zwischen den beiden Arten von Daten. Tiefergehende Erklärungen werden folgen:

Merkmal	Strukturierte Daten	Unstrukturierte Daten
Beschaffenheit der Daten	In der Regel quantitativ	In der Regel qualitativ
Datenmodell	Vordefiniert. Nach seiner Definition und nachdem einige Daten gespeichert wurden, ist es schwierig, das Modell zu ändern.	Bei unstrukturierten Daten gibt es kein bestimmtes Schema. Das Datenmodell ist sehr flexibel.
Datenformat	Es ist eine begrenzte Anzahl von Datenformaten verfügbar.	Für unstrukturierte Daten sind viele unterschiedliche Datenformate verfügbar.
Datenbank	SQL-basierte relationale Datenbanken werden verwendet.	NoSQL-Datenbanken ohne spezifisches Schema werden verwendet.
Suche	Sehr einfaches Suchen und Finden von Daten innerhalb der Datenbank oder des Datensatzes	Sehr schwierig, nach bestimmten Daten zu suchen, da sie unstrukturiert sind
Analyse	Sehr einfach zu analysieren, da es sich um quantitative Daten handelt	Sehr schwierig zu analysieren, selbst mit vorhandenen Software-Tools
Storage-Methode	Data Warehouses werden für strukturierte Daten verwendet.	Datenpools werden zum Speichern unstrukturierter Daten verwendet.

Slide

Was sind strukturierte Daten?

Strukturierte Daten weisen ein wohldefiniertes Schema für die darin enthaltenen Informationen auf. Eine extrem einfache Definition lautet: Alle Daten, die in einem Tabellenkalkulationsprogramm wie Google Sheets oder Microsoft Excel dargestellt werden können, sind strukturierte Daten.

In diesem Beispiel können die Daten als Zeilen und Spalten dargestellt werden. Jede Spalte steht für ein anderes Attribut, während jede Zeile die mit dem Attribut verbundenen Daten für eine einzelne Instanz enthält. Zeilen und Spalten bilden eine Tabelle, auf die einfach Bezug genommen werden kann.

Verschiedene Tabellen können miteinander verbunden werden, d. h. man kann sie aufgrund der in beiden Tabellen vorhandenen gemeinsame Spalte als zusammengehörig betrachten.

Werden mehrere Tabellen nacheinander und in Kombination miteinander in Beziehung gesetzt, entsteht eine relationale Datenbank. Zum Beispiel können die Kunden-, Verkaufs- und Bestandsdaten eines Kaufhauses als strukturierte Daten betrachtet werden, die in einer relationalen Datenbank gespeichert sind.

Für jeden Kunden gibt es eine Kunden-ID sowie Felder für dessen Namen, Kontaktnummer, Kreditkarteninformationen, Adresse usw.
Die Kundendatenbank kann mit der Datenbank der Verkäufe verbunden werden, wobei zu den Attributen der Zeitpunkt des Kaufs, die gekauften Artikelcodes, der Gesamtbetrag der Ausgaben, die Kunden-ID usw. gehören. Die beiden Tabellen werden mit dem gemeinsamen Attribut, der Kunden-ID, verbunden.
Schließlich kann die Verkaufsdatenbank mit der Bestandsdatenbank über den Artikelcode als gemeinsamem Attribut verbunden werden, wodurch alle drei Tabellen effektiv zu einer relationalen Datenbank verbunden werden.

Strukturierte Daten wie diese werden in der Regel in relationalen Datenbankmanagementsystemen (RDBMS) gespeichert. Datenbanken können mit der Structured Query Language (SQL) geschrieben, gelesen und bearbeitet werden, einer Sprache, die von IBM in den 1970er Jahren zur Unterstützung seiner Mainframe-Datenbanken entwickelt wurde (wobei sie ursprünglich als Sequence English Query Language oder SEQUEL bekannt war). Sie wurde so genannt, da sie sich ziemlich ähnlich wie die englische Sprache liest. SQL in seiner heutigen Form wurde von Relational Software, Inc. (jetzt Oracle genannt), bekannt gemacht.

Was sind unstrukturierte Daten?

Alle Daten, die keine strukturierten Daten sind, können als unstrukturierte Daten klassifiziert werden. Schätzungen zufolge werden bis 2025 80 % der Daten, die uns begegnen, unstrukturierte Daten in Form von Texten, Audioaufnahmen, Bildern oder Videos sein¹.

Kurz gesagt: Unstrukturierte Daten sind moderne Daten. Sie sind häufig:

digitalen Ursprungs
ständig im Entstehen begriffen und in Bewegung
kombiniert, multimodal und interoperabel
für besseren Schutz geografisch verteilt

Unstrukturierten Daten können einige Metadaten zugeordnet sein, die ihrerseits eine Struktur haben können. Ein Video kann z. B. Metadaten zu Videoauflösung, Bitrate, Bildern pro Sekunde (FPS), Videoeigentümer usw. enthalten. Aber das Video an sich ist unstrukturiert. Wenn mit unstrukturierten Daten einige strukturierte Metadaten verbunden sind, spricht man gelegentlich von halbstrukturierten Daten.

Wenn man sich das Beispiel eines YouTube-Videos genauer ansieht, sind einige Metadaten vorhanden, z. B. die Upload-Uhrzeit, das Upload-Datum, die Anzahl der Aufrufe (teilweise oder vollständig), die Anzahl der Likes und Dislikes usw. Aber der Inhalt innerhalb des Videotitels, der Videobeschreibung und des Videos selbst ist unstrukturiert. Er hat einen qualitativen Aspekt, der nicht rein durch Zahlen erfasst werden kann.

Die am häufigsten verwendete Datenbank für unstrukturierte Daten ist NoSQL. NoSQL steht für „not only SQL“ (nicht nur SQL) und weist darauf hin, dass die Datenbank ein breiteres Spektrum an Daten verarbeiten kann, als es SQL-Datenbanken können. Für NoSQL-Datenbanken gibt es kein Schema und keine tabellarische Struktur; es handelt sich lediglich um eine Sammlung von Daten, die gruppiert sind.

Storage für unstrukturierte Daten mit UFFO

Doch auch wenn unstrukturierte Daten wichtige Erkenntnisse mit großem Transformationspotenzial liefern können, gibt es Herausforderungen bei der Handhabung dieser Daten. Die fortschrittliche UFFO-Storage-Lösung von Pure, Pure Storage® FlashBlade®, bietet die Geschwindigkeit, die man mit der Flash-Storage-Technologie verbindet, sowie die Fähigkeit, jede Architektur flexibel zu skalieren. Möchten Sie sie sich näher ansehen? Pure bietet eine kostenlose Testversion von Pure FlashBlade an, sodass Sie die Lösung unverbindlich testen können.

Zusätzliche Kapitel im Big-Data-Leitfaden

FlashBlade-Datei- und -Objekt-Storage

Produkt

KI-Infrastruktur AIRI

¹https://www.cio.com/article/3406806/ai-unleashes-the-power-of-unstructured-data.html

Wichtige Ressourcen und Veranstaltungen durchsuchen

THOUGHT LEADERSHIP

Der Innovationswettlauf

Branchenführer, die an vorderster Front der Storage-Innovationen stehen, geben Einblicke und Ausblicke.

Mehr erfahren

ANALYSTENBERICHT

Planen Sie Ihre cyberresiliente Zukunft

Entdecken Sie Strategien zur Zusammenarbeit, um Investitionen in Cybersicherheit optimal zu nutzen und eine schnelle Reaktionsfähigkeit sowie Wiederherstellung sicherzustellen.

Bericht lesen

QUELLE

Die Zukunft des Storage: Neue Prinzipien für das KI-Zeitalter

Erfahren Sie, wie neue Herausforderungen wie KI die Anforderungen an den Daten-Storage verändern und ein neues Denken sowie einen modernen Ansatz für den Erfolg erforderlich machen.

E-Book herunterladen

Alle Ressourcen anzeigen

QUELLE

Kaufen Sie keinen Storage mehr, sondern setzen Sie stattdessen auf Plattformen.

Untersuchen Sie die Anforderungen, die Komponenten und den Auswahlprozess für Storage-Plattformen in Unternehmen.

Bericht lesen

Alle Ressourcen anzeigen

KONTAKTIEREN SIE UNS

Fragen, Kommentare?

Haben Sie eine Frage oder einen Kommentar zu Produkten oder Zertifizierungen von Pure? Wir helfen Ihnen gerne!

Kontaktieren Sie uns! Live-Chat

Termin für Demo vereinbaren

Vereinbaren Sie einen Termin für eine Live-Demo und sehen Sie selbst, wie Pure Ihnen helfen kann, Ihre Daten in überzeugende Ergebnisse zu verwandeln.

Demo anfordern

Rufen Sie uns an: +49 89 26200662
Presse: pr@purestorage.com

Pure Storage Germany GmbH

Mies-van-der-Rohe-Straße 6

80807 München

Deutschland

info@purestorage.com

SCHLIESSEN

Ihr Browser wird nicht mehr unterstützt!

Ältere Browser stellen häufig ein Sicherheitsrisiko dar. Um die bestmögliche Erfahrung bei der Nutzung unserer Website zu ermöglichen, führen Sie bitte ein Update auf einen dieser aktuellen Browser durch.

Strukturierte Daten versus unstrukturierte Daten

Was sind strukturierte Daten?

Was sind unstrukturierte Daten?

Storage für unstrukturierte Daten mit UFFO

Zusätzliche Kapitel im Big-Data-Leitfaden

Ähnliche Produkte und Lösungen

Wir empfehlen außerdem …

Wichtige Ressourcen und Veranstaltungen durchsuchen