Unter dem Management unstrukturierter Daten ist das Erfassen, Speichern, Pflegen, Überwachen und Verarbeiten von Daten zu verstehen, die nicht vordefiniert wurden und sich nicht einfach in Datenbanktabellen wie etwa in einer Excel-Tabelle speichern lassen.
Was sind unstrukturierte Daten genau?
Die meisten Daten von heute – Experten schätzen etwa 90 % der Unternehmensdaten – sind unstrukturiert. Das bedeutet, dass sie keinem herkömmlichen Datenmodell oder -schema wie etwa dem einer relationalen Datenbank (man denke an die strukturierten Spalten und Zeilen einer Excel-Tabelle) entsprechen.
Unstrukturierte Daten können durch menschliche Aktivitäten oder durch Maschinen generiert werden. Beispiele hierfür sind Text in Word-Dokumenten, E-Mail-Inhalte, Bild- und Videodateien, Inhalte aus sozialen Medien, PowerPoint-Präsentationen, Satellitenbilder, Datenprotokolle von Mobiltelefonen und Gesprächsaufzeichnungen usw.
Unstrukturierte versus strukturierte Daten
Strukturierte Daten können in schönen Tabellen übersichtlich angeordnet werden. Sie waren bislang wesentlich einfacher zu verwalten als unstrukturierte Daten. Beispiele hierfür sind Informationen wie Kundendateien, Bestandslisten, Buchhaltungsdaten und Reisereservierungen.
Unstrukturierte Daten unterscheiden sich von strukturierten Daten, wie bereits erwähnt, durch ihr Format, aber auch durch die Art und Weise, wie sie verwendet werden. Unstrukturierte Daten sind eher qualitative als quantitative Daten. Sie stellen eher Ideen, Gedanken und Gefühle als einfache relationale Zahlen und Werte dar.
Unstrukturierte Daten sind zwar schwieriger zu verwalten als strukturierte Daten, aber sie enthalten jede Menge wertvolle Informationen. Stellen Sie sich vor, Sie könnten unstrukturierte Daten analysieren und die Tageszeiten ermitteln, zu denen sich Kunden am besten in Einkaufszentren locken lassen, oder Sie können Verkehrsdaten und Wetterdaten in Echtzeit zusammen analysieren und so herausfinden, wie, wann und warum es im Stadtverkehr zu Staus kommt. Oder wie wäre es, wenn Sie anhand von Inhalten aus sozialen Medien feststellen könnten, wie Ihre Kunden auf eine kürzlich erfolgte Produkteinführung reagieren oder wie sich der Ruf Ihrer Marke aufgrund eines Produktrückrufs verändert? Das alles ist mit unstrukturierten Daten möglich.
Unstrukturierte Daten und Big-Data-Analysen
Unstrukturierte Daten sind die häufigste Art von Daten, die Unternehmen heute analysieren möchten. Wie in den obigen Beispielen lassen sich durch die Analyse unstrukturierter Daten mithilfe von Datenanalysesystemen mit außergewöhnlicher Rechenleistung sowie KI- und ML-Funktionen unglaubliche Erkenntnisse gewinnen, die kein Mensch so schnell – wenn überhaupt – entdecken könnte. Datenanalyseanwendungen können mehrere Ströme unverbundener Daten (wie Verkaufszahlen für das vergangene Jahr, Wetterdaten, Aktivitäten in sozialen Medien, aktuelle Neuigkeiten, Veranstaltungen und vieles mehr) analysieren, sodass Muster und Korrelationen deutlich werden, die bislang nicht zu erkennen waren. Wenn Unternehmen diese Muster kennen, können sie nach effizienteren Möglichkeiten suchen, wie sie das Serviceerlebnis für Kunden anpassen, bessere und effizientere Services bereitstellen, neue Einnahmequellen erschließen, schneller auf Kunden und Markttrends und neue Anforderungen reagieren können und vieles mehr.
Analyse- und Management-Tools und Datenbanken für unstrukturierte Daten
Unstrukturierte Daten sind im Vergleich zu strukturierten Daten zwar schwieriger zu speichern, zu verwalten, zu analysieren und zu verarbeiten, doch gibt es inzwischen zahlreiche Tools und Anwendungen, die Unternehmen beim Management ihrer unstrukturierten Daten und der Gewinnung des darin verborgenen Wertes unterstützen. Im Folgenden werden die Tools zum Analysieren und Verwalten von Daten sowie die Datenbanken beschrieben, die den Umgang mit unstrukturierten Daten vereinfachen.
Gängige Tools zur Analyse von Daten
Die besten Datenanalysetools für unstrukturierte Daten enthalten in der Regel Funktionen für KI und maschinelles Lernen. Außerdem verfügen sie häufig über Funktionen für die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP), mit denen unstrukturierte Daten ohne ein herkömmlich definiertes Format analysiert werden können. Mit diesen Tools können Inhalte aus E-Mails, sozialen Medien, Kundensupportaufzeichnungen und vielem mehr analysiert werden, sodass der Kontext und die Bedeutung der Daten verstanden werden kann. Darüber hinaus gibt es Funktionen für Text Mining, forensische Analyse von Inhalten, Urheberschaftsanalyse und Stilometrie.
Zu den gängigsten Tools für die Analyse unstrukturierter Daten gehören Folgende:
- MongoDB Charts: Stellt zuverlässige Visualisierungen für Einblicke in Echtzeit und Embedded Analytics bereit.
- Power BI von Microsoft: Sorgt dank Datenintegration und zuverlässigen Visualisierungen für größeren Erkenntnisgewinn.
- Apache Hadoop: Enthält ein Toolset, das die Analyse komplexer Datensätze erleichtert.
- Apache Spark: Ermöglicht eine schnelle Verarbeitung bei Echtzeitanalysen.
- Tableau: Stellt leistungsstarke Visualisierungen bereit und ist auch für technisch nicht versierte Benutzer geeignet.
- MonkeyLearn: Ist ein umfassendes Universal-Tool für die Visualisierung und Datenanalyse.
- RapidMiner: Stellt eine solide Plattform zum Erstellen von prädiktiven Datenmodellen bereit.
- KNIME: Ist ein Open-Source-Angebot, das umfassende Anpassungen zulässt.
Gängige Datenbanken für unstrukturierte Daten
Wie bereits erwähnt, entsprechen unstrukturierte Daten nicht dem Format der herkömmlichen relationalen Datenbanken, bei denen in der Regel SQL (Structured Query Language) verwendet wird. Daher verwenden die meisten Unternehmen für unstrukturierte Daten NoSQL-Datenbanken. NoSQL steht für „Not only SQL“ (nicht nur SQL) und bezieht sich auf eine nicht relationale Datenbank. Bei NoSQL werden die Daten nicht wie bei relationalen Datenbanken in einzelne Tabellen aufgeteilt, d. h., die Daten liegen nicht tabellarisch vor. Dabei wird zwischen vier verschiedenen Arten von NoSQL-Datenbanken unterschieden: dokumentbasierte Datenbanken, Schlüssel-Wert-Datenbanken, spaltenorientierte Datenbanken und Graphdatenbanken.
Zu den wichtigsten NoSQL-Datenbanken zum Speichern von unstrukturierten Daten gehören folgende:
- MongoDB: Hierbei handelt es sich um die am häufigsten verwendete Dokumentendatenbank, bei der alle gespeicherten Daten in einer Ansicht bereitgestellt werden.
- Apache Cassandra: Hierbei handelt es sich um ein verteiltes, spaltenbasiertes Open-Source-Datenbanksystem, das extrem skalierbar und schnell ist.
- ElasticSearch: Da mit diesem verteilten Open-Source-NoSQL-Datenbanksystem enorme Datenmengen gespeichert und durchsucht werden können und dabei eine unscharfe Suche nach Fuzzy-Matches verwendet wird (d. h. Ergebnisse zurückgegeben werden, die einem Suchbegriff in etwa entsprechen), ist dieses System ideal für die Volltextsuche geeignet.
- Amazon DynamoDB: Mit diesem hoch skalierbaren, auf Schlüssel-Wert-Paaren basierenden verteilten Datenbanksystem können problemlos 10 Billionen Anfragen pro Tag verarbeitet werden.
- Apache HBase: Ein weiteres extrem skalierbares, verteiltes Open-Source-Datenbanksystem, mit dem riesige Datenmengen (mindestens im Petabyte-Bereich) verarbeitet werden können und das wahlfreien Zugriff auf Daten in Echtzeit ermöglicht.
- Neo4j: Diese graphbasierte Datenbank eignet sich für Big-Data-Analyseanwendungen und ist häufig die Datenbank der Wahl für Anwendungsfälle wie Wissensgraphen, Netzwerkmanagement, Betrugserkennung, Personalisierung und vieles mehr.
- Redis: Dieser Open-Source-In-Memory-Datenspeicher kann als Cache, Message Broker und Datenbank mit schneller Performance verwendet werden.
- OrientDB: Dieses Open-Source-Projekt vereint Dokumente und Graphen in einer einzigen Datenbank und steht für schnelle Lese- und Schreibvorgänge.
Gängige Tools für die Verwaltung von unstrukturierten Daten
Bei der Wahl der besten Tools für die Verwaltung von unstrukturierten Daten gibt es einige Dinge zu beachten. Die Tools müssen Sie bei folgenden Aufgaben unterstützen:
- Speichern und Strukturieren von Daten und deren Zugänglichkeit und Durchsuchbarkeit: Cloud-Anbieter wie AWS oder Microsoft Azure stellen skalierbaren Storage für unstrukturierte Daten in Form einer Datenbank, eines Data Warehouse oder eines Data Lake bereit. Unternehmen wählen zum Speichern von hochsensiblen unstrukturierten Daten bisweilen eine lokale Storage-Lösung.
- Bereinigen von unstrukturierten Daten: Dies ist ein wichtiger Schritt, bei dem es darum geht, die Datenstruktur zu vereinheitlichen, Datensätze zu standardisieren, Datenfehler zu korrigieren, Syntaxfehler zu beheben, Lücken in Daten zu erkennen und zu schließen und vieles mehr. Hierfür gibt es unter anderem folgende Tools: OpenRefine, Trifacta Wrangler, WinPure, TIBCO Clarity, Melissa Clean Suite und Data Ladder.
- Visualisieren von unstrukturierten Daten: Gartner definiert Datenvisualisierung als eine Methode zur grafischen Darstellung von Informationen, bei der Muster und Trends in Daten hervorgehoben werden und mit der Leser schnelle Erkenntnisse gewinnen können. Da dies Teil der Datenanalyse ist, können viele der bereits erwähnten Analysetools für die Visualisierung von Daten verwendet werden. Weitere Beispiele sind Lösungen wie Microsoft Power BI, Looker, Domo, Klipfolio und Qlik Sense.
Management von strukturierten und unstrukturierten Daten – ein Vergleich
Inwiefern sich strukturierte Daten von unstrukturierten Daten allgemein unterscheiden, wurde bereits erläutert. Im Folgenden wird nun beschrieben, inwiefern sich das Management von strukturierten und unstrukturierten Daten unterscheidet.
Strukturierte Daten haben den Vorteil, dass sie von Anwendungen für maschinelles Lernen leicht analysiert werden können. Da sie strukturiert vorliegen, lassen sie sich einfach bearbeiten und abfragen. Der Umgang mit strukturierten Daten stellt auch für Personen, die keine Datenwissenschaftler sind, keine besondere Herausforderung dar. Zudem gibt es inzwischen viele ausgereifte, umfangreich getestete Lösungen für die Analyse, Suche und Verarbeitung dieser Daten.
Strukturierte Daten sind zwar für relationale Datenbanken gut geeignet, aber ihre Einrichtung kann kompliziert sein, und aufgrund der strukturierten Konfiguration der Daten kann sich eine spätere Änderung schwierig gestalten. Da sie einer vordefinierten Struktur entsprechen, können sie in der Regel nur für den ursprünglich vorgesehenen Zweck verwendet werden. Außerdem werden strukturierte Daten in der Regel in Data Warehouses gespeichert, die starr und umfassend definiert sind. Daher ist es sehr zeit- und arbeitsaufwendig, wenn diese strukturierten Daten in einem Unternehmen anders genutzt werden sollen.
Unstrukturierte Daten werden dagegen nicht in einem vordefinierten Format gespeichert. Da sie in ihrem ursprünglichen Format gespeichert werden, können sie sehr flexibel für eine Vielzahl von Anwendungsfällen und Anforderungen genutzt werden. Und da sie nicht vordefiniert sind, lassen sich unstrukturierte Daten in der Regel schnell und einfach erfassen. Meist werden sie nicht in Data Warehouses, sondern in Data Lakes gespeichert, die hoch skalierbar sind und große Datenmengen aufnehmen können.
Unstrukturierte Daten haben jedoch den Nachteil, dass sie im Allgemeinen komplizierter und komplexer aufzubereiten und zu analysieren sind. Unstrukturierte Daten erfordern geschulte Datenwissenschaftler, die wissen, wie die Daten bereinigt und genutzt werden – und die auch verstehen, wie verschiedene Datensätze mit anderen zusammenhängen. Zudem werden für die Analyse von unstrukturierten Daten spezielle Tools benötigt. Die Lösungen sind inzwischen zwar ausgereift, aber immer noch „jünger“ als die Tools für die Analyse von strukturierten Daten. Sie sind noch lange nicht so leistungsfähig, wie es die Branche von der Bearbeitung und Analyse von strukturierten Daten gewohnt ist.
Deshalb ist das Management von unstrukturierten Daten schwieriger
Unstrukturierte Daten sind schwieriger zu verwalten, eben weil sie unstrukturiert sind. Das führt zu einer ganzen Reihe von Problemen, die bereits in den obigen Abschnitten erwähnt wurden. Es ist schwieriger, unstrukturierte Daten zu strukturieren, zu analysieren, zu verarbeiten, zu speichern und abzurufen. Auch das Abfragen oder Durchsuchen der Daten ist schwieriger als bei strukturierten Daten, da es keine festen oder vordefinierten Formate gibt und die Daten in Form von vielen verschiedenen Datentypen vorliegen.
Auch die Skalierbarkeit kann bei unstrukturierten Daten ein Problem darstellen, da Unternehmen herkömmliche Storage-Systeme für ein Scale-out mit zusätzlichen Festplatten oder Storage-Knoten erweitern müssen. Ein solches Scale-Out-Modell ist nicht unbegrenzt und kann mit der Zeit recht kostspielig werden.
Unstrukturierte Daten erfordern einen Storage, der sich effizient und kostengünstig skalieren lässt. Bei vielen Storage-Lösungen für unstrukturierte Daten handelt es sich um Objekt-Storage-Lösungen, da Objekte in einem Objekt-Storage detaillierte Metadaten und eine eindeutige ID enthalten, die den Datenzugriff und die Datenabfrage erleichtern. Darüber hinaus erfordern unstrukturierte Daten einen flexiblen Storage, sodass eine Vielzahl von Datentypen verwendet werden kann und der Zugriff auf archivierte Daten erleichtert wird.
Das Management und die Nutzung von unstrukturierten Daten ist zwar in der Regel immer noch schwieriger, aber der zusätzliche Aufwand lohnt sich. Unstrukturierte Daten sind reich an verborgenen Mustern und Erkenntnissen, die Ihrem Unternehmen neue und innovative Möglichkeiten eröffnen, um auf dem heutigen, immer härter werdenden Markt zu bestehen und erfolgreich zu sein.