Bei der Datenhygiene geht es darum, sicherzustellen, dass alle strukturierten oder unstrukturierten Daten in Datenbanken oder Dateifreigaben „sauber“ sind, d. h. dass sie korrekt, aktuell und fehlerfrei sind. Datenhygiene wird auch als „Datensauberkeit“ und „Datenqualität“ bezeichnet.
In aller Regel ist eine schlechte Datenqualität die Folge von:
- Datenduplikation (auch bekannt als „Datenredundanz“): Wenn sich Datensätze innerhalb von Datenbanken wiederholen.
- Datenunvollständigkeit: Wenn nicht alle für einen Datensatz erforderlichen Daten vorliegen.
- Dateninkonsistenz: Wenn dieselben Daten in verschiedenen Formaten in mehreren Tabellen vorhanden sind, was dazu führt, dass verschiedene Dateien mit unterschiedlichen Informationen über dasselbe Objekt oder dieselbe Person vorhanden sind.
- Datenungenauigkeit: Wenn für ein bestimmtes Objekt gespeicherte Datenwerte falsch sind.
Warum ist Datenhygiene wichtig?
Datenhygiene erhöht die Sicherheit, die Produktivität, die Einhaltung von Vorschriften und Richtlinien sowie die Effizienz. Dies geschieht, indem sichergestellt wird, dass Ihre Anwendungen und Geschäftsprozesse nur saubere, korrekte und relevante Daten nutzen – und dazu gehört auch das Entfernen sensibler persönlicher Daten, die nicht mehr benötigt werden. Ohne gute Praktiken im Zusammenhang mit Daten folgen Sie Hinweisen und Spuren, geraten dabei aber in Sackgassen und treffen schlechte Entscheidungen.
Hier sind einige Beispiele für Probleme, die eine schlechte Datenqualität in Unternehmen verursachen kann.
Vertrieb und Marketing
Eine Studie von DiscoverOrg hat ergeben, dass Vertriebs- und Marketingabteilungen durch die Verwendung von Daten von schlechter Qualität etwa 550 Stunden und bis zu 32.000 USD pro Vertriebsmitarbeiter verlieren.
Im Marketing können mangelhafte Daten Budgetüberschreitungen nach sich ziehen. Außerdem kann es dazu führen, dass potenzielle Kunden verärgert oder sogar vertrieben werden, wenn sie aufgrund von Datenduplikaten (d. h. doppelten Datensätzen mit demselben Namen, der innerhalb derselben Datenbank mehrmals leicht unterschiedlich geschrieben ist) denselben Inhalt mehrmals erhalten.
Im Online-Vertrieb könnte eine schlechte Datenhygiene dazu führen, dass Sie versuchen, das falsche Produkt an den falschen Kunden zu verkaufen, wenn Ihnen Daten über Ihre Produkte und Zielgruppen fehlen.
Finanzen
In der Finanzberichterstattung können Daten von schlechter Qualität aufgrund von Dateninkonsistenzen unterschiedliche Antworten auf dieselbe Frage ergeben, was ungenaue und irreführende Finanzberichte zur Folge hat. Diese Berichte könnten Ihnen entweder ein falsches Gefühl der finanziellen Sicherheit oder ein beunruhigendes Gefühl der finanziellen Unsicherheit vermitteln.
Lieferkette
Mangelhafte Daten können auch verheerende Auswirkungen auf Lieferketten haben, da es sehr schwierig ist, Prozesse zu automatisieren, wenn diese Prozessentscheidungen auf unzuverlässigen Standortinformationen beruhen.
Allgemeine Unternehmensziele
Auf Unternehmensebene können Probleme mit der Datenqualität Ihre Fähigkeit, Ihre langfristigen Ziele zu erreichen, erheblich beeinträchtigen. Probleme mit der Datenqualität können …
- … negative Auswirkungen auf Ihre Fähigkeit haben, schnell auf neue Markttrends und -bedingungen zu reagieren.
- … bewirken, dass Sie größere Schwierigkeiten beim Erfüllen der Compliance-Anforderungen hinsichtlich der wichtigsten Datenschutzvorschriften wie DSGVO, HIPAA und CCPA haben.
- … Schwierigkeiten bei der Nutzung prädiktiver Analysen von Unternehmensdaten verursachen, was zu risikoreicheren Entscheidungen im Hinblick auf kurz- wie auch auf langfristige Ziele führt.
Die Herausforderungen beim Aufrechterhalten einer guten Datenhygiene
So wichtig eine gute Datenhygiene auch ist, viele Unternehmen tun sich schwer damit, die Qualität ihrer Daten aufrechtzuerhalten. Laut einer in der Harvard Business Review veröffentlichten Studie weisen durchschnittlich 47 % der neu erstellten Datensätze mindestens einen kritischen (d. h. die Arbeit beeinträchtigenden) Fehler auf, und nur 3 % der Datenqualitätswerte wurden unter Anwendung des niedrigstmöglichen Standards als „akzeptabel“ eingestuft.
Verschiedene Faktoren können die Optimierung Ihrer Datenhygiene erschweren. Dazu gehören:
- Zunehmende Vielfalt der Datenquellen: Früher nutzten Unternehmen nur Daten aus ihren eigenen Geschäftssystemen, z. B. Verkaufs- oder Bestandsdaten. Heute stammen Daten aus vielen unterschiedlichen Quellen und Datensätze können aus dem Internet oder von IoT-Geräten stammen und wissenschaftliche und experimentelle Daten und vieles mehr umfassen. Je mehr Datenquellen Sie haben, desto schwieriger ist es, sicherzustellen, dass die Daten nicht auf irgendeine Weise verändert oder manipuliert wurden. Jedes Mal, wenn Sie Ihrer Datenverarbeitungs-Engine ein weiteres System hinzufügen, besteht die Gefahr, dass diese Daten an Wert verlieren, weil sie verfälscht werden oder verloren gehen, weil verschiedene Datenquellen unterschiedliche Datentypen erzeugen. Unstrukturierte Daten – d. h. Informationen, die nicht nach einem vorgegebenen Datenmodell oder Schema geordnet sind – machen heute schätzungsweise 80 % aller Daten weltweit aus.
- Wachsende Datenmengen: Das Zeitalter von Big Data ist zweifellos angebrochen, und Big Data sind nur noch größer geworden. Seit 1970 hat sich die Datenmenge alle drei Jahre verdoppelt. Je mehr Daten vorhanden sind, desto schwieriger ist es, sie zu sammeln, zu bereinigen, zu integrieren und innerhalb eines bestimmten Zeitrahmens eine einigermaßen hohe Datenqualität zu erreichen. Wenn der Großteil dieser Daten unstrukturiert ist, verlängert sich die Verarbeitungszeit noch mehr, da diese unstrukturierten Daten in strukturierte oder halbstrukturierte Daten umgewandelt werden müssen, wodurch sich die Qualität der Datenverarbeitung weiter verschlechtert.
- Zunehmende Datengeschwindigkeit: Der Begriff „Echtzeitdaten“ ist in den letzten fünf Jahren zu einem großen Schlagwort geworden. Denn je mehr Daten generiert werden, desto schneller müssen Sie sie verarbeiten, wenn Sie nicht riskieren möchten, dass sich in Ihren Systemen ein Datenstau bildet. In diesem Sinne sind Daten wie eine Flüssigkeit, die in ein Rohr fließt. Je schneller sie einströmt, desto größer ist die Gefahr, dass das Rohr bricht, und die einzige Möglichkeit, das wachsende Volumen zu bewältigen, besteht darin, das Rohr zu vergrößern. Auf Daten übertragen bedeutet das, dass sie schneller verarbeitet werden müssen, um mit der Geschwindigkeit des eingehenden Datenverkehrs mitzuhalten. Die eigentliche Echtzeitverarbeitung ist jedoch noch ein relativ neues Gebiet und eine relativ neue Fähigkeit, was bedeutet, dass es noch viel „Rauschen“ in Form von ungenutzten oder irrelevanten Daten gibt, die verwendet werden. Folglich können Entscheidungen, die auf Basis dieser Daten getroffen werden, bestenfalls suboptimal und schlimmstenfalls fehlerhaft sein.
- Mangel an klaren Datenqualitätsstandards: Produktqualitätsnormen gibt es seit 1987, als die Internationale Organisation für Normung (ISO) die Norm ISO 9000 veröffentlichte. Im Gegensatz dazu gibt es offizielle Datenqualitätsstandards erst seit 2011 (seit ISO 8000), d. h. sie sind noch nicht ausgereift und relativ neu. In einer 2015 im Data Science Journal veröffentlichten Studie heißt es: „Derzeit fehlt es an einer umfassenden Analyse und Erforschung von Qualitätsstandards und Qualitätsbewertungsmethoden für Big Data“.
Best Practices für Datenhygiene
Obwohl Datenqualitätsstandards noch nicht ausgereift sind, gibt es bestimmte Best Practices für die Datenhygiene, die Sie bereits jetzt anwenden können, um sicherzustellen, dass Ihre Datenqualität hoch ist und bleibt.
Zu den Best Practices gehören:
Das Auditing
Das Auditing von Daten ist der Schlüssel zur Aufrechterhaltung einer guten Datenhygiene und in der Regel der erste Schritt in jedem Datenbereinigungsprozess. Bevor Sie Maßnahmen ergreifen, müssen Sie die Qualität Ihrer Daten bewerten und eine realistische Grundlage für die Datenhygiene in Ihrem Unternehmen schaffen. Bei einem typischen Datenaudit werden Ihre IT-Infrastruktur und -Prozesse unter die Lupe genommen, um festzustellen, wo Ihre Daten gespeichert sind, wie sie verwendet und wie oft sie aktualisiert werden.
Compliance
Entscheidend ist es, Richtlinien darüber festzulegen, welche Daten erfasst werden und warum, insbesondere wenn die Daten von Verbrauchern stammen. Dazu gehört auch die Festlegung von Richtlinien für die Aufbewahrung und Löschung von Daten. Aufbewahrungszeitpläne legen fest, wie lange Daten auf einem System gespeichert werden, bevor sie gelöscht werden. Hygiene bedeutet, dass Sie wissen, welche Daten bei Ihnen gespeichert sind, warum, wo und wann sie bereinigt werden müssen. Erfahren Sie mehr über Best Practices bei der Daten-Compliance.
Governance
Daten-Governance ist eine Sammlung von Prozessen, Rollen, Richtlinien, Standards und Metriken, die die effektive und effiziente Nutzung von Informationen sicherstellen, damit eine Organisation ihre Ziele erreichen kann. Daten-Governance legt fest, wer mithilfe welcher Daten, in welchen Situationen und mit welchen Methoden wie agieren kann. Eine gute Daten-Governance ist unerlässlich, um eine hohe Datenqualität in einer Organisation sicherzustellen.
Automatisierung
Eine gute Datenhygiene ergibt sich zuletzt auch aus der Automatisierung Ihrer datenqualitätsbezogenen Prozesse. Das bedeutet in erster Linie, dass Sie Ihre Daten so häufig wie möglich automatisch aktualisieren, um sicherzustellen, dass sie stets aktuell und korrekt sind. Datenbereinigungssysteme können große Datenmengen durchforsten und Algorithmen verwenden, um Anomalien und Ungereimtheiten zu erkennen, die auf menschliche Fehler zurückzuführen sind. Sie können auch Ihre Datenbanken auf doppelte Datensätze überprüfen.
Was macht eine hohe Datenqualität aus?
Es gibt mehrere Attribute einer hohen Datenqualität. Daten von hoher Qualität sind:
- Aktuell: Sie werden sofort erstellt und gepflegt und sind sofort und nach Bedarf verfügbar.
- Kompakt: Es sind keine irrelevanten Informationen enthalten.
- Konsistent: Es bestehen keine Konflikte hinsichtlich der Informationen innerhalb eines Systems oder zwischen mehreren Systemen.
- Zutreffend: Sie sind korrekt, präzise und auf dem neuesten Stand.
- Vollständig: Alle möglichen Daten, die benötigt werden, sind vorhanden.
- Konform: Sie sind in einem geeigneten und standardisierten Format gespeichert.
- Gültig: Sie sind authentisch und stammen aus bekannten, zuverlässigen Quellen.
Wenn Ihre Daten alle diese Kriterien erfüllen, arbeiten Sie, Ihre Systeme und Ihre Anwendungen mit den bestmöglichen Informationen, um einen besseren Kundenservice, eine bessere Kundenerfahrung und bessere Geschäftsergebnisse zu erzielen.
Erhalten Sie erstklassige Datenreduktion und -deduplizierung mit Pure Storage®
Die Deduplizierung ist der Prozess, bei dem doppelte Kopien von Daten innerhalb eines Storage-Volumes oder im gesamten Storage-System (Volume-übergreifende Deduplizierung) eliminiert werden. Mustererkennung kommt zum Einsatz, um redundante Daten zu erkennen und durch Verweise auf eine einzige gespeicherte Kopie zu ersetzen. Bei Purity Reduce verwendet Pure Storage fünf unterschiedliche Datenreduktionstechnologien, um Speicherplatz in All-Flash-Arrays einzusparen. Erfahren Sie hier mehr.