Skip to Content

Was ist ein ODS?

Um Daten aus mehreren Quellen zu extrahieren und zu verarbeiten, fungiert ein Operational Data Store (ODS) als temporärer Speicherort für die Datenverarbeitung, bevor er sie an den endgültigen Speicherort sendet. Daten können strukturiert oder unstrukturiert gespeichert werden, müssen jedoch so gespeichert werden, dass sie extrahiert und in ein Format für ihren endgültigen Data Warehouse-Standort umgewandelt werden können. Die ODS-Architektur ist in der Regel für ETL- (Extrahieren, Transformieren und Laden) und ELT-Datenpipelines (Extrahieren, Laden und Transformieren) konzipiert.

Was ist ein ODS?

Ein Operational Data Store ist ein zentralisiertes Repository für Echtzeit- oder Fast-Echtzeit-Daten, die für operative Berichte und Analysen verwendet werden. In großen Datenpipelines fungiert ein ODS als Bereitstellungsbereich für Datenformatierung, Deduplizierung und endgültige Verarbeitung, bevor Daten an das Data Warehouse gesendet werden. Beispielsweise kann eine große Immobilienorganisation Daten von mehreren verschiedenen Websites extrahieren, um Analysen für ihre Kunden durchzuführen. Während des Extraktionsprozesses speichert die Datenpipeline die extrahierten Informationen in einem ODS, sodass automatisierte Skripte die Daten formatieren, organisieren und deduplizieren können. Sobald ETL Daten verarbeitet, wird sie an das Data Warehouse gesendet, wo Immobilienanwendungen sie abfragen können.

Ein ODS wird für strukturierte und unstrukturierte Daten verwendet, ist aber besonders nützlich für Datenpipelines, die mit relationalen Datenbanken arbeiten. Das ODS kann unstrukturierte Daten aus Dateien oder gescrapten Webseiten speichern und das ETL verwendet sie, um gesammelte Daten vor dem Transformationsschritt zu verarbeiten. Ohne das ODS gehen Daten verloren, wenn die Formatierung von Datensätzen ausfällt. Alle Datensätze, bei denen die Transformation fehlschlägt, können zur zusätzlichen Verarbeitung oder möglicherweise zur weiteren menschlichen Überprüfung im ODS verbleiben.

Zweck eines ODS

Bei großen Unternehmen und Anwendungen für maschinelles Lernen werden Daten während der ETL-Verarbeitung oft von mehreren Standorten abgerufen. Die Datenpipeline kann Dateien aus einer Netzwerkquelle, Daten aus API-Endpunkten und Daten, die aus einer Webanwendung gescrapt wurden, abrufen. Skripte, die verwendet werden, um die Daten zu sammeln, geben sie in ein ODS ab, wo sie verarbeitet werden können. Der Zweck eines ODS besteht darin, Datenextraktionsskripts zu ermöglichen, einen Ort zu haben, an dem gesammelte Informationen vor der Verarbeitung gespeichert werden können.

Ein ODS ist ein wichtiger Bestandteil von Echtzeit-Dashboards und -Anwendungen, insbesondere wenn die in einem ODS gesammelten Daten an mehreren Orten verwendet werden. Das ODS enthält beispielsweise gesammelte Daten, bei denen ein ETL-Prozess sie formatiert, bevor er sie an ein Data Warehouse sendet, in dem Analysen sie für Finanzprognosen verwenden können. Stellen Sie sich einen ODS als einen zwischenzeitlichen Datenerfassungsservice vor, bevor Daten für Endbenutzeranwendungen verfügbar sind.

Vorteile von ODS

Unternehmen benötigen ein ODS für eine bessere Datenverarbeitung und effizientere ETL-Pipelines. Da ETL-Skripte einen Ort zum Speichern von Daten haben, haben Echtzeitanwendungen auch einen Ort zum Abrufen von Daten für eine schnelle Verarbeitung, Berechnungen künstlicher Intelligenz und die Aufnahme von maschinellem Lernen. Ohne ein ODS könnten Ihre ETL-Datenpipelines Daten ablegen, die nicht den Datenbankbeschränkungen entsprechen oder nicht verarbeitet werden können, bevor sie im Data Warehouse gespeichert werden.

Einige zusätzliche Vorteile sind:

  • Praktische Erfassung verschiedener Datenquellen mit unterschiedlicher Formatierung und Organisation
  • Eine vollständige Momentaufnahme aller Datensätze, die aus verschiedenen Quellen gesammelt wurden und die bei Bedarf zur Identifizierung von Problemen oder zur Wiederverarbeitung von Daten verwendet werden können
  • Unstrukturierte Daten-Storage-Funktionen für Analysen und maschinelles Lernen
  • Cloud-ODS-Systeme können so konfiguriert werden, dass sie Benutzern, Anwendungen, Administratoren oder Drittanbietern unabhängig von ihrem Standort zur Verfügung stehen.
  • Zentraler Standort zum Erfassen von Daten für alle internen Anwendungen, wodurch die Datengenauigkeit und -integrität in allen Ihren kritischen Berichten erhöht wird

Implementierung eines ODS

Da ein ODS Teil Ihrer Datenpipeline und ETL-Verarbeitung ist, sollte es in Ihre Designs und Ihre Datenarchitektur integriert werden. Die Art der gesammelten Daten ist ein wichtiger entscheidender Faktor für ein ODS. Alle unstrukturierten Daten benötigen eine NoSQL-Datenbank. Eine relationale Datenbank lehnt Daten ab, die nicht den Tabellenbeschränkungen entsprechen.

Nachdem Sie sich für die Datenbankplattform entschieden haben, müssen Sie entscheiden, ob Sie das ODS lokal oder in der Cloud hosten möchten. Eine lokale Datenbank eignet sich möglicherweise besser für interne Anwendungen, die für die Öffentlichkeit nicht verfügbar sind, aber Ihre ETL-Skripte müssen in der Lage sein, die Datenbank und alle internen Data Warehouses zu erreichen. Cloud-Datenbanken sind vorteilhaft für Public-Cloud-Anwendungen, bei denen sie für die Verbindung mit Cloud-Anwendungsdatenbanken in der Produktion konfiguriert werden können.

Echtzeitanwendungen erfordern Geschwindigkeit und Rechenleistung. Stellen Sie also sicher, dass Ihre Datenbankarchitektur über die Bandbreite, Rechenleistung, Speicher und Storage-Kapazität verfügt, um große Datenmengen zu verarbeiten. Es mag sinnvoll sein, einen Testlauf zur Datenerfassung durchzuführen, um die erforderliche Menge an Storage-Kapazität zu ermitteln, aber vergessen Sie nicht, zusätzlichen Storage für die Skalierbarkeit zuzulassen. Snapshots können schließlich in eine andere Backup-Datenbank verschoben oder nach dem Alter der Daten entfernt werden und sind nicht mehr relevant.

ODS vs. Data Warehouse

Ein Data Warehouse ist das endgültige Ziel für bereinigte und formatierte Daten. Im ODS in Ihren ETL-Verfahren werden Rohdaten gespeichert, bis sie strukturiert, dedupliziert und verifiziert sind. Wie Sie Daten organisieren und wo sie gespeichert werden, hängt von Ihren individuellen Geschäftsregeln ab. Relationale Datenbanken in Ihrem Data Warehouse erfordern strukturierte Daten mit strengen Regeln, wie Sie sie formatieren müssen, bevor Sie sie speichern.

ODS-Tabellen werden ständig mit neuen Daten aktualisiert und können für die Datenverarbeitung in Echtzeit und für Benutzeranwendungen verwendet werden. Strukturierte und unstrukturierte Daten können in ODS-Tabellen gespeichert werden, aber viele Systeme verwenden unstrukturierte Daten, sodass die Datenerfassung weniger Einschränkungen aufweist. Einschränkungen und Filterung können während des Importprozesses in Ihr Data Warehouse angewendet werden.

Abfragen sollten aus den Data Warehouse-Tabellen ausgeführt werden, in denen die Daten viel permanenter sind. Es ist ungewöhnlich, Daten aus einem Data Warehouse zu löschen. Sie können sie archivieren, aber das vollständige Entfernen von Daten ist ungewöhnlich. ODS-Daten sind viel volatiler. Doppelte Daten können entfernt und veraltete oder beschädigte Daten gelöscht werden. 

Fazit

Wenn Sie Daten aus verschiedenen Quellen für Ihr Data Warehouse erfassen möchten, ist eine ODS-Zwischenarchitektur für Datenpipelines vorteilhaft, die mehrere Anwendungen mit unterschiedlichen Geschäftsregeln unterstützen. Sie können Ihre Daten in strukturierte und unstrukturierte Formate umwandeln, um maschinelles Lernen, Abfragen, Berichte, Analyse-Dashboards und jede andere Front-End-Anwendung zu unterstützen, die das Data Warehouse verwendet.

Um eine wachsende Datenbank zu ermöglichen, bieten Cloud-Lösungen von Pure Storage Unterstützung für AWS, Azure und jeden anderen Anbieter, um Ihr ODS zu verbinden. Ihre ETL-Verfahren haben schnellen Zugriff auf skalierbare Datenbankservices, um die Echtzeitverarbeitung und schnelle Abfragen zu unterstützen.

08/2024
Telecom Solutions from Pure Storage
The largest telcos rely on Pure Storage® for mission-critical data services and minimal energy footprint, with innovative technology across all clouds.
Lösungsprofil
2 Seiten
KONTAKTIEREN SIE UNS
Fragen, Kommentare?

Haben Sie eine Frage oder einen Kommentar zu Produkten oder Zertifizierungen von Pure?  Wir helfen Ihnen gerne!

Termin für Demo vereinbaren

Vereinbaren Sie einen Termin für eine Live-Demo und sehen Sie selbst, wie Pure Ihnen helfen kann, Ihre Daten in überzeugende Ergebnisse zu verwandeln. 

Rufen Sie uns an: +49 89 26200662
Presse:
 pr@purestorage.com

 

Pure Storage Germany GmbH

Mies-van-der-Rohe-Straße 6

80807 München

Deutschland

info@purestorage.com

SCHLIESSEN
Ihr Browser wird nicht mehr unterstützt!

Ältere Browser stellen häufig ein Sicherheitsrisiko dar. Um die bestmögliche Erfahrung bei der Nutzung unserer Website zu ermöglichen, führen Sie bitte ein Update auf einen dieser aktuellen Browser durch.