Datawarehousing wirkt für viele Unternehmen in Zeiten von Big Data und semantischer Analyse überholt - gerade deswegen sind wir mehr denn je davon überzeugt, daß ein robustes Regelwerk zur Gestaltung von Datenströmen im Unternehmen wichtiger als jemals zuvor geworden ist.
Die Linearis Data Rules liefern sehr grundlegende und fachabteilungsorientierte Richtlinien zur Gestaltung von Datenströmen - diese können gleichermassen als Basis für ein firmenspezifisches Datawarehouse Konzept als auch als Baustein für eine allgemeingültige Information Governance eingesetzt werden.
Datenschichten müssen den folgenden 7 Data Rules gerecht werden, um nützlich für die Fachabteilung und damit für das Management zu sein:
#1 Einfach im Zugriff (Store)
#2 Management-orientiert (Relevanz)
#3 Vereinheitlicht (wenige, starke Dimensionen)
#4 Beliebig aufnahmefähig (Permanenz, Skalierbarkeit)
#5 Stammdaten-gesteuert (Veränderlichkeit)
#6 Anpassbare Daten (Adhoc-Fähigkeit)
#7 Robust im Betrieb (Technik im Hintergrund)
Wir verstehen Datawarehousing also nicht als kolossal starre, IT- und vorsystemorientierte sowie oft inperformante Systeme zur Datenhaltung. Stattdessen ist für uns Datawarehousing der gut durchdachte Einsatz einer standardisierten Datenstruktur, die dazu dient, heterogene Datenbestände möglichst management-orientiert aufzubereiten sowie Stammdaten, Regeln und Berechtigungen zentral zu halten. Und zwar unabhängig davon, ob ein physisches Datawarehouse eingesetzt wird oder Data Discovery mit ad-hoc Instrumenten betrieben wird.
Inmon (1996) folgend ist ein Datawarehouse management-orientiert, zeitvariant, vereinheitlicht und für den Dauerbetrieb ausgelegt. Kimball (2001) folgend ist ein Datawarehouse dimensional modelliert und damit normalisiert in den Faktentabellen und denormalisiert in den Dimensionstabellen.
Darauf und auf umfangreiche empirische Beobachtungen aus über 10 Jahren Business Intelligence Erfahrung bauen unsere Linearis Data Rules für die Datenstrukturierung durch die Fachabteilung auf. Verwenden Sie daher die Linearis Data Rules als Kriterienkatalog gleichermaßen für den Aufbau eines fachabteilungsorientierten Datawarehouse (etwa in der Finanzabteilung) als auch für die Strukturierung der Daten in einer Big Data Analyseanwendung (etwa in der Marketingabteilung).
#1 Einfach im Zugriff
Aufbereitete Daten müssen wie in einem STORE durch jeden Berechtigten im Unternehmen ohne Schulung konsumiert werden können. Das bedeutet, daß Daten weder in Spezialsoftware ("Silos") gekapselt werden dürfen noch Spezial-Know-How notwendig sein darf, um fachlich richtige Daten abzurufen. Der Zugriff auf die Datenbestände muß mit den Frontend-Tools der Fachabteilung, allen voran MS Excel, ohne weiteres möglich sein. Die Datenstrukturen sind selbsterklärend und ungültige Abfragen werden systemseitig unterbunden.
#2 Management-orientiert
Vorhandene Daten müssen auf den management-relevanten Gehalt gefiltert und fehlende Daten müssen verfügbar gemacht werden. Es dürfen also nur inhaltlich valide und technisch bereinigte Informationen bereitgestellt werden, ungültige oder auch nur ungeprüfte Merkmalskombinationen ("Knoten") sind strikt aus der Datenschicht auszufiltern.
#3 Vereinheitlicht
Vorhandene Daten müssen auf wenige, starke Dimensionen transformiert werden und so verknüpft auswertbar gemacht werden. Das Dimensionsmodell eines Unternehmens resultiert nicht aus den verfügbaren (zahllosen) Stammdaten sondern aus dem Geschäftsmodell und den daraus abgeleiteten abteilungsrelevanten Merkmalen. So reichen in vielen Fällen die Dimensionen Kennzahl, Organisationseinheit, Kunde, Produkt/Projekt, Kampagne sowie Zeit und Datenkategorie als gemeinsamer Nenner über alle Datenbestände, um fundierte Entscheidungen zu treffen.
#4 Beliebig aufnahmefähig
Systeme zur Datenhaltung müssen für den Dauerbetrieb ausgelegt ("permanent") sein und mit entsprechender Hardwarezufuhr beliebig skalierbar sein - also offen für Neues sein. Ein Konzept/Mechanismus zum effektiven Delta Load neuer Daten gehört somit zu jeder Datenhaltung. Technologien, die von vornherein technische Kapazitätsbeschränkungen aufweisen, sind nicht zur Datenhaltung geeignet. Konsequente Standardisierung kann ein Weg sein, um mit starrer Technologie dennoch hohe Agilität bei der Aufnahme neuer Datenbestände/Inhalte zu erreichen.
#5 Stammdaten-gesteuert
Das Datenmodell muß stammdaten-gesteuert sein um Korrekturen und Simulationen jederzeit durchführen zu können. Das setzt zu aller erst die strikte Trennung von Bewegungs- und Stammdaten voraus. Stammdaten sind über viele Datenmodelle hinweg so zentral wie möglich zu halten (bspw. zentrale Zeittabelle statt berechneter Zeitfunktionen in den Datamarts). Die Historisierung von Stammdaten ("Slowly-Changing-Dimensions") ist weitere Voraussetzung für den permanenten, stammdaten-gesteuerten Betrieb eines Datawarehouse.
#6 Anpassbare Daten
Sämtliche Bewegungs- und Stammdaten müssen kurzfristig durch den berechtigten Benutzer anpassbar sein - natürlich bei vollständiger Protokollierung und Datentransparenz. Dies entspricht nicht dem theoretischen Ideal - dort sind alle Daten in den Quellsystemen perfekt oder zu perfektionieren. In der Praxis werden aber alle Anpassungen, die nicht im Datenmodell kurzfristig realisierbar waren, adhoc im Bericht vorgenommen. Bewegungsdaten müssen also ohne weiteres korrigierende Ergänzungsdaten hinzugefügt werden können (inkl. Stornozeilen), Stammdaten müssen bei temporärer Unzulänglichkeit manuell übersteuert werden können.
#7 Robust im Betrieb
Die Technologie der Datenschicht steht dem Anwender möglichst selbstverständlich als "wartungsfreier Kern" zur Verfügung, sodaß sich der Anwender um die Daten und nicht die Technik kümmert. Die Realisierung einer Datenschicht kann nur mit einer weit verbreiteten (Datenbank-)Technologie erfolgen. Mechanismen zur vollständigen Protokollierung aller Vorgänge, zum sicheren Delta-Load, zur sicheren Handhabung von undefinierten Keys, zur Mischung von Transaktions- und Snapshot-Bewegungsdaten und vielem mehr geben dem Anwender die notwendige Sicherheit bei schwierigen Themenstellungen.
Praktische Anwendung
Diese Richtlinien wirken auf den ersten Blick sehr allgemein und fast selbstverständlich. Bei der praktischen Umsetzung wird dann allerdings sichtbar, wie weitreichend diese sind und wie schwierig sie einzuhalten sind.
Schreiben Sie einen Kommentar oder kontaktieren Sie uns - geben Sie uns Ihr Feedback, wir sind sehr gespannt auf Ihre Realitäten!
Quellennachweis
Kimball et al., „The Microsoft Data Warehouse Toolkit“, Second Edition, 2011
Inmon, "Building the Data Warehouse", Fourth Edition, 2005
Jordan / Schinder / Wehner / Welker, „Data Warehousing mit Oracle“, 2011