Agile Datenstrukturen: Linearis Data Rules

Linearis Data RulesDatawarehousing wirkt für viele Unternehmen in Zeiten von Big Data und semantischer Analyse überholt - gerade deswegen sind wir mehr denn je davon überzeugt, daß ein robustes Regelwerk zur Gestaltung von Datenströmen im Unternehmen wichtiger als jemals zuvor geworden ist.

Die Linearis Data Rules liefern sehr grundlegende und fachabteilungsorientierte Richtlinien zur Gestaltung von Datenströmen - diese können gleichermassen als Basis für ein firmenspezifisches Datawarehouse Konzept als auch als Baustein für eine allgemeingültige Information Governance eingesetzt werden.

Datenschichten müssen den folgenden 7 Data Rules gerecht werden, um nützlich für die Fachabteilung und damit für das Management zu sein:

#1 Einfach im Zugriff (Store)
#2 Management-orientiert (Relevanz)
#3 Vereinheitlicht (wenige, starke Dimensionen)
#4 Beliebig aufnahmefähig (Permanenz, Skalierbarkeit)
#5 Stammdaten-gesteuert (Veränderlichkeit)
#6 Anpassbare Daten (Adhoc-Fähigkeit)
#7 Robust im Betrieb (Technik im Hintergrund)

Wir verstehen Datawarehousing also nicht als kolossal starre, IT- und vorsystemorientierte sowie oft inperformante Systeme zur Datenhaltung. Stattdessen ist für uns Datawarehousing der gut durchdachte Einsatz einer standardisierten Datenstruktur, die dazu dient, heterogene Datenbestände möglichst management-orientiert aufzubereiten sowie Stammdaten, Regeln und Berechtigungen zentral zu halten. Und zwar unabhängig davon, ob ein physisches Datawarehouse eingesetzt wird oder Data Discovery mit ad-hoc Instrumenten betrieben wird.

Inmon (1996) folgend ist ein Datawarehouse management-orientiert, zeitvariant, vereinheitlicht und für den Dauerbetrieb ausgelegt. Kimball (2001) folgend ist ein Datawarehouse dimensional modelliert und damit normalisiert in den Faktentabellen und denormalisiert in den Dimensionstabellen.

Darauf und auf umfangreiche empirische Beobachtungen aus über 10 Jahren Business Intelligence Erfahrung bauen unsere Linearis Data Rules für die Datenstrukturierung durch die Fachabteilung auf. Verwenden Sie daher die Linearis Data Rules als Kriterienkatalog gleichermaßen für den Aufbau eines fachabteilungsorientierten Datawarehouse (etwa in der Finanzabteilung) als auch für die Strukturierung der Daten in einer Big Data Analyseanwendung (etwa in der Marketingabteilung).

#1 Einfach im Zugriff

Aufbereitete Daten müssen wie in einem STORE durch jeden Berechtigten im Unternehmen ohne Schulung konsumiert werden können. Das bedeutet, daß Daten weder in Spezialsoftware ("Silos") gekapselt werden dürfen noch Spezial-Know-How notwendig sein darf, um fachlich richtige Daten abzurufen. Der Zugriff auf die Datenbestände muß mit den Frontend-Tools der Fachabteilung, allen voran MS Excel, ohne weiteres möglich sein. Die Datenstrukturen sind selbsterklärend und ungültige Abfragen werden systemseitig unterbunden.

#2 Management-orientiert

Vorhandene Daten müssen auf den management-relevanten Gehalt gefiltert und fehlende Daten müssen verfügbar gemacht werden. Es dürfen also nur inhaltlich valide und technisch bereinigte Informationen bereitgestellt werden, ungültige oder auch nur ungeprüfte Merkmalskombinationen ("Knoten") sind strikt aus der Datenschicht auszufiltern.

#3 Vereinheitlicht

Vorhandene Daten müssen auf wenige, starke Dimensionen transformiert werden und so verknüpft auswertbar gemacht werden. Das Dimensionsmodell eines Unternehmens resultiert nicht aus den verfügbaren (zahllosen) Stammdaten sondern aus dem Geschäftsmodell und den daraus abgeleiteten abteilungsrelevanten Merkmalen. So reichen in vielen Fällen die Dimensionen Kennzahl, Organisationseinheit, Kunde, Produkt/Projekt, Kampagne sowie Zeit und Datenkategorie als gemeinsamer Nenner über alle Datenbestände, um fundierte Entscheidungen zu treffen.

#4 Beliebig aufnahmefähig

Systeme zur Datenhaltung müssen für den Dauerbetrieb ausgelegt ("permanent") sein und mit entsprechender Hardwarezufuhr beliebig skalierbar sein - also offen für Neues sein. Ein Konzept/Mechanismus zum effektiven Delta Load neuer Daten gehört somit zu jeder Datenhaltung. Technologien, die von vornherein technische Kapazitätsbeschränkungen aufweisen, sind nicht zur Datenhaltung geeignet. Konsequente Standardisierung kann ein Weg sein, um mit starrer Technologie dennoch hohe Agilität bei der Aufnahme neuer Datenbestände/Inhalte zu erreichen.

#5 Stammdaten-gesteuert

Das Datenmodell muß stammdaten-gesteuert sein um Korrekturen und Simulationen jederzeit durchführen zu können. Das setzt zu aller erst die strikte Trennung von Bewegungs- und Stammdaten voraus. Stammdaten sind über viele Datenmodelle hinweg so zentral wie möglich zu halten (bspw. zentrale Zeittabelle statt berechneter Zeitfunktionen in den Datamarts). Die Historisierung von Stammdaten ("Slowly-Changing-Dimensions") ist weitere Voraussetzung für den permanenten, stammdaten-gesteuerten Betrieb eines Datawarehouse.

#6 Anpassbare Daten

Sämtliche Bewegungs- und Stammdaten müssen kurzfristig durch den berechtigten Benutzer anpassbar sein - natürlich bei vollständiger Protokollierung und Datentransparenz. Dies entspricht nicht dem theoretischen Ideal - dort sind alle Daten in den Quellsystemen perfekt oder zu perfektionieren. In der Praxis werden aber alle Anpassungen, die nicht im Datenmodell kurzfristig realisierbar waren, adhoc im Bericht vorgenommen. Bewegungsdaten müssen also ohne weiteres korrigierende Ergänzungsdaten hinzugefügt werden können (inkl. Stornozeilen), Stammdaten müssen bei temporärer Unzulänglichkeit manuell übersteuert werden können.

#7 Robust im Betrieb

Die Technologie der Datenschicht steht dem Anwender möglichst selbstverständlich als "wartungsfreier Kern" zur Verfügung, sodaß sich der Anwender um die Daten und nicht die Technik kümmert. Die Realisierung einer Datenschicht kann nur mit einer weit verbreiteten (Datenbank-)Technologie erfolgen. Mechanismen zur vollständigen Protokollierung aller Vorgänge, zum sicheren Delta-Load, zur sicheren Handhabung von undefinierten Keys, zur Mischung von Transaktions- und Snapshot-Bewegungsdaten und vielem mehr geben dem Anwender die notwendige Sicherheit bei schwierigen Themenstellungen.

Praktische Anwendung

Diese Richtlinien wirken auf den ersten Blick sehr allgemein und fast selbstverständlich. Bei der praktischen Umsetzung wird dann allerdings sichtbar, wie weitreichend diese sind und wie schwierig sie einzuhalten sind.

Schreiben Sie einen Kommentar oder kontaktieren Sie uns - geben Sie uns Ihr Feedback, wir sind sehr gespannt auf Ihre Realitäten!

Quellennachweis
Kimball et al., „The Microsoft Data Warehouse Toolkit“, Second Edition, 2011
Inmon, "Building the Data Warehouse", Fourth Edition, 2005
Jordan / Schinder / Wehner / Welker, „Data Warehousing mit Oracle“, 2011

Über den Autor

Blog auf Feedly abonnieren

Kategorien

Verwandte Beiträge

Power BI Camp - Präsenztrainings in Wien und Nürnberg!

Dashboarding mit Power BI, DAX & Datenmodellierung und Power Query. Drei Einzelmodule oder als ganze Trainingswoche - für Einsteiger und Fortgeschrittene!

Termine 2022

Wien: (7./8. Februar 2022)
und 25.-28 April 2022
Nürnberg: (14./15. Februar 2022)
und 9.-12. Mai 2022

Jetzt buchen und Rabatt sichern.

Jetzt buchen!

Leave a Replay

Schreibe einen Kommentar

Kostenlos zum Newsletter anmelden

Ihre Anfrage

Schicken Sie uns Ihre Fragen und Anregungen!