Mit Microsoft Fabric werden die bereits bestehenden Azure Services Synapse und Data Factory in Power BI integriert und mit dem neuen Cloud Service OneLake zu einer integrierten Analyselösung, einem Data Fabric, zusammengeführt. Dabei wird die anwender-orientierte Usability von Power BI auf die bisher IT-orientierten Azure Cloud Services übertragen, die Organisationsstrukturen von Power BI ausgerollt und das Ganze mit der KI Funktion Copilot angereichert. Microsoft setzt damit konsequent seine Strategie fort, die ursprünglich getrennten BI Schienen "Analysis Services", "Azure" und "Power BI" nun vollständig in Power BI aufgehen zu lassen.
Microsoft Fabric ist nach der Preview Phase seit 2 Tagen "generally available" (GA) und kann damit produktiv genutzt werden. Aus meiner Sicht ist Microsoft Fabric die größte Veränderung bzw. Erweiterung von Power BI seit seinem Release im Jahr 2015.
Vielen Dank an Markus Ehrenmüller-Jensen für die großartige Expertise und die wertvolle Diskussion auf diesem Gebiet, die eine wesentliche Grundlage für diesen Blogbeitrag darstellt.
Hinweis: dieser Beitrag wurde am 25. Jänner 2024 mit neuen Erkenntnissen aktualisiert.
Was ist Microsoft Fabric?
Unsere aus mehreren Quellen zusammengesetzte Definition (daher in Englisch):
- Fabric is a complete analytics platform
It is an an end-to-end analytics platform that brings together data preparation, data warehousing, data engineering, data science, real-time analytics and business intelligence in one unified SaaS foundation. - Fabric is lake centric and open
Fabric works with one copy of data stored in OneLake in an open Delta-Parquet format which is accessable directly with 4 different technologies (Power BI, SQL, Spark, Kusto). - Fabric is persona oriented
It is a platform for 4 different roles: data analyst (Power BI), database admin (SQL), data scientist (Spark) and data engineer (Kusto). - Fabric is AI empowered
It uses Copilot, making it easier to find insights and build reports using natural language.
Aus der Perspektive von Power BI ist Microsoft Fabric das neue "Dach" über Power BI und den bisher in Microsoft Azure angesiedelten BI / Big Data Services:
Noch übersichtlicher die einzelnen Komponenten in der Architektur Darstellung:
Hier eine Kurzcharakterisierung der einzelnen Tools:
- Power BI
Weltweit führende Business Intelligence Plattform zur Visualisierung der Daten aus dem OneLake. - OneLake
OneLake ist das OneDrive für Daten - ein einziger, einheitlicher, logischer Data Lake für Ihre gesamte Organisation. Ähnlich wie Office Word-, Excel- und PowerPoint-Dateien in OneDrive speichert Fabric Lakehouses, Warehouses, Semantic Models und Kusto DBs in OneLake. Elemente können maßgeschneiderte Benutzeroberflächen für jede Persona bieten, wie z. B. die Spark-Entwickleroberfläche in einem Lakehouse für den Data Scientist, die SQL Entwickleroberfläche in einem Datawarehouse für den SQL Developer und die Power BI Oberfläche in einem Semantic Model für den Business Analyst. - Data Factory
ETL Tool zum Laden der Quelldaten in den OneLake. Data Factory kombiniert die Einfachheit von Power Query ("Dataflows Gen2") mit der Skalierbarkeit und Leistungsfähigkeit von Azure Data Factory ("Data Pipelines"). - Synapse Data Engineering
Erstklassige Spark-Plattform mit hervorragenden Erstellungsfunktionen, die es technischen Fachkräften für Daten ermöglichen, eine umfangreiche Datentransformation durchzuführen und Daten über das Lakehouse zu demokratisieren. Die Daten im Lakehouse werden nativ im offenen Delta Parquet-Format gespeichert und sind Bestandteil des OneLake. - Synapse Data Warehousing
Branchenführende SQL-Leistung und -Skalierung. Sie trennt Compute und Speicher vollständig und ermöglicht so eine unabhängige Skalierung beider Komponenten. Die Daten im Warehouse werden nativ im offenen Delta Parquet-Format gespeichert und sind Bestandteil des OneLake. - Synapse Data Science
Anreicherung der Daten mit Vorhersagen mittels Machine Learning-Modellen, diese können in der Fabric-Umgebung nahtlos erstellt, bereitgestellt und operationalisiert werden. Auf diese Weise ist ein Wechsel von beschreibenden zu prädiktiven Erkenntnissen möglich. - Synapse Real Time Analytics
Real-Time Analytics ist eine erstklassige Engine für die Analyse von Beobachtungsdaten aus verschiedenen Quellen wie Apps, IoT-Geräten oder menschlichen Interaktionen. Diese Daten liegen oft in teilstrukturierten Formaten wie JSON oder Text vor, werden in hohen Volumina erfasst und die Schemas können sich ändern. Siehe dazu auch unseren früheren Blogbeitrag zur Vorgängertechnologie in Azure. - Data Activator
No-code Tool, um automatisch Maßnahmen zu ergreifen, wenn Muster oder Bedingungen/Schwellenwerte in sich ändernden Daten erkannt werden. Dann werden automatisch entsprechende Maßnahmen ergriffen, wie z. B. die Benachrichtigung von Benutzern oder das Starten von Power Automate Workflows.
Wie sieht Microsoft Fabric aus?
Wer den Power BI Cloud Service kennt, kennt auch schon das User Interface von Microsoft Fabric. Neu ist das Fabric Navigationssymbol ("Persona Switch") links unten, damit wird das Fabric Menü aufgerufen ...
... und damit kann auf die Microsoft Fabric Anwendung gewechselt werden. Aktuell ist das lediglich eine Portalseite zu den einzelnen Technologien, möglicherweise liegt die dünne Besiedelung aber auch an der fehlenden Lizenz:
Hier als Beispiel das User Interface der Technologie Data Factory:
Der OneLake data hub als zentrale Datendrehscheibe für alle MS Fabric Technologien hat einen Button an prominenter Stelle in der Navigationsleiste links:
In der eingerahmten Box sind die aktuell verfügbaren Elementtypen im OneLake zu sehen - über das obige Architekturschema hinaus sind auch die Datamarts und die SQL analytics endpoints Bestandteil von OneLake, nicht aber die Power BI Dataflows.
Was ist neu in Microsoft Fabric?
Microsoft Fabric bringt folgende Neuerungen:
(1) Demokratisierung der Daten und Integration von AI
Microsoft Fabric ermöglicht einen sehr einfachen Zugang zu bisher sehr anspruchsvollen Technologien wie bespielsweise Data Science und Real Time Analytics. Durch die fortschreitende Integration der Copilot Technologie in allen Bereichen von Microsoft Fabric ist zu erwarten, daß sich die Art und Weise, wie diese Technologien verwendet werden, massiv ändern und vereinfachen werden.
(2) Vereinheitlichte Datenhaltung in OneLake und "Direct Lake" Zugriff
Die große Neuerung in Fabric ist der OneLake auf Basis des ebenfalls neuen Delta-Parquet Formats.
Ich verstehe das Architekturschema so, daß die 4 "speichernden Technologien" - das sind Power BI, Synapse DWH, Synapse Data Engineering und Synapse Real Time Analytics - die zu persistierenden Daten allesamt im Delta-Parquet Format speichern und diese Daten organisatorisch zum OneLake gehören. Beispielsweise wird das Dataset in Power BI - dieses wird übrigens im aktuellen November 2023 Release auf "Semantic Model" zurück benannt - in Power BI (Desktop) erstellt und betrieben, es gehört aber organisatorisch zum OneLake.
Der Zugriff auf sämtliche Daten im OneLake kann gleichermaßen in einer der 4 Abfragesprachen (T-SQL, Spark, KQL, Analysis Services) erfolgen. Mit "Analysis Services" ist übrigens der Zugriff in Power BI mittels Direct Lake gemeint. Das Delta-Parquet Format ermöglicht einen performanten "Direct Lake" Zugriff aus allen 4 Technologien!
(3) Einheitliches User Interface, Workspaces und Security
Die anwender-orientierte Usability von Power BI wird auf die bisher IT-orientierten Azure Services übertragen. Weiters wird das Organisationsmodell von Power BI mit Workspaces und Row Level Security auch in den anderen Fabric Technologien verwendet.
(4) Einfacher Zugang zu den jeweils anderen Technologien
Mit dem Button Create ist der Zugang zu den weiteren Technologien und die Anlage von "Fabric Elementen" jetzt enorm einfach möglich:
Was kostet Microsoft Fabric?
Diese Frage wird in einem folgenden Blogbeitrag behandelt werden.
Was ändert sich für Power BI Anwender?
Power BI wird durch Fabric wesentlich größer und leistungsfähiger und zur Big Data Analyseplattform ausgebaut. Für (größere) Unternehmen, die auch die Azure Data Factory und/oder die Azure Synapse Services nutzen möchten, wird es mit Microsoft Fabric deutlich einfacher, da die Services jetzt in einer Infrastruktur, unter einem User Interface und unter einer Lizenz integriert sind.
Der "Direct Lake" Zugriff auf sämtliche Daten im OneLake könnte ein Game Changer sein, da damit der performante Zugriff auch auf große Datenmengen möglich werden soll und die Daten nicht mehr "bewegt" werden.
Wer möchte, kann aber Power BI unverändert als Standalone-BI-Lösung mit der gewohnten Pro oder Premium-per-User Lizenz weiterverwenden. In diesem Fall ändern sich vorerst nur einige Begriffe (bspw. wurde soeben aus dem "Dataset" das "Semantic Model"). Mittelfristig ist zu erwarten, daß Power BI durch die Integration in MS Fabric einen Schub an neuen Funktionen erhalten wird.
Die bisherigen Power BI Dataflows ("Gen 1") sind nicht Bestandteil des neuen OneLake, da diese die Daten als Datalake in Azure speichern und dieser kein Delta-Parquet Format hat. Bei einem Wechsel zu MS Fabric erscheint eine Migration auf "Dataflows Gen2" sinnvoll (Vergleich). Eine Ablöse der Gen 1 Dataflows ist für uns derzeit nicht zu erkennen, wir gehen daher davon aus, daß diese außerhalb von MS Fabric wie bisher weiterverwendet werden können.
Was ist eigentlich ein Data Fabric? Und was ein Data Mesh?
Data Mesh und Data Fabric sind zwei Konzepte zum Umgang mit verteilten Datenarchitekturen, die einen optimierten Zugriff über verschiedene Anwendungen und Rollen hinweg ermöglichen sollen. Ein Data Mesh ("Datengitter") folgt einem dezentralen Konzept, während ein Data Fabric ("Datenschicht") einen zentraler Ansatz umsetzt.
"Bei einem Data Mesh handelt es sich um eine dezentralisierte Datenarchitektur, mit deren Hilfe die Teams die Verantwortung für ihre eigenen Daten und Services übernehmen sollen. Das Data Mesh fördert das Konzept der „Datenautonomie“, bei dem die verschiedenen Teams ihre eigenen Daten und Services überwachen und verwalten können und auf der Grundlage dieser Daten und ihrer Anforderungen unabhängige Entscheidungen treffen können. Bei dem Data-Mesh-Konzept werden Teams ermutigt, ihre eigenen Microservices zu entwickeln. Zudem fördert es die teamübergreifende Verwendung von APIs zur gemeinsamen Nutzung von Daten.
Bei einem Data Fabric hingegen handelt es sich um eine Kombination aus einer Datenarchitektur und speziellen Softwarelösungen, womit Daten system- und anwendungsübergreifend zentralisiert, verknüpft, verwaltet und gesteuert werden. So können Unternehmen in Echtzeit auf Daten zugreifen und diese nutzen, eine zentrale Datenquelle schaffen und ihre Datenverwaltungsprozesse automatisieren." (Quelle)
"Data Fabric ist eine durchgängige Lösung der Datenintegration und des Datenmanagements, die aus Architektur, Software für das Datenmanagement, Integrationssoftware und gemeinsam genutzten Daten besteht, mit der Unternehmen ihre Daten verwalten können. Ein Data Fabric bietet eine einheitliche, konsistente Benutzererfahrung und Datenzugriff für jedes Mitglied eines Unternehmens weltweit und in Echtzeit … Data Fabric ermöglicht einen reibungslosen Zugriff und Datenaustausch in einer verteilten Datenumgebung." (Quelle)
Quellen
https://www.microsoft.com/en-us/microsoft-fabric
https://learn.microsoft.com/de-de/fabric/get-started/microsoft-fabric-overview
https://learn.microsoft.com/de-de/fabric/get-started/fabric-home
https://powerbi.microsoft.com/en-us/blog/new-fabric-certification-and-fabric-career-hub/
https://learn.microsoft.com/de-de/fabric/onelake/onelake-overview
Enterprise DNA: Understanding Microsoft Fabric — 11 Crucial Things You Need to Know
Lakehouse VS Warehouse VS Datamart The Difference Between The Three Fabric Objects