Auf dem Weg zum datengetriebenen Unternehmen Prozessverbesserung mit DevOps und DataOps

Von Sabrina Rehman & Markus Volkmar *

Anbieter zum Thema

In der BI-Welt reden derzeit viele über DataOps. Klar, dabei geht es um Daten. Auch die Analogie zu DevOps fällt auf. Doch wo liegen die Berührungspunkte? Und wie wirken sich die Ansätze auf die Arbeit von Softwareentwicklern aus?

Wie DevOps ist auch DataOps ein Ansatz zur Prozessverbesserung, der sich zuallererst in den Köpfen der Beteiligten manifestieren muss.
Wie DevOps ist auch DataOps ein Ansatz zur Prozessverbesserung, der sich zuallererst in den Köpfen der Beteiligten manifestieren muss.
(Bild: geralt / Pixabay)

Laut einer Studie der International Data Group wird die Menge der jährlich generierten Daten bis zum Jahr 2025 auf 175 Zettabyte anwachsen, also 175.000.000.000.000 Gigabyte. Um auf diese Datenmenge zu kommen, müsste man die größte Bibliothek der Welt, die US-Library of Congress, 1,3 Milliarden Mal digitalisieren.

Die Schwierigkeit für Unternehmen liegt darin, mit großen Informationsmengen umzugehen. Deshalb müssen neue Methoden zur Speicherung und gewinnbringenden Nutzung von Daten entwickelt werden. Dies ist nur durch eine interdisziplinäre Vernetzung unterschiedlicher Bereiche möglich, wie sie bereits von DevOps bekannt ist.

Dieser Ansatz wird durch DataOps zu einer Unternehmenskultur erweitert, die Qualität und Dauer von Datenanalysen in der Organisation verbessert. Gehen wir kurz noch einmal auf die beiden IT-Kofferworte ein.

DevOps

Unter dem Begriff DevOps werden mehrere Methoden zusammengefasst, um Prozesse in der Software-Entwicklung und IT zu automatisieren. Die Idee fußt dabei insbesondere auf den Gedanken Automatisierung, Agilität und der Zusammenarbeit zwischen den Bereichen Entwicklung (Development) und IT-Management (Operations).

Während Agilität lediglich die Art der Entwicklung verändert, wirkt sich der DevOps-Gedanke auf die gesamte Unternehmenskultur aus: Programmierer entwickeln mit starkem Bezug zu den Herausforderungen eines Unternehmens; Manager planen und steuern unter Einbeziehung der vorhandenen IT-Infrastruktur.

DataOps

Mit dem DataOps-Gedanken wird DevOps um die Komponente Daten erweitert. Interdisziplinäre Teams bestehend aus Data Scientists, Software-Entwicklern und Fachabteilung sollen die Bereiche Statistik, IT und Branchenwissen zusammenbringen. Auch der Einfluss von Data Warehousing darf hier nicht unterschätzt werden, stoßen Architekturen bei steigender Datenmenge doch auf Herausforderungen in Performanz und Integrationsfähigkeit.

Wie häufig bei interdisziplinären Ansätzen wird auch DataOps unterschiedlich definiert. Nils Heudecker von der Gartner Group beschreibt DataOps etwa als eine „kollaborative Methode von Daten-Managern, deren Fokus auf der Verbesserung der Kommunikation, Integration und Automatisierung von Informationsflüssen zwischen Managern und Kunden eines Unternehmens liegt“.

Die verschiedenen Mindsets der DevOps- und DataOps-Anwender.
Die verschiedenen Mindsets der DevOps- und DataOps-Anwender.
(Bild: msg)

DevOps bestimmt also die Art und Weise, wie Anwendungen in Unternehmen entwickelt und bereitgestellt werden; DataOps hingegen die Art und Weise, wie Daten genutzt werden. Beide Ansätze eint der Gedanke der Kollaboration.

Was bedeutet DataOps für das Entwicklerteam?

Und dennoch ist DataOps mehr als nur DevOps auf Daten angewendet. DataOps legt einen stärkeren Fokus auf das Mindset der Mitwirkenden, sieht den Kunden im Fokus und strebt Lean Management an. Auch im Prozess unterscheiden sich beide Ansätze. Der klassische DevOps-Prozess besteht aus einer iterativen Abfolge von Entwicklung, Test, Deployment und Ausführung.

DataOps geht darüber hinaus und nimmt das Orchestrieren in den Prozess auf. Dieser Begriff stammt aus dem DataOps-Manifest und bezeichnet das übergeordnete Steuern aller Daten innerhalb der beobachteten Prozesse. In datengetriebenen Unternehmen kann der Orchestrierer auch eine KI sein, die Daten sammelt, auswertet und Handlungsempfehlungen für Prozess- oder Produktänderungen bietet.

Vergleich des DevOps- und des DataOps-Prozesses.
Vergleich des DevOps- und des DataOps-Prozesses.
(Bild: msg)

Die Veränderung im Prozess wirkt sich auch auf die Arbeit des Development Teams aus. Die Entwickler erweitern oder vertiefen ihr bisheriges Skillset vor allem hinsichtlich der Tools und Technologien zu Datenbanken, Testumgebungen und Algorithmen im Data Analytics Umfeld.

Daneben besteht einer der Hauptunterschiede wohl in der Schaffung der Rolle eines DataOps Engineers. Dessen Position wird durch die Aufgaben bestimmt, die früher Release Engineers oder im DevOps-Framework der DevOps Engineer ausführte. Dieser übernimmt klassisch das Management von Shared Workspaces, Software Release und Deployment. Zusätzlich ist der DataOps Engineer auch die leitende Instanz im Orchestrieren der DataOps-Prozessschritte.

Einbindung ins Unternehmen

Auf dem Weg zum datengetriebenen Unternehmen kann in mehrere Bausteine investiert werden, wovon keiner zwingend notwendig ist, aber alle ergänzend und verstärkend wirken. Im Folgenden seien einige davon kurz genannt:

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Softwareentwicklung und DevOps

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Die verschiedenen Bausteine von DataOps.
Die verschiedenen Bausteine von DataOps.
(Bild: msg)

Data-Warehouse-Architektur

Zunächst einmal spielt die Speicherung und Verarbeitung von Daten eine Rolle. Hier können verschiedene Reifegrade beobachtet werden. Diese gehen von der ungeordneten Speicherung in riesigen Tabellen über Data Vault-Modelle bis zur Nutzung performanter Cloudtechnologien und Lambda-Architekturen.

Dashboarding

Welche Rolle Datenanalysen für die Entscheidungen von Managern spielen, ist von der Reporting-Struktur in einem Unternehmen abhängig. Hier sind vor allem Modelle hervorzuheben, die datengetriebene Analysen in die Prozesse eines Unternehmens integrieren.

Cloud Architektur

Eine externe Infrastruktur „as a Service“ zu nutzen hat zahlreiche Vorteile: Skalierbarkeit, Erleichterung von Zusammenarbeit, Kosteneffizienz bis hin zu Meta-Data-Management. Sicherheitsbedenken, die lange viele Unternehmen von einer Migration in die Cloud abhielten, verlieren durch einheitliche Datenstandards an Bedeutung.

Data Science

Der eigentlichen Extraktion von Wissen aus Daten kommt eine besondere Bedeutung zu. Dabei werden statistische Algorithmen genutzt, deren Ziel das Erkennen von Mustern und Zusammenhängen in großen Datenmengen ist. Hierfür kommen mathematische Verfahren zum Einsatz, die entweder nachvollziehbar und wiederholbar sind, oder mithilfe künstlicher neuronaler Netzwerke selbstlernende und autokorrektive Instanzen entwickeln.

Workflow

Das DataOps-Manifest hebt bereits im ersten Absatz die Bedeutung von Menschen und ihren Interaktionen hervor. Um den Umgang mit Daten im Unternehmen zum zentralen Baustein des Denkens und Handelns zu machen, eignen sich Projektmanagementansätze wie Scrum und Lean Management. Vor allem dem Gedanken der Agilität, der iterativen Verbesserung von Datenspeichern sowie Algorithmen zur Analyse oder der Visualisierung kommt eine entscheidende Bedeutung zu.

Auf dem Weg zur datengetriebenen Organisation ist es ratsam, einen Partner an der Seite zu haben, um die Bausteine des DataOps-Gedankens in die tägliche Arbeit zu integrieren. In einem Projekt für eine deutsche Bundesbehörde haben wir als msg festgestellt, dass die Kollaboration zwischen den datenproduzierenden und datennutzenden Bereichen des Amtes durch die Schaffung eines BICCs — eines Business Intelligence Competence Centers – verbessert werden konnte.

Dieses bündelt Wissen in der Datenspeicherung, -verarbeitung und -auswertung, ohne losgelöst von den Fachabteilungen zu existieren. Vielmehr will es ein Forum bieten, in dem sich alle Bereiche der Organisation über Speicherung, Verarbeitung und Nutzung von Daten austauschen. Dies gelang durch die gleichzeitige Initialisierung von Scrum als Vorgehensmodell. Durch jeden dieser Bausteine konnten wir die Bundesbehörde schließlich zu einer datengetriebenen Organisation entwickeln.

DataOps leben

DataOps ist also mehr als eine Methode. Durch die Verbindung der verschiedenen Bausteine entwickelt sich ein datenzentriertes Ökosystem, indem die drei großen Player der Software-Entwicklung ineinandergreifen – IT, Data und Operations.

Durch DataOps kann eine bessere Datenqualität, eine höhere Standardisierung der Prozesslandschaft und ein besseres Verständnis von Kundenverhaltensmustern, Marktverschiebungen, Preisschwankungen und anderer geschäftsrelevanter Prozesse erreicht werden. Dies erleichtert auch die Zusammenarbeit mit den Kunden und formt ein funktionsübergreifendes Verantwortlichkeitsgefühl für das Produkt der Arbeit.

Nach dem DataOps-Manifest umfasst dies u.a. folgende Elemente: Individuen und Interaktionen über Prozesse und Tools, eine funktionsfähige Analytik über die umfassende Dokumentation sowie die Zusammenarbeit mit Kunden bei den Vertragsverhandlungen. Gefragt nach einer Definition ist die vielleicht beste Antwort also: Man muss DataOps leben.

Sabrina Rehman
Sabrina Rehman
(Bild: msg)

Für einen tieferen Blick in das DataOps Framework empfehlen wir „The DataOps Cookbook“ aus dem Jahr 2019 von Christopher Bergh, Gil Benghiat und Eran Strod sowie „Creating a Data-Driven Enterprise with DataOps“ von Joydeep Sen Sarma und Ashish Thusoo.

* Sabrina Rehman hat Computerlinguistik und Betriebswirtschaftslehre in München und Augsburg studiert und arbeitet inzwischen als Unternehmensberaterin bei der msg systems ag. Die Schwerpunkte ihrer Arbeit liegen in den Bereichen Finance, Business Intelligence und Data Science.

Markus Volkmar
Markus Volkmar
(Bild: msg)

* Markus Volkmar hat Psychologie, Statistik und Human Resource Management in Koblenz und Maastricht studiert und arbeitet heute als Unternehmensberater für die msg systems ag. Die Schwerpunkte seiner Arbeit liegen in Data Science und Data Warehousing in den Bereichen Public und Health.

(ID:46697925)