Artikel
Databricks in der Microsoft Data Factory – Traumpaar oder Zweckgemeinschaft?
Und nicht alle Wege führten in diesem Fall nach Rom, nicht wenige mündeten in den Azure Data Lake, Apache Kafka oder Hadoop Storage als Speicherorte. Um die Daten im Anschluss weiterzuverarbeiten, stellt Microsoft zwar die Data Factory bereit, allerdings fehlte es diesem Tool noch bis vor kurzer Zeit an einer Möglichkeit den ungeschlagenen Liebling eines jeden Data Scientisten integrieren zu können – Python.
Apache Spark trifft Databricks
Parallel dazu, wenn nicht sogar noch rasanter, entwickelte sich das Apache Spark Framework. Binnen weniger Jahre etablierte es sich vom Forschungsprojekt zum Klassenprimus der Big Data Analyse. Microsoft erkannte dies frühzeitig und investierte dementsprechend großzügig in das Open-Source-Projekt. Dasselbe Entwicklerteam um Matei Zaharia entwickelte in den Folgejahren die Databricks Technologie. Diese ermöglicht es, Transformierungsprozesse automatisiert auf Cluster zu verteilen und ist geradezu prädestiniert für eine Nutzung als cloudbasierten Service. Der zeitgemäße Aufbau als Notebook und die Möglichkeit sowohl in SQL, Scala als auch, dreimal dürfen Sie raten, in Python programmieren zu können, verhalfen der Technologie zu einer breiten Bekannt- und Beliebtheit in der Big Data-Gemeinschaft.
Microsofts Geniestreich mit der „neuen“ Databricks Technologie
Offenbar erkannte Microsoft die fehlende Python-Integration als Schwachstelle, denn jetzt kann man Databricks direkt in die Azure Data Factory einbauen. Man kann jetzt nicht nur zu 100 Prozent in der Cloud arbeiten, sondern gleichzeitig Pythoncodes in einer Notebookumgebung entwickeln. Somit gibt es aus Sicht eines Data Scientisten keinen Grund mehr, nicht in dieser Infrastruktur zu entwickeln oder ihr gar entfliehen zu wollen. Die Skalierbarkeit der ausführenden Cluster ist eine Bereicherung für jeden Entwickler, der über kein eigenes Rechenzentrum verfügt sowie für jeden Experten, der schnell und agil entwickeln möchte.
Da diese Cluster in der Microsoft Azure Cloud generiert werden, hat man durch den integrierten Databricks Service zudem die volle Kostenkontrolle über seine Data Factory. Dies gelingt durch das einfache Festlegen von Kostengrenzen. Schnell werden die Vorteile einer Entscheidung von Microsoft ihre Databricks voll in die Azure Data Factory zu integrieren sichtbar. Gleichzeitig lässt sich nicht verbergen, dass diese zudem als eindeutige Hinweise auf den jetzigen und kommenden Siegeszug der cloudbasierten Datenverarbeitung und insbesondere des Azure Portals von Microsoft zu deuten sind.
Der Vollständigkeit halber sei an dieser erwähnt, dass es sehr wohl (Um-)Wege gegeben hätte, den Python-Code auch in einer ETL-Strecke der Data Factory auszuführen. Das Beschreiten dieser Wege erwies sich in der Regel jedoch oft als Sackgasse. Um sich weiter in der Metaphorik des Wanderns zu bewegen, könnte man sagen, dass wohl die Wenigsten Spaß daran gehabt hätten, den Weg über eine lange und holprige Straße auf sich zu nehmen, wenn das Ziel diese beschwerliche Reise doch nicht belohnt.
Unsere Digitalisierungsexperten bei Nortal freuen sich darauf, Sie bei Ihrem nächsten Erfolgsprojekt zu unterstützen.
Kontaktieren Sie uns
Wir machen Ihr Projekt zu unserem Anliegen.