Artikel 27. Juli 2020

Databricks in der Microsoft Data Factory – Traumpaar oder Zweckgemeinschaft?

Und nicht alle Wege führten in diesem Fall nach Rom, nicht wenige mündeten in den Azure Data Lake, Apache Kafka oder Hadoop Storage als Speicherorte. Um die Daten im Anschluss weiterzuverarbeiten, stellt Microsoft zwar die Data Factory bereit, allerdings fehlte es diesem Tool noch bis vor kurzer Zeit an einer Möglichkeit den ungeschlagenen Liebling eines jeden Data Scientisten integrieren zu können – Python.

Apache Spark trifft Databricks

Parallel dazu, wenn nicht sogar noch rasanter, entwickelte sich das Apache Spark Framework. Binnen weniger Jahre etablierte es sich vom Forschungsprojekt zum Klassenprimus der Big Data Analyse. Microsoft erkannte dies frühzeitig und investierte dementsprechend großzügig in das Open-Source-Projekt. Dasselbe Entwicklerteam um Matei Zaharia entwickelte in den Folgejahren die Databricks Technologie. Diese ermöglicht es, Transformierungsprozesse automatisiert auf Cluster zu verteilen und ist geradezu prädestiniert für eine Nutzung als cloudbasierten Service. Der zeitgemäße Aufbau als Notebook und die Möglichkeit sowohl in SQL, Scala als auch, dreimal dürfen Sie raten, in Python programmieren zu können, verhalfen der Technologie zu einer breiten Bekannt- und Beliebtheit in der Big Data-Gemeinschaft.

**Microsofts Geniestreich mit der „neuen“ Databricks Technologie**

Offenbar erkannte Microsoft die fehlende Python-Integration als Schwachstelle, denn jetzt kann man Databricks direkt in die Azure Data Factory einbauen. Man kann jetzt nicht nur zu 100 Prozent in der Cloud arbeiten, sondern gleichzeitig Pythoncodes in einer Notebookumgebung entwickeln. Somit gibt es aus Sicht eines Data Scientisten keinen Grund mehr, nicht in dieser Infrastruktur zu entwickeln oder ihr gar entfliehen zu wollen. Die Skalierbarkeit der ausführenden Cluster ist eine Bereicherung für jeden Entwickler, der über kein eigenes Rechenzentrum verfügt sowie für jeden Experten, der schnell und agil entwickeln möchte.

Da diese Cluster in der Microsoft Azure Cloud generiert werden, hat man durch den integrierten Databricks Service zudem die volle Kostenkontrolle über seine Data Factory. Dies gelingt durch das einfache Festlegen von Kostengrenzen. Schnell werden die Vorteile einer Entscheidung von Microsoft ihre Databricks voll in die Azure Data Factory zu integrieren sichtbar. Gleichzeitig lässt sich nicht verbergen, dass diese zudem als eindeutige Hinweise auf den jetzigen und kommenden Siegeszug der cloudbasierten Datenverarbeitung und insbesondere des Azure Portals von Microsoft zu deuten sind.

Der Vollständigkeit halber sei an dieser erwähnt, dass es sehr wohl (Um-)Wege gegeben hätte, den Python-Code auch in einer ETL-Strecke der Data Factory auszuführen. Das Beschreiten dieser Wege erwies sich in der Regel jedoch oft als Sackgasse. Um sich weiter in der Metaphorik des Wanderns zu bewegen, könnte man sagen, dass wohl die Wenigsten Spaß daran gehabt hätten, den Weg über eine lange und holprige Straße auf sich zu nehmen, wenn das Ziel diese beschwerliche Reise doch nicht belohnt.

Unsere Digitalisierungsexperten bei Nortal freuen sich darauf, Sie bei Ihrem nächsten Erfolgsprojekt zu unterstützen.

Mehr zum Thema

Erfolgsgeschichte

21. Oktober 2024

Daten und KI
Nahtlose Lösungen
Gesundheitswesen
Government

Entwicklung eines innovativen Chatbots für das NLGA

Um Bürger*innen einen einfachen Zugang zu Informationen zu gewährleisten und die Mitarbeiter*innen des Niedersächsischen Landesgesundheitsamts (NLGA) zu entlasten, wurde ein KI-Chat- und Voicebot auf Basis Nortals TARK-Lösung entwickelt.

Veranstaltung

18. Oktober 2024

Daten und KI
Nahtlose Lösungen
Strategie und Transformation
Government

Event: Digital-Gipfel 2024

Am 21. und 22. Oktober 2024 versammelt sich die digitale Spitze Deutschlands zum Digital-Gipfel in Frankfurt am Main.
Unter dem Motto „Deutschland Digital – Innovativ. Souverän. International“ bringt der Gipfel über 1.500 Teilnehmer*innen aus Wirtschaft, Wissenschaft, Zivilgesellschaft und Politik zusammen.

Artikel

9. Oktober 2024

Strategie und Transformation
Bausteine digitaler Regierungen
Bürgerzentrierte, personalisierte digitale Verwaltung
Government
Transformation der Regierung

Digitale Verwaltung: In Österreich herrscht Visionslosigkeit

Die Basisarbeit ist gemacht, nur wird zu wenig darauf aufgebaut. Daniela Riegler und Maxim Orlov von der österreichischen Nortal GmbH sehen einen dringenden Handlungsauftrag an die künftige Regierung.

Kontaktieren Sie uns 

Wir machen Ihr Projekt zu unserem Anliegen. 

Databricks in der Microsoft Data Factory – Traumpaar oder Zweck­ge­mein­schaft?

Apache Spark trifft Databricks

Microsofts Geniestreich mit der „neuen“ Databricks Technologie

Mehr zum Thema

Entwicklung eines innovativen Chatbots für das NLGA

Event: Digital-Gipfel 2024

Digitale Verwaltung: In Österreich herrscht Visionslosigkeit

Kontaktieren Sie uns

Databricks in der Microsoft Data Factory – Traumpaar oder Zweckgemeinschaft?

**Microsofts Geniestreich mit der „neuen“ Databricks Technologie**

Kontaktieren Sie uns