Artikel

Databricks in der Microsoft Data Factory – Traumpaar oder Zweck­ge­mein­schaft?

Und nicht alle Wege führten in diesem Fall nach Rom, nicht wenige mündeten in den Azure Data LakeApache Kafka oder Hadoop Storage als Speicherorte. Um die Daten im Anschluss weiterzuverarbeiten, stellt Microsoft zwar die Data Factory bereit, allerdings fehlte es diesem Tool noch bis vor kurzer Zeit an einer Möglichkeit den ungeschlagenen Liebling eines jeden Data Scientisten integrieren zu können – Python.

Apache Spark trifft Databricks

Parallel dazu, wenn nicht sogar noch rasanter, entwickelte sich das Apache Spark Framework. Binnen weniger Jahre etablierte es sich vom Forschungsprojekt zum Klassenprimus der Big Data Analyse. Microsoft erkannte dies frühzeitig und investierte dementsprechend großzügig in das Open-Source-Projekt. Dasselbe Entwicklerteam um Matei Zaharia entwickelte in den Folgejahren die Databricks Technologie. Diese ermöglicht es, Transformierungsprozesse automatisiert auf Cluster zu verteilen und ist geradezu prädestiniert für eine Nutzung als cloudbasierten Service. Der zeitgemäße Aufbau als Notebook und die Möglichkeit sowohl in SQL, Scala als auch, dreimal dürfen Sie raten, in Python  programmieren zu können, verhalfen der Technologie zu einer breiten Bekannt- und Beliebtheit in der Big Data-Gemeinschaft.

Microsofts Geniestreich mit der „neuen“ Databricks Technologie

Offenbar erkannte Microsoft die fehlende Python-Integration als Schwachstelle, denn jetzt kann man Databricks direkt in die Azure Data Factory einbauen. Man kann jetzt nicht nur zu 100 Prozent in der Cloud arbeiten, sondern gleichzeitig Pythoncodes in einer Notebookumgebung entwickeln. Somit gibt es aus Sicht eines Data Scientisten keinen Grund mehr, nicht in dieser Infrastruktur zu entwickeln oder ihr gar entfliehen zu wollen. Die Skalierbarkeit der ausführenden Cluster ist eine Bereicherung für jeden Entwickler, der über kein eigenes Rechenzentrum verfügt sowie für jeden Experten, der schnell und agil entwickeln möchte.

Da diese Cluster in der Microsoft Azure Cloud generiert werden, hat man durch den integrierten Databricks Service zudem die volle Kostenkontrolle über seine Data Factory. Dies gelingt durch das einfache Festlegen von Kostengrenzen. Schnell werden die Vorteile einer Entscheidung von Microsoft ihre Databricks voll in die Azure Data Factory zu integrieren sichtbar. Gleichzeitig lässt sich nicht verbergen, dass diese zudem als eindeutige Hinweise auf den jetzigen und kommenden Siegeszug der cloudbasierten Datenverarbeitung und insbesondere des Azure Portals von Microsoft zu deuten sind.

Der Vollständigkeit halber sei an dieser erwähnt, dass es sehr wohl (Um-)Wege gegeben hätte, den Python-Code auch in einer ETL-Strecke der Data Factory auszuführen. Das Beschreiten dieser Wege erwies sich in der Regel jedoch oft als Sackgasse. Um sich weiter in der Metaphorik des Wanderns zu bewegen, könnte man sagen, dass wohl die Wenigsten Spaß daran gehabt hätten, den Weg über eine lange und holprige Straße auf sich zu nehmen, wenn das Ziel diese beschwerliche Reise doch nicht belohnt.

Unsere Digitalisierungsexperten bei Nortal freuen sich darauf, Sie bei Ihrem nächsten Erfolgsprojekt zu unterstützen.

Mehr zum Thema

Artikel

  • Daten und KI

Schritt für Schritt zu Ihrer KI-Strategie: Ziele, Use Cases und typische Fehler

ChatGPT hat dafür gesorgt, dass das Thema Künstliche Intelligenz nicht mehr wegzudenken ist – vor allem im Business-Kontext. 2023 war daher das Jahr des Ausprobierens. 2024 geht es darum, KI wirklich nutzbar zu machen und sie im Unternehmen gewinnbringend zu implementieren. Doch an diesem Punkt scheitern viele. Ihnen fehlt eine KI-Strategie, die den Grundstein legt für den Erfolg mit Künstlicher Intelligenz. In diesem Artikel führen wir Sie Schritt für Schritt durch die Entwicklung einer solchen KI-Strategie.

Artikel

Big Data Cyber Strings. 3D illustration of wavy lines in information code field. Data flow cyber concept. Coding and technology. Java
  • Daten und KI
  • Strategie und Transformation

Gamechanger KI: Vom Luxus zum Must-have

Es gibt keinen Textauszug, da dies ein geschützter Beitrag ist.

  • Cyber-Resilienz
  • Finanzdienstleistungen und Versicherungen

Nortal schließt Partnerschaft mit Mastercard-Tochter RiskRecon

Es gibt keinen Textauszug, da dies ein geschützter Beitrag ist.

Kontaktieren Sie uns 

Wir machen Ihr Projekt zu unserem Anliegen.