Artikel

Databricks in der Microsoft Data Factory – Traumpaar oder Zweck­ge­mein­schaft?

Und nicht alle Wege führten in diesem Fall nach Rom, nicht wenige mündeten in den Azure Data LakeApache Kafka oder Hadoop Storage als Speicherorte. Um die Daten im Anschluss weiterzuverarbeiten, stellt Microsoft zwar die Data Factory bereit, allerdings fehlte es diesem Tool noch bis vor kurzer Zeit an einer Möglichkeit den ungeschlagenen Liebling eines jeden Data Scientisten integrieren zu können – Python.

Apache Spark trifft Databricks

Parallel dazu, wenn nicht sogar noch rasanter, entwickelte sich das Apache Spark Framework. Binnen weniger Jahre etablierte es sich vom Forschungsprojekt zum Klassenprimus der Big Data Analyse. Microsoft erkannte dies frühzeitig und investierte dementsprechend großzügig in das Open-Source-Projekt. Dasselbe Entwicklerteam um Matei Zaharia entwickelte in den Folgejahren die Databricks Technologie. Diese ermöglicht es, Transformierungsprozesse automatisiert auf Cluster zu verteilen und ist geradezu prädestiniert für eine Nutzung als cloudbasierten Service. Der zeitgemäße Aufbau als Notebook und die Möglichkeit sowohl in SQL, Scala als auch, dreimal dürfen Sie raten, in Python  programmieren zu können, verhalfen der Technologie zu einer breiten Bekannt- und Beliebtheit in der Big Data-Gemeinschaft.

Microsofts Geniestreich mit der „neuen“ Databricks Technologie

Offenbar erkannte Microsoft die fehlende Python-Integration als Schwachstelle, denn jetzt kann man Databricks direkt in die Azure Data Factory einbauen. Man kann jetzt nicht nur zu 100 Prozent in der Cloud arbeiten, sondern gleichzeitig Pythoncodes in einer Notebookumgebung entwickeln. Somit gibt es aus Sicht eines Data Scientisten keinen Grund mehr, nicht in dieser Infrastruktur zu entwickeln oder ihr gar entfliehen zu wollen. Die Skalierbarkeit der ausführenden Cluster ist eine Bereicherung für jeden Entwickler, der über kein eigenes Rechenzentrum verfügt sowie für jeden Experten, der schnell und agil entwickeln möchte.

Da diese Cluster in der Microsoft Azure Cloud generiert werden, hat man durch den integrierten Databricks Service zudem die volle Kostenkontrolle über seine Data Factory. Dies gelingt durch das einfache Festlegen von Kostengrenzen. Schnell werden die Vorteile einer Entscheidung von Microsoft ihre Databricks voll in die Azure Data Factory zu integrieren sichtbar. Gleichzeitig lässt sich nicht verbergen, dass diese zudem als eindeutige Hinweise auf den jetzigen und kommenden Siegeszug der cloudbasierten Datenverarbeitung und insbesondere des Azure Portals von Microsoft zu deuten sind.

Der Vollständigkeit halber sei an dieser erwähnt, dass es sehr wohl (Um-)Wege gegeben hätte, den Python-Code auch in einer ETL-Strecke der Data Factory auszuführen. Das Beschreiten dieser Wege erwies sich in der Regel jedoch oft als Sackgasse. Um sich weiter in der Metaphorik des Wanderns zu bewegen, könnte man sagen, dass wohl die Wenigsten Spaß daran gehabt hätten, den Weg über eine lange und holprige Straße auf sich zu nehmen, wenn das Ziel diese beschwerliche Reise doch nicht belohnt.

Unsere Digitalisierungsexperten bei Nortal freuen sich darauf, Sie bei Ihrem nächsten Erfolgsprojekt zu unterstützen.

Mehr zum Thema

Veranstaltung

  • Nahtlose Lösungen
  • Strategie und Transformation
  • Government

Event: Nortal auf dem Public Summit 2024

Am 10. und 11. April ist Nortal als Silber Sponsor Teil des Public Summit 2024 in Berlin. Sein auch Sie dabei und entdecken Sie die wegweisenden Technologien.

Erfolgsgeschichte

  • Nahtlose Lösungen
  • Strategie und Transformation

Die Digitalisierung des Nord-Ostsee-Kanals

Nortal wurde gemeinsam mit Entwicklungsdienstleister B3IT Systeme GmbH beauftragt ein System zu integrieren, was eine reibungslose und sichere Schifffahrt für alle Nutzende gewährleistet.

Artikel

Gradient glasses and cubes, 3d rendering
  • Daten und KI
  • Gesundheitswesen
  • Kund*innen
  • Unternehmen

Verbesserung der Datenqualität mit generativer KI

In der heutigen Welt sind Daten die Währung der Innovation, und Unternehmen wenden sich an die generative KI (GenAI), um ihre Datenprobleme zu lösen. Wir navigieren durch die unbekannten Gewässer, wie GenAI die Risiken einer schlechten Datenqualität mindern und ein Ökosystem zuverlässiger, angereicherter Daten kultivieren kann.

Kontaktieren Sie uns 

Wir machen Ihr Projekt zu unserem Anliegen.