Azure Databricks

Zentrales Analysetool für Big Data

Azure Databricks ist ein hilfreiches Tool in der Azure Cloud, um mit wenig Aufwand Abfragen und Analysen von grossen Datenmengen durchzuführen. Der Service kann für unterschiedlichste Aufgaben verwendet werden, er ist schnell eingerichtet und nach einer Einarbeitungszeit einfach zu bedienen. Der bbv-Datenbankexperte Georg Lampart erklärt, was Azure Databricks kann.

07.11.2019Text: tnt-graphics0 Kommentare
Analysetool_Big Data

Azure Databricks ist vielseitig. Die Datenanalyse-Anwendung kann in die bestehenden Microsoft Azure Services einfach integriert werden und eignet sich zum Beispiel für Big-Data-Analysen, für die Entwicklung von Daten-Workflows oder für Machine-Learning-Anwendungen. Das Aufsetzen einer solchen Infrastruktur benötigt üblicherweise viel Expertenwissen – Azure Databricks übernimmt diese Aufgabe und man kann sich auf die Datenanalyse und die Daten-Workflows konzentrieren.

Eintauchhilfe in grosse Datenmengen

Azure Databricks ist ein umfangreicher Service, um auch in grössere Datenbestände einzutauchen und unterschiedliche Analysen vorzunehmen. Dabei können verschiedene Bedürfnisse abgedeckt werden, etwa jene von Data Engineers oder Data Scientists. «Azure Databricks ist sehr vielseitig nutzbar», sagt Georg Lampart, Senior Database Consultant, bei bbv. «Data Scientists können damit auf einfache Weise Ad-hoc-Abfragen, Daten-Explorationen und Visualisierungen vornehmen und ein Prototyping von Modellen durchführen. Den Data Engineers bietet der Service automatisierte Workflows und ETL/ELT-Prozesse und ist damit eine zusätzliche Option zu Azure Data Factory und Polybase.»

Mit Azure Databricks lassen sich zum Beispiel schnelle Datenabfragen auf grosse Datenmengen in der Cloud durchführen. Die komplexe Infrastruktur auf Basis von Apache Spark wird dann automatisch vom Service erzeugt und hochgefahren. Für ETL-Prozesse, Machine Learning, Workflows und sogar Realtime-Analysen können einzelne Jobs mit Azure Databricks verwaltet und automatisiert gesteuert werden.

Vereinfachte Prozesse für Datenanalysen

Die Abläufe für Datenanalysen und Datenexplorationen werden mit Azure Databricks deutlich vereinfacht. «Als Beispiel können Rohdaten aus einem Data Lake geholt, für ein Machine Learning Modell aufbereitet und die Resultate in eine relationale Datenbank gespeichert werden. Dies geschieht an einem einzigen Ort, ohne die Umgebung verlassen zu müssen», erklärt Lampart.

Eine weitere Eigenschaft, die für Azure Databricks spricht: Für Analysen und Abfragen können unterschiedliche Abfrage-/Programmiersprachen verwendet werden. «Auf diese Weise ist es möglich, jeweils die geeignete Sprache für das aktuelle Problem beziehungsweise die bevorzugte oder bereits verwendete Sprache zu wählen», sagt Lampart. So können wahlweise Python, R, SQL, Java, C# oder Scala verwendet werden.

Die Vorteile der Cloud nutzen

Azure Databricks eignet sich grundsätzlich für Unternehmen, die ihre Daten in der Cloud verwalten, der Einbezug von Daten on-premise ist möglich. Die Nähe der Cloud-basierten Umgebung zu den Azure-Services wie Azure Data Lake, Azure SQL Data Warehouse, Azure Cosmos DB und Power BI ermöglicht eine optimierte Anwendung dieser Services. Der Zugriff auf unterschiedliche Datenquellen ist einer der Vorteile von Azure Databricks. Ebenso die Skalierbarkeit: «Mit Azure Databricks kann man klein anfangen und bei höheren Anforderungen zulegen», sagt Georg Lampart. Die Anwendung wächst also mit den Anforderungen. Allerdings muss auch die passende Kapazität gefunden werden, um kosteneffizient arbeiten zu können: Auto-Scaling kann hier helfen, den Cluster innerhalb einer Bandbreite optimal auszunutzen und Kosten zu sparen.

Ein weiteres kostensparendes Merkmal ist der Modus “Auto-Termination»: der zugrundeliegende Cluster wird automatisch heruntergefahren, wenn er eine konfigurierte Zeit lang inaktiv war. Gemäss Lampart ist es ein weiterer Vorteil, dass alle Azure-Security-Mechanismen integriert sind und Unternehmen ihre Data Governance durchgängig abbilden können.

Enge Zusammenarbeit zwischen Teams und Funktionen

Die Arbeitsumgebung von Azure Databricks ermöglicht eine enge Zusammenarbeit zwischen mehreren Teams und Funktionen. Workspaces können auf einfache Weise geteilt werden, um mehreren Personen die Anwendung über ein gemeinsames Interface zu ermöglichen. Code, Abfragen und Visualisierungen werden in Databricks Notebooks erstellt und dokumentiert. Es können mehrere Personen an einem Notebooks arbeiten und Versionierung ist u.a. mit GitHub, BitBucket und Azure DevOps möglich.

Fazit

Die Cloud-basierte Umgebung für schnelle und interaktive Datenanalysen sowie die einfache Einrichtung der Anwendung ermöglicht Azure Databricks für unterschiedlichste Anwender, selbstständig Analysen aus unterschiedlichen Datenquellen zu realisieren. Unternehmen, die bereits Daten in der Cloud haben und diese analysieren wollen, erhalten mit Azure Databricks ein mächtiges Tool, um Workflows zu vereinfachen und zu beschleunigen. Weil Azure Databricks viele Big-Data-Szenarien auf einer Plattform vereinigt und sich in die Azure-Umgebung integriert, ist es unter Umständen nicht mehr nötig, dass mehrere verschiedene Dienste auf komplexe Weise miteinander verknüpft werden müssen. So sind etwa Datenzugriffe auf unterschiedlichste Quellen wie Azure Data Lake, NoSql (CosmosDB), relational Datenbanken (SQL, Datawarehouse) oder Streaming-Analysen und die anschliessende Weitergabe nun mit einem Tool möglich.

Unser Wissen im Abo

BIM2FM: So geht digitales Gebäudemanagement

BIM-Daten im Facility Management wirksam nutzen

Individuallösung
Effizienter dank Data Driven HR

HR-Digitalisierung auf den Menschen ausgerichtet

Agile Software Development
UX in interaktiven Systemen

Lust statt Frust: Was gutes UX-Design mit Vertrauen zu tun hat

Digitalisierung

Attention!

Sorry, so far we got only content in English for this section.

Achtung!

Entschuldigung, bisher haben wir für diesen Abschnitt nur deutschsprachige Inhalte.