DP-3027 Implement a data engineering solution with Azure Databricks
Classroom Schulung | Deutsch | Anspruch
Schulungsdauer: 1 Tag
Ziele
In dieser 1-tägigen Schulung "DP-3027 Implement a data engineering solution with Azure Databricks" lernen die Teilnehmenden, wie sie mit Azure Databricks moderne, skalierbare und leistungsfähige Datenpipelines entwickeln, automatisieren und überwachen können. Im Fokus stehen die inkrementelle Datenverarbeitung mit Spark Structured Streaming, der effektive Einsatz von Delta Live Tables, Strategien zur Performanceoptimierung sowie Automatisierungstechniken mit Azure Databricks Jobs. Ergänzend werden wichtige Aspekte der Daten-Governance wie Sicherheit, Zugriffskontrolle und Data Lineage behandelt. Durch praxisnahe Übungen wird das erworbene Wissen direkt angewendet und gefestigt.
Zielgruppe
- Data Engineers
- Data Architects
- BI-Entwickler
- IT-Fachkräfte mit Fokus auf Datenintegration und Datenplattformen
Voraussetzungen
- Grundkenntnisse in SQL
- Vertrautheit mit grundlegenden Konzepten der Datenverarbeitung
- Erste Erfahrungen mit Azure oder Apache Spark sind hilfreich, aber nicht zwingend erforderlich
Agenda
Inkrementelle Datenverarbeitung mit Spark Structured Streaming
- Einrichtung von Echtzeit-Datenquellen für inkrementelle Verarbeitung
- Optimierung von Delta Lake für die inkrementelle Verarbeitung in Azure Databricks
- Umgang mit verspäteten Daten und ungeordneten Ereignissen
- Strategien für Überwachung und Performance-Tuning bei inkrementeller Verarbeitung in Azure Databricks
- Praxisübung: Echtzeit-Datenaufnahme und -verarbeitung mit Delta Live Tables in Azure Databricks
Streaming-Architektur mit Delta Live Tables umsetzen
- Entwicklung ereignisgesteuerter Architekturen mit Delta Live Tables
- Datenaufnahme mit Structured Streaming realisieren
- Datenkonsistenz und -zuverlässigkeit im Streaming sicherstellen
- Skalierung von Streaming-Workloads mit Delta Live Tables
- Praxisübung: Aufbau einer End-to-End-Streaming-Pipeline mit Delta Live Tables
Performance-Optimierung mit Spark und Delta Live Tables
- Leistungsoptimierung durch Spark und Delta Live Tables
- Kostenbasierte Optimierung und Tuning von Abfragen
- Nutzung von Change Data Capture (CDC)
- Einsatz von erweiterter automatischer Skalierung
- Implementierung von Beobachtbarkeit und Metriken zur Datenqualität
- Praxisübung: Optimierung von Datenpipelines in Azure Databricks
CI/CD-Workflows in Azure Databricks umsetzen
- Nutzung von Versionskontrolle und Git-Integration
- Durchführung von Unit-Tests und Integrationstests
- Verwaltung und Konfiguration der Entwicklungsumgebung
- Umsetzung von Rollback- und Rollforward-Strategien
- Praxisübung: Implementierung eines vollständigen CI/CD-Workflows
Automatisierung von Arbeitsabläufen mit Azure Databricks Jobs
- Planung und Automatisierung von Jobs
- Optimierung von Workflows mithilfe von Parametern
- Verwaltung von Abhängigkeiten zwischen Jobs
- Implementierung von Fehlerbehandlung und Wiederholungsmechanismen
- Anwendung bewährter Methoden und Richtlinien
- Praxisübung: Automatisierung von Datenaufnahme und -verarbeitung
Datenschutz und Daten-Governance in Azure Databricks
- Implementierung von Verschlüsselungstechniken
- Verwaltung von Zugriffskontrollen
- Umsetzung von Datenmaskierung und Anonymisierung
- Nutzung von Compliance-Standards und sicherem Datenaustausch
- Verwaltung von Datenherkunft (Data Lineage) und Metadaten
- Automatisierung von Governance-Prozessen
- Praxisübung: Anwendung des Unity Catalog in der Praxis
Arbeiten mit SQL Warehouses in Azure Databricks
- Einstieg in SQL Warehouses
- Erstellung von Datenbanken und Tabellen
- Entwicklung von SQL-Abfragen und Dashboards
- Praxisübung: Nutzung eines SQL Warehouses in Azure Databricks
Ausführung von Azure Databricks Notebooks mit Azure Data Factory
- Verständnis von Notebooks und Pipelines in Azure
- Erstellung eines verknüpften Dienstes für Azure Databricks
- Einbindung von Notebooks in Data Factory-Pipelines
- Verwendung von Parametern in Notebooks
- Praxisübung: Ausführung eines Azure Databricks Notebooks mit Azure Data Factory
Ziele
In dieser 1-tägigen Schulung "DP-3027 Implement a data engineering solution with Azure Databricks" lernen die Teilnehmenden, wie sie mit Azure Databricks moderne, skalierbare und leistungsfähige Datenpipelines entwickeln, automatisieren und überwachen können. Im Fokus stehen die inkrementelle Datenverarbeitung mit Spark Structured Streaming, der effektive Einsatz von Delta Live Tables, Strategien zur Performanceoptimierung sowie Automatisierungstechniken mit Azure Databricks Jobs. Ergänzend werden wichtige Aspekte der Daten-Governance wie Sicherheit, Zugriffskontrolle und Data Lineage behandelt. Durch praxisnahe Übungen wird das erworbene Wissen direkt angewendet und gefestigt.
Zielgruppe
- Data Engineers
- Data Architects
- BI-Entwickler
- IT-Fachkräfte mit Fokus auf Datenintegration und Datenplattformen
Voraussetzungen
- Grundkenntnisse in SQL
- Vertrautheit mit grundlegenden Konzepten der Datenverarbeitung
- Erste Erfahrungen mit Azure oder Apache Spark sind hilfreich, aber nicht zwingend erforderlich
Agenda
Inkrementelle Datenverarbeitung mit Spark Structured Streaming
- Einrichtung von Echtzeit-Datenquellen für inkrementelle Verarbeitung
- Optimierung von Delta Lake für die inkrementelle Verarbeitung in Azure Databricks
- Umgang mit verspäteten Daten und ungeordneten Ereignissen
- Strategien für Überwachung und Performance-Tuning bei inkrementeller Verarbeitung in Azure Databricks
- Praxisübung: Echtzeit-Datenaufnahme und -verarbeitung mit Delta Live Tables in Azure Databricks
Streaming-Architektur mit Delta Live Tables umsetzen
- Entwicklung ereignisgesteuerter Architekturen mit Delta Live Tables
- Datenaufnahme mit Structured Streaming realisieren
- Datenkonsistenz und -zuverlässigkeit im Streaming sicherstellen
- Skalierung von Streaming-Workloads mit Delta Live Tables
- Praxisübung: Aufbau einer End-to-End-Streaming-Pipeline mit Delta Live Tables
Performance-Optimierung mit Spark und Delta Live Tables
- Leistungsoptimierung durch Spark und Delta Live Tables
- Kostenbasierte Optimierung und Tuning von Abfragen
- Nutzung von Change Data Capture (CDC)
- Einsatz von erweiterter automatischer Skalierung
- Implementierung von Beobachtbarkeit und Metriken zur Datenqualität
- Praxisübung: Optimierung von Datenpipelines in Azure Databricks
CI/CD-Workflows in Azure Databricks umsetzen
- Nutzung von Versionskontrolle und Git-Integration
- Durchführung von Unit-Tests und Integrationstests
- Verwaltung und Konfiguration der Entwicklungsumgebung
- Umsetzung von Rollback- und Rollforward-Strategien
- Praxisübung: Implementierung eines vollständigen CI/CD-Workflows
Automatisierung von Arbeitsabläufen mit Azure Databricks Jobs
- Planung und Automatisierung von Jobs
- Optimierung von Workflows mithilfe von Parametern
- Verwaltung von Abhängigkeiten zwischen Jobs
- Implementierung von Fehlerbehandlung und Wiederholungsmechanismen
- Anwendung bewährter Methoden und Richtlinien
- Praxisübung: Automatisierung von Datenaufnahme und -verarbeitung
Datenschutz und Daten-Governance in Azure Databricks
- Implementierung von Verschlüsselungstechniken
- Verwaltung von Zugriffskontrollen
- Umsetzung von Datenmaskierung und Anonymisierung
- Nutzung von Compliance-Standards und sicherem Datenaustausch
- Verwaltung von Datenherkunft (Data Lineage) und Metadaten
- Automatisierung von Governance-Prozessen
- Praxisübung: Anwendung des Unity Catalog in der Praxis
Arbeiten mit SQL Warehouses in Azure Databricks
- Einstieg in SQL Warehouses
- Erstellung von Datenbanken und Tabellen
- Entwicklung von SQL-Abfragen und Dashboards
- Praxisübung: Nutzung eines SQL Warehouses in Azure Databricks
Ausführung von Azure Databricks Notebooks mit Azure Data Factory
- Verständnis von Notebooks und Pipelines in Azure
- Erstellung eines verknüpften Dienstes für Azure Databricks
- Einbindung von Notebooks in Data Factory-Pipelines
- Verwendung von Parametern in Notebooks
- Praxisübung: Ausführung eines Azure Databricks Notebooks mit Azure Data Factory