Introduction to Data Engineering on Google Cloud (IDEG)
Classroom Schulung | Deutsch | Anspruch
Schulungsdauer: 1 Tag
Ziele
In dieser 1-tägigen Schulung "Introduction to Data Engineering on Google Cloud (IDEG)" erfahren Sie mehr über Data Engineering in der Google Cloud, die Rollen und Verantwortlichkeiten von Data Engineers und wie diese mit den Angeboten von Google Cloud zusammenhängen. Außerdem erfahren Sie, wie Sie Herausforderungen im Data Engineering angehen können.
Zielgruppe
- Daten-Ingenieure
- Datenbank-Administratoren
- Systemadministratoren
Voraussetzungen
- Grundlegende Erfahrung mit Google Cloud unter Verwendung von Cloud Shell und Zugriff auf Produkte über die Google Cloud-Konsole.
- Grundkenntnisse in einer gängigen Abfragesprache wie SQL.
- Erfahrung mit Datenmodellierung und ETL-Aktivitäten (Extrahieren, Transformieren, Laden).
- Erfahrung in der Entwicklung von Anwendungen mit einer gängigen Programmiersprache wie Python
Agenda
Modul 1 - Data-Engineering-Aufgaben und -Komponenten
-
Themen:
- Die Rolle des Dateningenieurs
- Datenquellen versus Datensenken
- Datenformate
- Optionen für Speicherlösungen in der Google Cloud
- Optionen für die Verwaltung von Metadaten in der Google Cloud
- Gemeinsame Nutzung von Datensätzen mit Analytics Hub
-
Zielsetzungen:
- Erklären Sie die Rolle eines Dateningenieurs. die Unterschiede zwischen einer Datenquelle und einer Datensenke zu verstehen.
- Erklären Sie die verschiedenen Arten von Datenformaten.
- Erklären Sie die Optionen für Speicherlösungen in der Google Cloud.
- Erfahren Sie mehr über die Möglichkeiten der Metadatenverwaltung in Google Cloud.
- Verstehen Sie, wie Sie mit Analytics Hub problemlos Datensätze gemeinsam nutzen können.
- Verstehen, wie man Daten mit der Google Cloud-Konsole oder der gcloud CLI in BigQuery lädt.
-
Aktivitäten:
- Übung: Laden von Daten in BigQuery
- Quiz
Modul 2 - Datenreplikation und -migration
-
Themen:
- Replikations- und Migrationsarchitektur
- Das gcloud-Befehlszeilenwerkzeug
- Verschieben von Datensätzen
- Datastream
-
Zielsetzungen:
- Erklären Sie die grundlegende Datenreplikations- und Migrationsarchitektur der Google Cloud.
- die Optionen und Anwendungsfälle für das gcloud-Befehlszeilentool zu verstehen.
- Erläutern Sie die Funktionalität und die Anwendungsfälle des Speicherübertragungsdienstes.
- Erläutern Sie die Funktionen und Anwendungsfälle der Transfer Appliance.
- Verstehen Sie die Funktionen und den Einsatz von Datastream.
-
Aktivitäten:
- Labor: Datastream: PostgreSQL-Replikation zu BigQuery (optional für ILT)
- Quiz
Modul 3 - Das Pipeline-Muster zum Extrahieren und Laden von Daten
-
Themen:
- Architektur extrahieren und laden
- Das bq-Befehlszeilenwerkzeug
- BigQuery-Datenübertragungsdienst
- BigLake
-
Zielsetzungen:
- Erläutern Sie das Diagramm der Grundlinienextraktion und -lastarchitektur. die Optionen des Befehlszeilenprogramms bq verstehen.
- Erläutern Sie die Funktionen und Anwendungsfälle für den BigQuery Data Transfer Service.
- Erläutern Sie die Funktionalität und die Anwendungsfälle für BigLake als Nicht-
- Extract-Load-Muster.
-
Aktivitäten:
- Labor: BigLake: Qwik Start
- Quiz
Modul 4 - Das Pipeline-Muster zum Extrahieren, Laden und Transformieren von Daten
-
Themen:
- Architektur zum Extrahieren, Laden und Umwandeln (ELT)
- SQL-Skripterstellung und Zeitplanung mit BigQuery
- Datenformular
-
Zielsetzungen:
- Erläutern Sie das Grundschema der Extraktions-, Lade- und Transformationsarchitektur.
- Verstehen Sie eine gängige ELT-Pipeline in der Google Cloud.
- Erfahren Sie mehr über die SQL-Skripterstellung und die Planungsfunktionen von
- BigQuery.
- Erläutern Sie die Funktionen und Anwendungsfälle von Dataform.
-
Aktivitäten:
- Übung: Erstellen und Ausführen eines SQL-Workflows in Dataform
- Quiz
Modul 5 - Das Pipeline-Muster zum Extrahieren, Transformieren und Laden von Daten
-
Themen:
- Architektur des Extrahierens, Transformierens und Ladens (ETL)
- Google Cloud GUI-Tools für ETL-Datenpipelines
- Batch-Datenverarbeitung mit Dataproc
- Optionen für die Verarbeitung von Streaming-Daten
- Bigtable und Datenpipelines
-
Zielsetzungen:
- Erläutern Sie das Grundschema der Extraktions-, Transformations- und Ladearchitektur.
- Lernen Sie die GUI-Tools von Google Cloud kennen, die für ETL-Datenpipelines verwendet werden.
- Erläutern Sie die Batch-Datenverarbeitung mit Dataproc.
- Erfahren Sie, wie Sie Dataproc Serverless for Spark für ETL verwenden können.
- Erläutern Sie die Möglichkeiten der Streaming-Datenverarbeitung.
- Erklären Sie, welche Rolle Bigtable in Datenpipelines spielt.
-
Aktivitäten:
- Übung: Verwenden von Dataproc Serverless for Spark zum Laden von BigQuery (optional für ILT)
- Übung: Erstellen einer Streaming-Datenpipeline für ein Echtzeit-Dashboard mit Dataflow
- Quiz
Modul 6 - Automation Techniques
-
Themen:
- Automatisierungsmuster und Optionen für Pipelines
- Cloud Scheduler und Arbeitsabläufe
- Cloud-Komponist
- Cloud Run-Funktionen
- Eventarc
-
Zielsetzungen:
- Erklären Sie die Automatisierungsmuster und -optionen, die für Pipelines verfügbar sind.
- Erfahren Sie mehr über Cloud Scheduler und Workflows.
- Erfahren Sie mehr über Cloud Composer.
- Lernen Sie die Funktionen von Cloud Run kennen.
- Erläutern Sie die Funktionalität und die Anwendungsfälle der Automatisierung von Eventarc.
-
Aktivitäten:
- Übung: Verwenden von Cloud Run Functions zum Laden von BigQuery (optional für ILT)
- Quiz
Ziele
In dieser 1-tägigen Schulung "Introduction to Data Engineering on Google Cloud (IDEG)" erfahren Sie mehr über Data Engineering in der Google Cloud, die Rollen und Verantwortlichkeiten von Data Engineers und wie diese mit den Angeboten von Google Cloud zusammenhängen. Außerdem erfahren Sie, wie Sie Herausforderungen im Data Engineering angehen können.
Zielgruppe
- Daten-Ingenieure
- Datenbank-Administratoren
- Systemadministratoren
Voraussetzungen
- Grundlegende Erfahrung mit Google Cloud unter Verwendung von Cloud Shell und Zugriff auf Produkte über die Google Cloud-Konsole.
- Grundkenntnisse in einer gängigen Abfragesprache wie SQL.
- Erfahrung mit Datenmodellierung und ETL-Aktivitäten (Extrahieren, Transformieren, Laden).
- Erfahrung in der Entwicklung von Anwendungen mit einer gängigen Programmiersprache wie Python
Agenda
Modul 1 - Data-Engineering-Aufgaben und -Komponenten
-
Themen:
- Die Rolle des Dateningenieurs
- Datenquellen versus Datensenken
- Datenformate
- Optionen für Speicherlösungen in der Google Cloud
- Optionen für die Verwaltung von Metadaten in der Google Cloud
- Gemeinsame Nutzung von Datensätzen mit Analytics Hub
-
Zielsetzungen:
- Erklären Sie die Rolle eines Dateningenieurs. die Unterschiede zwischen einer Datenquelle und einer Datensenke zu verstehen.
- Erklären Sie die verschiedenen Arten von Datenformaten.
- Erklären Sie die Optionen für Speicherlösungen in der Google Cloud.
- Erfahren Sie mehr über die Möglichkeiten der Metadatenverwaltung in Google Cloud.
- Verstehen Sie, wie Sie mit Analytics Hub problemlos Datensätze gemeinsam nutzen können.
- Verstehen, wie man Daten mit der Google Cloud-Konsole oder der gcloud CLI in BigQuery lädt.
-
Aktivitäten:
- Übung: Laden von Daten in BigQuery
- Quiz
Modul 2 - Datenreplikation und -migration
-
Themen:
- Replikations- und Migrationsarchitektur
- Das gcloud-Befehlszeilenwerkzeug
- Verschieben von Datensätzen
- Datastream
-
Zielsetzungen:
- Erklären Sie die grundlegende Datenreplikations- und Migrationsarchitektur der Google Cloud.
- die Optionen und Anwendungsfälle für das gcloud-Befehlszeilentool zu verstehen.
- Erläutern Sie die Funktionalität und die Anwendungsfälle des Speicherübertragungsdienstes.
- Erläutern Sie die Funktionen und Anwendungsfälle der Transfer Appliance.
- Verstehen Sie die Funktionen und den Einsatz von Datastream.
-
Aktivitäten:
- Labor: Datastream: PostgreSQL-Replikation zu BigQuery (optional für ILT)
- Quiz
Modul 3 - Das Pipeline-Muster zum Extrahieren und Laden von Daten
-
Themen:
- Architektur extrahieren und laden
- Das bq-Befehlszeilenwerkzeug
- BigQuery-Datenübertragungsdienst
- BigLake
-
Zielsetzungen:
- Erläutern Sie das Diagramm der Grundlinienextraktion und -lastarchitektur. die Optionen des Befehlszeilenprogramms bq verstehen.
- Erläutern Sie die Funktionen und Anwendungsfälle für den BigQuery Data Transfer Service.
- Erläutern Sie die Funktionalität und die Anwendungsfälle für BigLake als Nicht-
- Extract-Load-Muster.
-
Aktivitäten:
- Labor: BigLake: Qwik Start
- Quiz
Modul 4 - Das Pipeline-Muster zum Extrahieren, Laden und Transformieren von Daten
-
Themen:
- Architektur zum Extrahieren, Laden und Umwandeln (ELT)
- SQL-Skripterstellung und Zeitplanung mit BigQuery
- Datenformular
-
Zielsetzungen:
- Erläutern Sie das Grundschema der Extraktions-, Lade- und Transformationsarchitektur.
- Verstehen Sie eine gängige ELT-Pipeline in der Google Cloud.
- Erfahren Sie mehr über die SQL-Skripterstellung und die Planungsfunktionen von
- BigQuery.
- Erläutern Sie die Funktionen und Anwendungsfälle von Dataform.
-
Aktivitäten:
- Übung: Erstellen und Ausführen eines SQL-Workflows in Dataform
- Quiz
Modul 5 - Das Pipeline-Muster zum Extrahieren, Transformieren und Laden von Daten
-
Themen:
- Architektur des Extrahierens, Transformierens und Ladens (ETL)
- Google Cloud GUI-Tools für ETL-Datenpipelines
- Batch-Datenverarbeitung mit Dataproc
- Optionen für die Verarbeitung von Streaming-Daten
- Bigtable und Datenpipelines
-
Zielsetzungen:
- Erläutern Sie das Grundschema der Extraktions-, Transformations- und Ladearchitektur.
- Lernen Sie die GUI-Tools von Google Cloud kennen, die für ETL-Datenpipelines verwendet werden.
- Erläutern Sie die Batch-Datenverarbeitung mit Dataproc.
- Erfahren Sie, wie Sie Dataproc Serverless for Spark für ETL verwenden können.
- Erläutern Sie die Möglichkeiten der Streaming-Datenverarbeitung.
- Erklären Sie, welche Rolle Bigtable in Datenpipelines spielt.
-
Aktivitäten:
- Übung: Verwenden von Dataproc Serverless for Spark zum Laden von BigQuery (optional für ILT)
- Übung: Erstellen einer Streaming-Datenpipeline für ein Echtzeit-Dashboard mit Dataflow
- Quiz
Modul 6 - Automation Techniques
-
Themen:
- Automatisierungsmuster und Optionen für Pipelines
- Cloud Scheduler und Arbeitsabläufe
- Cloud-Komponist
- Cloud Run-Funktionen
- Eventarc
-
Zielsetzungen:
- Erklären Sie die Automatisierungsmuster und -optionen, die für Pipelines verfügbar sind.
- Erfahren Sie mehr über Cloud Scheduler und Workflows.
- Erfahren Sie mehr über Cloud Composer.
- Lernen Sie die Funktionen von Cloud Run kennen.
- Erläutern Sie die Funktionalität und die Anwendungsfälle der Automatisierung von Eventarc.
-
Aktivitäten:
- Übung: Verwenden von Cloud Run Functions zum Laden von BigQuery (optional für ILT)
- Quiz