Pokročilý Data Engineering v Microsoft Fabric

GOC681
Dĺžka 3 dni
30 ITK bodov
2 termíny
SR (1 250 €)

ČR (29 600 Kč)

Pokročilé školenie určené pre dátových profesionálov, ktorí chcú zvládnuť moderný data engineering v Microsoft Fabric so zameraním na praktickú prácu v Pythone a PySparku. Väčšinu času strávite písaním kódu v Notebooks - budete implementovať dátové transformácie pomocou Pythonu (Polars, DuckDB) alebo PySparku, automatizovať ETL procesy a pracovať s pokročilými technikami spracovania dát v distribuovanom prostredí. Naučíte sa navrhovať a implementovať medallion architektúru v Lakehouse prostredí. Preskúmate rôzne metódy získavania dát - od Dataflows Gen2 cez orchestračné Pipelines až po vlastný kód v Notebooks. Osvojíte si ukladanie dát, pochopíte rozdiely medzi dátovými skladmi a Lakehouses, ich dotazovanie a pokročilé komponenty, ako sú stored procedures, functions či data masking. Automatizácia a orchestrácia dátových workflow pomocou Pipelines vás naučí koordinovať komplexné procesy a integrovať jednotlivé vrstvy medallion architektúry. Zameriate sa na optimalizáciu výkonu - partitioning, kompresiu dát a optimalizáciu Spark jobov. Naučíte sa monitorovať Fabric kapacity a vyhodnocovať efektivitu spracovania. Prakticky si vyskúšate verzovanie kódu a nasadzovanie zmien pomocou Git integrácie a deployment pipelines. Toto školenie spolu so školením Pokročilé techniky dátovej analýzy a reportingu v Microsoft Fabric [GOC682] tvorí kompletnú prípravu na certifikačnú skúšku DP-600: Fabric Analytics Engineer Associate.

Navrhovať a implementovať medallion architektúru v Microsoft Fabric v prostredí Lakehouse
Implementovať dátovú logiku a transformácie pomocou Pythonu (Polars, DuckDB) a PySparku v Notebooks
Pracovať s rôznymi metódami načítavania dát – Dataflows Gen2, Pipelines a vlastný kód
Kopírovať a opätovne využívať dáta v rámci OneLake
Profilovať, čistiť a transformovať dáta pomocou kódu v rôznych praktických scenároch
Pracovať s Lakehouse a Data Warehouse vrátane zabezpečenia dát
Automatizovať a orchestrovať dátové workflow pomocou Pipelines
Optimalizovať výkon (partitioning, kompresia, optimalizácia Spark jobov)
Verzovať kód a nasadzovať zmeny pomocou Git integrácie a deployment pipelines

Kurz je určený predovšetkým pre dátových inžinierov a vývojárov, ktorí chcú pracovať s Microsoft Fabric na úrovni kódu a navrhovať, implementovať a prevádzkovať dátové riešenia v produkčnom prostredí. Kurz je vhodný aj pre pokročilých analytikov a dátových architektov, ktorí majú skúsenosť s Pythonom a chcú sa posunúť smerom k data engineeringu a práci v distribuovanom prostredí.

Základná znalosť prostredia Microsoft Fabric aspoň v rozsahu kurzu GOC680
Znalosť Pythonu (pandas, list comprehensions, funkcie, error handling) a PySparku aspoň v rozsahu kurzu GOC685
Základná znalosť relačných databáz a jazyka SQL
Základná skúsenosť s data warehouses alebo data lakes
Pochopenie konceptov extrakcie, načítavania, profilovania a transformácie dát
Skúsenosť s nástrojmi na dátovú analýzu a integráciu dát (ETL procesy, data pipelines)
Znalosť verzovania a Git integrácie je výhodou

1. Nastavenie prostredia a základné princípy

Medallion architektúra – princípy a komponenty
- Lakehouse, Data Warehouse, analytické enginy, sémantické vrstvy
- Nastavenie tenantu, voľba kapacity, dopady na výkon a cenu

2. Načítavanie a kopírovanie dát

Metódy načítavania dát
- Dataflows Gen2
- Pipelines
- Vlastný ingest pomocou Python / PySpark v Notebooks
Kopírovanie a opätovné použitie dát v OneLake
- Shortcuts
- Rozhodovacia metodika a architektonické dopady
- Praktická implementácia

3. Data profiling, čistenie a transformácia

Data profiling
- Princípy a metódy
- Implementácia v Pythone / PySparku (Notebooks)
Čistenie a transformácia dát
- Návrh čistiacich mechanizmov na základe profilovania
- Transformácia dát pomocou kódu
- Slowly Changing Dimensions a pokročilé scenáre

4. Ukladanie dát

Lakehouse vs. Data Warehouse – rozdiely a použitie
Dotazovanie nad dátami
- SQL dotazy
- Dotazovanie nad Lakehouse a Warehouse
Pokročilé komponenty
- Stored procedures, functions, role, schémy
- RLS, CLS, data masking

5. Automatizácia

Orchestračné Pipelines
- Koordinácia a závislosti
- Integrácia notebookov, dataflows a SQL objektov
Orchestrácia notebookov
- Riadenie nadväzujúcich krokov v Pythone / PySparku
- Fail-over a error handling

6. Monitoring a optimalizácia

Optimalizácia výkonu Spark workloadov
Partitioning, kompresia, V-order, vacuuming
Monitoring Fabric kapacít a efektivity spracovania

7. Verzovanie a nasadzovanie zmien

Git integrácia
Deployment pipelines

Stiahnuť PDF detail
Stiahnuť PDF detail (bez termínov)

Uvedené ceny sú bez DPH.

Školenie na mieru

Nenašli ste vhodný termín, alebo chcete školenie prispôsobiť špecifickým potrebám vášho tímu? Radi pre vás pripravíme školenie na mieru.

Pokročilý Data Engineering v Microsoft Fabric

1. Nastavenie prostredia a základné princípy

2. Načítavanie a kopírovanie dát

3. Data profiling, čistenie a transformácia

4. Ukladanie dát

5. Automatizácia

6. Monitoring a optimalizácia

7. Verzovanie a nasadzovanie zmien

GOPAS Bratislava

GOPAS Brno

GOPAS Praha

Obchodné údaje

Pokročilý Data Engineering v Microsoft Fabric

1. Nastavenie prostredia a základné princípy

2. Načítavanie a kopírovanie dát

3. Data profiling, čistenie a transformácia

4. Ukladanie dát

5. Automatizácia

6. Monitoring a optimalizácia

7. Verzovanie a nasadzovanie zmien

Predošlé kurzy

GOPAS Bratislava

GOPAS Brno

GOPAS Praha

Obchodné údaje