Školenie pre analýzu veľkých dát pomocou Apache Spark zahŕňa prehľad základných a pokročilých tém, praktické cvičenia a diskusie na posilnenie znalostí o analýze veľkých dát. Spark je výkonný nástroj na spracovanie veľkých dát, ktorý umožňuje [...]
  • PYTHON_DATAN3
  • Dĺžka 5 dní
  • 50 ITK bodov
  • 6 termínov
  • SR (1 150 €)

    ČR (26 500 Kč)

  • Mierne pokročilý

Školenie pre analýzu veľkých dát pomocou Apache Spark zahŕňa prehľad základných a pokročilých tém, praktické cvičenia a diskusie na posilnenie znalostí o analýze veľkých dát. Spark je výkonný nástroj na spracovanie veľkých dát, ktorý umožňuje rýchle vykonávanie analýz a podporuje rôzne úlohy, vrátane dávkového spracovania, streamovania, interaktívnych dotazov a strojového učenia.

»
  • Data Scientist, dátoví analytici, najmä v Big Data prostredí sú primárnymi poslucháčmi tohto intenzívneho kurzu
  • Softvéroví vývojári, ktorí ovládajú jazyk Python aspoň na strednej až pokročilej úrovni a ktorí majú za cieľ vytvárať data-intenzívne aplikácie pomocou enginu SPARK v prostredí Big Data (Cloud)
  • Dátoví architekti

Úvod do Apache Spark a jeho ekosystému

  • Úvod do veľkých dát a ich význam
  • Prehľad ekosystému Apache Spark a jeho porovnanie s inými technológiami veľkých dát
  • Inštalácia a konfigurácia Apache Spark a príprava vývojového prostredia
  • Základy RDD (Resilient Distributed Dataset) a jeho operácie
  • Praktické cvičenie: Vytvorenie prvej Spark aplikácie s využitím RDD
  • Diskusia o výhodách a nevýhodách RDD
  • Úvod do Datasetov a DataFrames pre efektívnejšiu prácu s dátami

Pokročilé spracovanie dát s Apache Spark

  • Podrobný pohľad na DataFrames a operácie s nimi
  • SQL dotazy v Spark a práca so Spark SQL
  • Praktické cvičenie: Transformácia dát a agregácia pomocou Spark SQL a DataFrames
  • Úvod do spracovania prúdových dát s Apache Spark Streaming
  • Praktické cvičenie: Jednoduchá prúdová aplikácia

Strojové učenie a pokročilá analýza dát v Spark

  • Prehľad MLlib (Machine Learning Library) v Sparku
  • Vytváranie a hodnotenie modelov strojového učenia
  • Praktické cvičenie: Klasifikácia, regresia a zhlukovanie s MLlib
  • Integrácia Sparku s inými úložiskami dát (napr. HDFS, Amazon S3)

Optimalizácia a ladenie výkonu Spark aplikácií

  • Monitorovanie a ladenie Spark aplikácií
  • Práca so Spark UI pre analýzu výkonu aplikácií
  • Optimalizácia výkonu pomocou particionovania a perzistencie
  • Praktické tipy a triky pre efektívne spracovanie veľkých dát

Škálovateľnosť a nasadenie Spark aplikácií

  • Architektúra Spark clustera a jeho konfigurácia
  • Škálovanie Spark aplikácií vertikálne a horizontálne
  • Nasadenie Spark aplikácií v produkčnom prostredí
  • Najlepšie postupy pre prácu s Apache Spark
  • Záverečná diskusia, odpovede na otázky a spätná väzba od účastníkov
Aktuálna ponuka
Školiace miesto
Jazyk kurzu

Uvedené ceny sú bez DPH.

Školenie na mieru

Nenašli ste vhodný termín, alebo chcete školenie prispôsobiť špecifickým potrebám vášho tímu? Radi pre vás pripravíme školenie na mieru.