Kód kurzu: MOC 20775« Krok späť

Spracovanie veľkých dát pomocou Microsoft HD Insight

Kurz je určený pre dátových analytikov a špecialistov zodpovedných za spracovanie a analýzu veľkých objemov dát, ktorí chcú namiesto klasických relačných databáz využívať sadu technológií postavených na Apache Hadoop a jeho variante HDInsight hostovanej v Microsoft Azure. Na kurze sa dozviete ako nasadiť HDInsight cluster do Microsoft Azure a pomocou neho kompletne spracovávať veľké dáta, od ich načítania, cez uloženie a vykonávanie výpočtov. Súčasne sa tiež naučíte používať nielen Apache Hadoop, ale zoznámite sa aj s Apache Spark, Interactive Hive, Apache Phoenix, Microsoft Azure Stream Analytics, Apache Storm, Kafka a Apache HBase, čo vám poskytne ucelený prehľad o aktuálne dostupných technológiách pre spracovanie veľkých dát, vďaka ktorému budete schopní navrhovať vlastné riešenia.

 DátumDníCena kurzuCena príručkyJazyk výukyLokalita 
21. 10. 2019 5 1 050,00 EUR 270,00 EUR Slovenský jazyk GOPAS Bratislava
 
8. 7. 2019 5 36 350 CZK v cene kurzu Český jazyk GOPAS Brno
 
2. 9. 2019 5 36 350 CZK v cene kurzu Český jazyk GOPAS Praha
 
V prípade záujmu o iný termín uvedeného kurzu, kontaktujte klientsky servis, prosím.

PobočkaDníKatalógová cenaCena príručkyITB
Praha5 36 350 CZK v cene kurzu 50
Brno5 36 350 CZK v cene kurzu 50
Bratislava5 1 050,00 EUR 270,00 EUR 50

Používateľská náročnosť

Čo vás naučíme

  • Zoznámite sa s princípmi fungovania Apache Hadoop
  • Naučíte sa nasadiť Apache Hadoop a rad ďalších služieb v podobe HDInsight klastra do Microsoft Azure
  • Dozviete sa ako zabezpečiť a monitorovať HDInsight cluster
  • Zoznámite sa s implementáciou dávkových riešení na spracovanie dát pomocou Apache Hive a Pig
  • Naučíte sa implementovať dávkové ETL riešenie pomocou Apache Spark
  • Vyskúšate si spúšťať interaktívne otázky pomocou Interactive Hive a Apache Phoenix
  • Zistíte ako spracovávať udalosti v reálnom čase pomocou Azure Stream Analytics
  • Zoznámite sa s prúdovým spracovaním dát pomocou Apache Kafka a HBase a naučíte sa spracovávať dáta v reálnom čase pomocou Apache Storm
  • Vytvoríte si komplexný prehľad o používaných technológiách pre spracovanie veľkých dát a naučíte sa vybrať vhodné technológie pre vaše scenáre použitia

Pre koho je kurz určený

Kurz je cielený na dátových architektov zodpovedných za návrh systémov na spracovanie dát, ale aj pre dátových analytikov a špecialistov zodpovedných za spracovanie a analýzu dát.

Požadované vstupné znalosti

  • Základná znalosť bežných štatistických metód
  • Základná znalosť relačných databáz
  • Základná znalosť jazyka R a najčastejšie používaných knižníc

Metódy výučby

Odborný výklad s praktickými ukážkami, cvičenia na počítačoch.

Študijné materiály

Odporučená je originálna príručka spoločnosti Microsoft, ktorá nie je zahrnutá v cene kurzu. Príručka je v anglickom jazyku.

Osnova kurzu

  1. Úvod do Microsoft Azure HDInsight
    • Definícia pojmu Big Data a zoznámenie sa s výzvami pri ich spracovaní
    • Predstavenie princípov Apache Hadoop
    • Zoznámenie sa s princípom MapReduce
    • Predstavenie Microsoft Azure HDInsight
  2. Nasadenie HDInsight klastra
    • Vysvetlenie typov HDInsight klastrov
    • Vytvorenie a správa HDInsight klastra cez Azure portál
    • Vytvorenie a správa HDInsight klastra pomocou PowerShellu
    • Ukážka vytvorenia HDInsight klastra využívajúceho Azure Data Lake Storage
  3. Zabezpečenie klastra
    • Prehľad možností zabezpečenia HDInsight klastrov, ktoré nie sú pripojené do domény
    • Zoznámenie so zabezpečením HDInsight klastrov, ktoré sú pripojené do domény a ich správa
    • Ukážka správy zabezpečenia HDInsight klastra
    • Vytvorenie HDInsight klastra pripojeného do domény
  4. Načítanie dát do HDInsight klastra
    • Prehľad architektúry úložiska HDInsight klastra
    • Zoznámenie sa s možnosťami načítania dát do Azure Blob Storage a Azure Data Lake Storage pre následné spracovanie
    • Ukážka použitia nástrojov pre načítanie dát
    • Vysvetlenie kompresie a serializácie dát pre zrýchlenie ich spracovania
  5. Monitorovanie a odstránenie problémov s HDInsight klastrom
    • Možnosti analýzy logov HDInsight klastra
    • Analýza YARN logov
    • Monitorovanie zdrojov HDInsight klastra pomocou Operations Management Suite (OMS)
  6. Implementácia dávkových riešení
    • Zoznámenie sa s implementáciou dávkových riešení pomocou Apache Hive a Pig
    • Prehľad spôsobov spracovania veľkých dát v HDInsight
    • Zoznámenie s úložiskom dát Apache Hive
    • Dotazovanie na dáta v HDInsight klastra pomocou Apache Hive a Pig
    • Vysvetlenie ako využiť Microsoft Azure Data Factory a Apache Oozie pre automatizáciu procesu spracovania veľkých dát
  7. Návrh dávkových ETL riešenie s pomocou Apache Spark
    • Predstavenie Apache Spark a jeho kľúčových vlastností a funkcionalít
    • Vysvetlenie tvorby ETL riešení pomocou Apache Spark
    • Odporúčania pre zvýšenie výkonu Apache Spark
  8. Analýza dát pomocou Spark SQL
    • Zoznámenie sa s analýzou dát pomocou Spark SQL, vysvetlenie rozdielov medzi RDD, Dataset a Dataframe
    • Vysvetlenie rozdielov medzi iteratívnymi a interaktívnymi dotazmi
    • Dopytovanie sa na dáta za účelom ich prieskumu
    • Zoznámenie sa s Apache Zeppelin a Jupyter notebooks
  9. Analýza dát pomocou Hive a Phoenix
    • Zoznámenie sa so spúšťaním interaktívnych otázok pomocou Interactive Hive a Apache Phoenix
    • Ukážka prieskumu dát pomocou Hive
    • Implementácia interaktívneho spracovania dát pomocou Apache Phoenix
  10. Microsoft Azure Stream Analytics
    • Predstavenie služby Azure Stream Analytics a ukážka jej použitia pre spracovanie udalostí v reálnom čase
    • Porovnanie Azure Stream Analytics s možnosťami HDInsight klastra, najmä Apache Storm
    • Ukážka prepojenia Azure Stream Analytics a Azure Event Hub s cieľom načítania a spracovania dát v reálnom čase s nízkou latenciou
    • Správa bežiacich úloh v Azure Stream Analytics
  11. Implementácia prúdového spracovania dát pomocou Apache Kafka a HBase
    • Zoznámenie sa s technológiou Apache Kafka používanou pre spracovanie prúdov vstupných dát v reálnom čase
    • Nasadenie Apache Kafka klastra
    • Konzumácia, spracovanie a publikácia dát pomocou Apache Kafka klastra
    • Použitie Apache Kafka pre uloženie dát do HBase a ich následné dotazovanie
    • Ukážka vizualizácie živých dát v Power BI
  12. Vývoj riešení na spracovanie veľkých dát v reálnom čase pomocou Apache Storm
    • Zoznámenie sa s Apache Storm a jeho použitím pre spracovanie veľkých dát v reálnom čase
    • Možnosti dlhodobého uloženia dát
    • Konfigurácia Apache Storm, návrh topológie služby
    • Ukážka spracovania dát pomocou Apache Storm
  13. Tvorba Spark Streaming aplikácií
    • Predstavenie Spark Streaming, vysvetlenie konceptu discretized streams (DStreams)
    • Návrh a tvorba aplikácií využívajúcich Spark Streaming
    • Trvalé uloženie dát a tvorba vizualizácií

Predošlé kurzy

žiadne predošlé kurzy

Nasledujúce kurzy

žiadny nadväzujúci kurz
Elektronická příručka MOC 20775

Cena:
7850 CZK
Elektronická příručka MOC 20775

Cena:
270 EUR
Uvedené ceny sú bez DPH.