Agenda warsztatów

Warsztaty organizowane są w terminie 24 lutego 2016 r.
Udział można wziąć w jednych z wybranych warsztatów.

WARSZTATY - "Wprowadzenie do technologii Big Data"

Big Data Workshop to jednodniowe praktyczne warsztaty skierowane do wszystkich tych, którzy pragną rozpocząć swoją przygodę technologiami ekosystemu Hadoop i okolic m.in. Hadoop, Hive, Spark, Kafka, HBase.

W czasie warsztatu wcielisz się w rolę analityka Big Data pracującego w fikcyjnej firmie StreamRockTM tworzącej aplikacja do słuchania muzyki (podobnej do Spotify). Twoim zadaniem będzie analiza różnorodnych danych o użytkownikach i odsłuchiwanych przez nich piosenkach wykorzystując w tym celu technologie Big Data np. Spark, Hive. Oprócz analiz batchowych, będziemy też przetwarzać strumieniowe dane w czasie rzeczywistym, tak aby natychmiastowo otrzymywać wyniki analiz.

Podczas warsztatu kładziemy główny nacisk na ćwiczenia praktyczne i dema. Wszystkie wykonywane zadania będą okazją i pretekstem do poznania najważniejszych technologii z ekosystemu Hadoop. Prowadzący warsztat instruktor podzieli się również praktycznym radami nabytymi podczas kilkuletniej pracy z Big Data. Wszystkie ćwiczenia praktyczne będą wykonywane na wielowęzłowym klastrze Hadoop zainstalowanym w publicznej chmurze.

UCZESTNICY

O ile szkolenie jest techniczne, wcześniejsze doświadczenie z Hadoop-em, technologiami Big Data oraz chmurą publiczną nie jest wymagane. Zapraszamy analityków, inżynierów, managerów oraz wszystkich, którzy są zainteresowani jak użyć Hadoop i powiązane z nimi technologie do gromadzenia, przechowywania i analizowania dużych ilości danych.

PRZYGOTOWANIE

Każdy uczestnik powinien przyjść z własnym laptopem, z którego będzie korzystał podczas wykonywania ćwiczeń. Laptop nie musi posiadać żadnego dedykowanego oprogramowania – wystarczy przeglądarka internetowa i terminal, tak żeby móc się połączyć z klastrem Hadoop w publicznej chmurze, na której będą wykonywane obliczenia.

MATERIAŁY I ĆWICZENIA

Wszyscy uczestnicy otrzymają materiały szkoleniowe w postaci plików PDF na które składają się slajdy zawierające zagadnienia teoretyczne i manual z opisem wykonywanych ćwiczeń. O ile w czasie warsztatów ćwiczenia będą wykonywanie na klastrze w chmurze, większość ćwiczeń będzie potem można odtworzyć na własnej wirtualnej maszynie (np. Hortonworks Sandbox lub Cloudera Quickstart).

CZAS TRWANIA

Warsztat trwa od 9:00 do 17:00. W czas trwania warsztatu wliczona jest godzinna przerwa na lunch i kilka 15-minutowych przerw kawowych.

Prowadzący warsztaty:

Adam Kawa

Data Engineer and Founder, GetInData

Adam Kawa

CEO and Co-founder, GetInData

Maciej Arciuch

Senior Data Engineer, Grupa Allegro, GetInData

Maciej Arciuch

Starszy inżynier oprogramowania, Grupa Allegro

8.45 - 9.15

Powitalna kawa i poczęstunek

9.15 - 10.45

Część 1 - Zwięzłe wprowadzenie do ekosystemu Apache Hadoop

  • Przedstawienie fikcyjnej firmy StreamRockTM i jej wyzwań Big Data
  • Najważniejsze technologie ekosystemu Hadoop m.in. HDFS, YARN, Spark

10.45 - 11.00

Przerwa kawowa

11.00 - 12.30

Część 2 - Wykorzystanie klastra Hadoop do uruchamiania procesów ETL

  • Zasilanie klastra danymi strukturalnymi (ćwiczenia)
  • Zaimplementowanie procesów ETL do oczyszczenia danych przy użyciu Spark (ćwiczenia)

12.30 - 13.30

Przerwa obiadowa

13.30 - 15.00

Część 3 - Rozwiązywanie problemów biznesowych przy użyciu narzędzi ekosystemu Hadoop

  • Wprowadzenie do Hive
  • Ad hoc-owa analiza danych przy użyciu Hive i Spark SQL (ćwiczenia)
  • Wizualizacja wyników

15.00 - 15.15

Przerwa kawowa

15.15 - 16.45

Część 4 - Możliwości oferowane przez inne narzędzia z ekosystemu Hadoop i okolic

  • Harmonogramowanie zadań przy użyciu Oozie
  • Natychmiastowe przesyłanie danych do klastra przy użyciu Kafka (w tym demo)
  • Natychmiastowe przetwarzanie danych strumieniowych przy użyciu Spark Streaming (w tym demo)
  • Szybkie odczyty i zapisy danych przy użyciu NoSQL-owej bazy danych HBase (w tym demo)

16.45 - 17.00

Przerwa kawowa

17.00 - 17.30

Część 5 - Podsumowanie i Q&A

  • Big Data Jeopardy (teleturniej znany w Polsce jako Va Banque)

WARSZTATY - "Administracja klastrem Hadoop"

Hadoop Administration Workshop to jednodniowe praktyczne warsztaty skierowane do administratorów, inżynierów i architektów, którzy są zainteresowani zdobyciem wiedzy na temat administracji rozproszonych systemów z ekosystemu Apache Hadoop m.in. HDFS, YARN, Hive, Kafka, Spark.

W czasie warsztatu wcielisz się w rolę administratora, który otrzyma 7 instancji obliczeniowych na publicznej chmurze i Twoim zadaniem będzie zainstalować oraz poprawnie skonfigurować wielowęzłowy klaster Hadoop. Budowany przez Ciebie klaster poddamy różnym testom, które będą symulować duże obliczenia uruchomione przez użytkowników, a także awarie niektórych węzłów i procesów HDFS i YARN. Oprócz reagowania na alerty i prób naprawy klastra, będziesz wykonasz typowe czynności administracyjne związane z utrzymywaniem klastra np. zmiany konfiguracyjne, dodawanie kolejnych węzłów i usług.

Nasze warsztaty zapewniają uczestnikom odpowiednio przygotowany mix teorii, ćwiczeń, demo, dyskusji, quizów i… dobrej zabawy! Dokładamy wszelkich starań aby uczestnicy byli zaangażowani w prowadzone przez nas ćwiczenia, dyskusje oraz zadania wymagające pracy zespołowej.

Dla kogo?

Warsztat dedykowany jest dla administratorów, inżynierów, architektów oraz wszystkich tych, którzy są zainteresowani administrowaniem systemów Big Data.

Co jest potrzebne?

Uczestnikom wystarczy laptop z terminalem SSH oraz przeglądarką internetowa. O ile warsztaty są szkoleniem technicznym, o tyle nie wymagamy wcześniejszego doświadczenia w pracy z technologiami Big Data.

  • Zasilanie klastra danymi strukturalnymi (ćwiczenia)
  • Zaimplementowanie procesów ETL do oczyszczenia danych przy użyciu Spark (ćwiczenia)

Prowadzący warsztaty:

Piotr Bednarek

Administrator Hadoop, GetInData

Piotr Bednarek

Administrator Hadoop, GetInData

Krzysztof Adamski

Team Lead w zespole Hadoop w ING Services Polska, Konsultant w GetInData

Krzysztof Adamski

Data Infrastructure Architect, ING

PROGRAM WARSZTATÓW

08.45 - 09.15

Powitalna kawa i poczęstunek

Część 1 – Wprowadzenie do Hadoop

09.15 - 10.15

Zwięzłe wprowadzenie do HDFS i YARN (teoria)

10.15 - 10.30

Przerwa kawowa

10.30 - 11.30

Instalacja wielowęzłowego klastra Hadoop (ćwiczenia)

  • Zainstalowanie podstawowych komponentów m.in. HDFS, YARN, Hive, Spark

11.30 - 11.50

Weryfikacja poprawności działania klastra Hadoop (ćwiczenia)

  • Weryfikacja poprawności działania usług HDFS oraz YARN

11.50 - 12.20

Wprowadzenie do technologii Hive i Spark (teoria)

12.20 - 13.10

Przerwa obiadowa

13.10 - 13.40

Weryfikacja poprawności działania klastra - kontynuacja (ćwiczenia)

  • Weryfikacja poprawności działania zapytań Hive i aplikacji Spark

Część 2 – Typowe czynności administracyjne związane z utrzymywaniem klastra

13.40 - 14.00

Omówienie ustawień konfiguracyjnych związanych z przydzielaniem zasobów w YARN (teoria)

14.00 - 14.10

Omówienie wbudowanych narzędzi do monitoringu klastra (teoria)

14.10 - 14.25

Przerwa kawowa

14.25 - 15.25

Zmiana wybranych ustawień konfiguracyjnych YARN oraz monitorowanie zużycia zasobów na klastrze (ćwiczenia)

  • Tropienie wąskiego gardła i nieoptymalnej konfiguracji ograniczających wydajność klastra Hadoop

15.25 - 15.35

Omówienie wbudowanych narzędzi do wysyłania alertów (teoria)

15.35 - 15.55

Konfigurowanie i otrzymywanie notyfikacji o problemach na klastrze (ćwiczenia)

15.55 - 16.10

Przerwa kawowa

16.10 - 16.40

Wprowadzenie do Capacity Scheduler (teoria)

16.40 - 17.10

Skonfigurowanie kolejek i ACL w Capacity Scheduler (ćwiczenia)

Część 3 – Podsumowanie i Q&A

17.10 - 17.30

Posumowanie i Q&A

CZAS TRWANIA

1 dzień – 8 godzin zegarowych (w tym godzinna przerwa na lunch oraz cztery przerwy kawowe).

PROWADZĄCY

Warsztaty organizowane przez GetInData, są prowadzone przez szkoleniowców z wieloletnim doświadczeniem w obszarze Big Data.