Agenda warsztatów
Warsztaty organizowane są w terminie 24 lutego 2016 r.
Udział można wziąć w jednych z wybranych warsztatów.
WARSZTATY - "Wprowadzenie do technologii Big Data"
Big Data Workshop to jednodniowe praktyczne warsztaty skierowane do wszystkich tych, którzy pragną rozpocząć swoją przygodę technologiami ekosystemu Hadoop i okolic m.in. Hadoop, Hive, Spark, Kafka, HBase.
W czasie warsztatu wcielisz się w rolę analityka Big Data pracującego w fikcyjnej firmie StreamRockTM tworzącej aplikacja do słuchania muzyki (podobnej do Spotify). Twoim zadaniem będzie analiza różnorodnych danych o użytkownikach i odsłuchiwanych przez nich piosenkach wykorzystując w tym celu technologie Big Data np. Spark, Hive. Oprócz analiz batchowych, będziemy też przetwarzać strumieniowe dane w czasie rzeczywistym, tak aby natychmiastowo otrzymywać wyniki analiz.
Podczas warsztatu kładziemy główny nacisk na ćwiczenia praktyczne i dema. Wszystkie wykonywane zadania będą okazją i pretekstem do poznania najważniejszych technologii z ekosystemu Hadoop. Prowadzący warsztat instruktor podzieli się również praktycznym radami nabytymi podczas kilkuletniej pracy z Big Data. Wszystkie ćwiczenia praktyczne będą wykonywane na wielowęzłowym klastrze Hadoop zainstalowanym w publicznej chmurze.
UCZESTNICY
O ile szkolenie jest techniczne, wcześniejsze doświadczenie z Hadoop-em, technologiami Big Data oraz chmurą publiczną nie jest wymagane. Zapraszamy analityków, inżynierów, managerów oraz wszystkich, którzy są zainteresowani jak użyć Hadoop i powiązane z nimi technologie do gromadzenia, przechowywania i analizowania dużych ilości danych.
PRZYGOTOWANIE
Każdy uczestnik powinien przyjść z własnym laptopem, z którego będzie korzystał podczas wykonywania ćwiczeń. Laptop nie musi posiadać żadnego dedykowanego oprogramowania – wystarczy przeglądarka internetowa i terminal, tak żeby móc się połączyć z klastrem Hadoop w publicznej chmurze, na której będą wykonywane obliczenia.
MATERIAŁY I ĆWICZENIA
Wszyscy uczestnicy otrzymają materiały szkoleniowe w postaci plików PDF na które składają się slajdy zawierające zagadnienia teoretyczne i manual z opisem wykonywanych ćwiczeń. O ile w czasie warsztatów ćwiczenia będą wykonywanie na klastrze w chmurze, większość ćwiczeń będzie potem można odtworzyć na własnej wirtualnej maszynie (np. Hortonworks Sandbox lub Cloudera Quickstart).
CZAS TRWANIA
Warsztat trwa od 9:00 do 17:00. W czas trwania warsztatu wliczona jest godzinna przerwa na lunch i kilka 15-minutowych przerw kawowych.
Prowadzący warsztaty:
Maciej Arciuch
Senior Data Engineer, Grupa Allegro, GetInData
Maciej Arciuch
Starszy inżynier oprogramowania, Grupa Allegro
8.45 - 9.15
Powitalna kawa i poczęstunek
9.15 - 10.45
Część 1 - Zwięzłe wprowadzenie do ekosystemu Apache Hadoop
- Przedstawienie fikcyjnej firmy StreamRockTM i jej wyzwań Big Data
- Najważniejsze technologie ekosystemu Hadoop m.in. HDFS, YARN, Spark
10.45 - 11.00
Przerwa kawowa
11.00 - 12.30
Część 2 - Wykorzystanie klastra Hadoop do uruchamiania procesów ETL
- Zasilanie klastra danymi strukturalnymi (ćwiczenia)
- Zaimplementowanie procesów ETL do oczyszczenia danych przy użyciu Spark (ćwiczenia)
12.30 - 13.30
Przerwa obiadowa
13.30 - 15.00
Część 3 - Rozwiązywanie problemów biznesowych przy użyciu narzędzi ekosystemu Hadoop
- Wprowadzenie do Hive
- Ad hoc-owa analiza danych przy użyciu Hive i Spark SQL (ćwiczenia)
- Wizualizacja wyników
15.00 - 15.15
Przerwa kawowa
15.15 - 16.45
Część 4 - Możliwości oferowane przez inne narzędzia z ekosystemu Hadoop i okolic
- Harmonogramowanie zadań przy użyciu Oozie
- Natychmiastowe przesyłanie danych do klastra przy użyciu Kafka (w tym demo)
- Natychmiastowe przetwarzanie danych strumieniowych przy użyciu Spark Streaming (w tym demo)
- Szybkie odczyty i zapisy danych przy użyciu NoSQL-owej bazy danych HBase (w tym demo)
16.45 - 17.00
Przerwa kawowa
17.00 - 17.30
Część 5 - Podsumowanie i Q&A
- Big Data Jeopardy (teleturniej znany w Polsce jako Va Banque)
WARSZTATY - "Administracja klastrem Hadoop"
Hadoop Administration Workshop to jednodniowe praktyczne warsztaty skierowane do administratorów, inżynierów i architektów, którzy są zainteresowani zdobyciem wiedzy na temat administracji rozproszonych systemów z ekosystemu Apache Hadoop m.in. HDFS, YARN, Hive, Kafka, Spark.
W czasie warsztatu wcielisz się w rolę administratora, który otrzyma 7 instancji obliczeniowych na publicznej chmurze i Twoim zadaniem będzie zainstalować oraz poprawnie skonfigurować wielowęzłowy klaster Hadoop. Budowany przez Ciebie klaster poddamy różnym testom, które będą symulować duże obliczenia uruchomione przez użytkowników, a także awarie niektórych węzłów i procesów HDFS i YARN. Oprócz reagowania na alerty i prób naprawy klastra, będziesz wykonasz typowe czynności administracyjne związane z utrzymywaniem klastra np. zmiany konfiguracyjne, dodawanie kolejnych węzłów i usług.
Nasze warsztaty zapewniają uczestnikom odpowiednio przygotowany mix teorii, ćwiczeń, demo, dyskusji, quizów i… dobrej zabawy! Dokładamy wszelkich starań aby uczestnicy byli zaangażowani w prowadzone przez nas ćwiczenia, dyskusje oraz zadania wymagające pracy zespołowej.
Dla kogo?
Warsztat dedykowany jest dla administratorów, inżynierów, architektów oraz wszystkich tych, którzy są zainteresowani administrowaniem systemów Big Data.
Co jest potrzebne?
Uczestnikom wystarczy laptop z terminalem SSH oraz przeglądarką internetowa. O ile warsztaty są szkoleniem technicznym, o tyle nie wymagamy wcześniejszego doświadczenia w pracy z technologiami Big Data.
- Zasilanie klastra danymi strukturalnymi (ćwiczenia)
- Zaimplementowanie procesów ETL do oczyszczenia danych przy użyciu Spark (ćwiczenia)
Prowadzący warsztaty:
Piotr Bednarek
Administrator Hadoop, GetInData
Piotr Bednarek
Administrator Hadoop, GetInData
Krzysztof Adamski
Team Lead w zespole Hadoop w ING Services Polska, Konsultant w GetInData
Krzysztof Adamski
Data Infrastructure Architect, ING
PROGRAM WARSZTATÓW
08.45 - 09.15
Powitalna kawa i poczęstunek
Część 1 – Wprowadzenie do Hadoop
09.15 - 10.15
Zwięzłe wprowadzenie do HDFS i YARN (teoria)
10.15 - 10.30
Przerwa kawowa
10.30 - 11.30
Instalacja wielowęzłowego klastra Hadoop (ćwiczenia)
- Zainstalowanie podstawowych komponentów m.in. HDFS, YARN, Hive, Spark
11.30 - 11.50
Weryfikacja poprawności działania klastra Hadoop (ćwiczenia)
- Weryfikacja poprawności działania usług HDFS oraz YARN
11.50 - 12.20
Wprowadzenie do technologii Hive i Spark (teoria)
12.20 - 13.10
Przerwa obiadowa
13.10 - 13.40
Weryfikacja poprawności działania klastra - kontynuacja (ćwiczenia)
- Weryfikacja poprawności działania zapytań Hive i aplikacji Spark
Część 2 – Typowe czynności administracyjne związane z utrzymywaniem klastra
13.40 - 14.00
Omówienie ustawień konfiguracyjnych związanych z przydzielaniem zasobów w YARN (teoria)
14.00 - 14.10
Omówienie wbudowanych narzędzi do monitoringu klastra (teoria)
14.10 - 14.25
Przerwa kawowa
14.25 - 15.25
Zmiana wybranych ustawień konfiguracyjnych YARN oraz monitorowanie zużycia zasobów na klastrze (ćwiczenia)
- Tropienie wąskiego gardła i nieoptymalnej konfiguracji ograniczających wydajność klastra Hadoop
15.25 - 15.35
Omówienie wbudowanych narzędzi do wysyłania alertów (teoria)
15.35 - 15.55
Konfigurowanie i otrzymywanie notyfikacji o problemach na klastrze (ćwiczenia)
15.55 - 16.10
Przerwa kawowa
16.10 - 16.40
Wprowadzenie do Capacity Scheduler (teoria)
16.40 - 17.10
Skonfigurowanie kolejek i ACL w Capacity Scheduler (ćwiczenia)
Część 3 – Podsumowanie i Q&A
17.10 - 17.30
Posumowanie i Q&A
CZAS TRWANIA
1 dzień – 8 godzin zegarowych (w tym godzinna przerwa na lunch oraz cztery przerwy kawowe).
PROWADZĄCY
Warsztaty organizowane przez GetInData, są prowadzone przez szkoleniowców z wieloletnim doświadczeniem w obszarze Big Data.