Agenda konferencji 2015

KONFERENCJA, 26 lutego 2015 r.
Courtyard by Marriott, Żwirki i Wigury 1, 00-906 Warszawa
 9.00 – 9.15 
 9.15 – 9.50 
Analiza bohatera czyli w jaki sposób King zarządza danymi
King to gwałtownie rozwijająca się firma z obszaru rozrywki cyfrowej. Ma ponad 350 milionów unikalnych użytkowników online w skali miesiąca i w związku z tym coraz bardziej wyrafinowane potrzeby analityczne.
Studium przypadku: budowa infrastruktury analitycznej, w przypadku której inspiracją była architektura Lambda – jak osiągnęliśmy odpowiednio dużą skalowalność, by obsłużyć ponad 100 milionów użytkowników dziennie. Wykorzystanie architektury analitycznej do prowadzenia analiz zachowań użytkowników w czasie rzeczywistym i offline.
(WIĘCEJ...)
 9.50 – 10.15 
Fakty kontra mity czyli Big Data w portalu internetowym
Business case – dlaczego w Interii pojawił się klaster Big Data i jakie problemy rozwiązał, a jakie … stworzył.
Technologie użyte do jego budowy i produkty uzyskane na ich bazie. W jaki sposób dane i analityka służą nam jako narzędzie do obiektywnej oceny sytuacji – i nierzadko weryfikują nasze stereotypowe myślenie. Rynek internetowy to obecnie jeden z najbardziej dynamicznych obszarów biznesowych. Wiedza o internaucie (kliencie portalu) jest ważnym czynnikiem budowania przewagi konkurencyjnej. Dane niestrukturalne, szybkozmienne (jak click stream), intensywnie przyrastający wolumen w połączeniu z technologią Hadoop to cechy definiujące systemy Big Data w Grupie Interia.
(WIĘCEJ...)
 10.15 – 10.50 
Panel dyskusyjny - Przyszłość technologii BigData *
Dokąd zmierza ewolucja rozwiązań Hadoopa i innych z ekosystemu BigData? Jak duże jest tempo zmian? Czy Open Source w BigData nadal będzie dominować? Udział wezmą m.in.:
Ewen StephanStephan Ewen, Data Artisan
Prowadzenie:
 10.50 – 11.15 
Przerwa kawowa

SESJE RÓWNOLEGŁE

GodzSESJA
Hadoop – Operations, Security, Governance
SESJA
Data Science
SESJA
Data Applications
11.15-11.45
Koniec z bałaganem w Hadoop-owym klastrze!

Właściwe zarządzanie danymi i harmonogramowanie procesów to wyzwania, które są często lekceważone
przez wiele firm, nawet tych dla których duże dane mają krytyczne znaczenie.
Na krótką metę takie podejście może ujść płazem, jednak w miarę wzrostu klastra chaos staję się być trudny do opanowania, klaster zaczyna przypominać stajnię Augiasza, a sam Sherlock Holmes nie jest w stanie rozwikłać zagadki, gdzie znajduje się poszukiwany zbiór danych i kto z niego korzysta.
Nawet jednak, gdy zdasz sobie sprawę z istnienia problemu, możesz nie dostrzec, że skuteczne rozwiązania znajdują się tak blisko. W czasie prezentacji, opowiemy o tym jak uprościliśmy zarządzanie danymi i procesami w klastrze Hadoop za pomocą pożytecznych, choć póki co jeszcze mniej znanych, narzędzi open-source. Przyjdź i przekonaj się jak Apache Falcon, HCatalog i kilka prostych technik pomogą Ci w utrzymaniu porządku na klastrze i sprawnym poruszaniu się wśród ogromu danych, procesów i związków między nimi.
(WIĘCEJ...)


Bajki z krainy danych czyli czy na pewno wiem, co tutaj robię?

Jednym z najbardziej fascynujących aspektów codziennej pracy na stanowisku Data Scientist jest odkrywanie tajemnic
kryjących się w danych. Czy jednak wyniki nie prowadzą nas czasami na manowce? Przemek Maciołek opowie jak efektywnie modelować typowe procesy biznesowe za pomocą R i jak omijać niektóre pułapki.
(WIĘCEJ...)


TEZ oznacza szybki

Wprowadzenie do elastycznego przetwarzania danych w Hadoop. Prezentacja ta stanowi wstępne omówienie frameworku
przetwarzania danych Apache TEZ - architektura, API, porównanie z podejściem w pradygmacie MapReduce. Będzie to również studium przypadku mało oczywistego zastosowania mechanizmu sesyjnego w TEZ.
(WIĘCEJ...)


11.45-11.50Q&AQ&AQ&A
11.50-12.20
Budujemy klaster Hadoopa

Zespół i organizacja pracy - usuwanie silosów. Architektura rozwiązania: na co zwracać uwagę (sprzęt, sieć). Serwery fizyczne:
automatyczna konfiguracja na przykładzie Cisco UCS. Serwery wirtualne: automatyczna instalacja serwerów RHEL. Automatyczna konfiguracja systemów na przykładzie BMC BladeLogic. Instalacja Hadoop z użyciem Ambari - Hortonworks HDP. Monitoring: integracja z wewnętrznymi systemami - od Nagios do OP. Bezpieczeństwo: wdrożenie Kerberosa oraz LDAP z użyciem IdM/IPA. Plany rozwojowe: integracja z Active Directory oraz komentarz na temat Rangera (centralne miejsce zarządzania uprawnieniami).
(WIĘCEJ...)


Data Discovery and Analytics *

Siloed data is difficult to access and causes data consumers to only have partial views of the problem at hand. By limiting access to large volumes of disparate data, analysts and business users alike don’t have the ability to included important data in their reports and models
leading to suboptimal analytic outputs. Even when this data is available to countless users, traditional systems limit them to querying small volumes of data in order to return the results in a timely matter. What are key challenges here - (1) Limited data accessible to the people that need it, (2) Long time to value, and (3) Compliance and privacy concerns when you add more users and more diverse data.

An EDH allows organizations to bring together multiple data sources in one common location unlocking the ability to query against large volumes of disparate data. This includes not only SQL queries but also simple search and 3rd party BI platforms. With an EDH, analysts are now able to discover net-new data sets to include in analyses, perform large scale queries, and in turn, discover innovative analytics that drive a more predictable business.
(WIĘCEJ...)


Apache Flink: Szybkie i niezawodne przetwarzanie danych na wielką skalę *

Apache Flink (w fazie inkubacji) jest jednym z ostatnich dodatków do rodziny silników przetwarzania danych Apache,
uzupełniając ecosystem silników wzorowanych na MapReduce i Spark. Jest równie szybki jak silniki działające w pamięci systemu, a jednocześnie równie niezawodny jak Hadoop. Kompatybilność z systemem Hadoop (działa na YARN, odczytuje dane z HDFS i HBase i obsługuje włączanie istniejących funkcjonalności Hadoop map i reduce do programów Flink). Flink z perspektywy użytkownika: API i najbardziej interesujące wzorce projektowe stojące za Flinkiem. Zarys planów rozwojowych Flinka.
(WIĘCEJ...)


12.20-12.25Q&AQ&AQ&A
12.25-12.55
Bezpieczeństwo Hadoopa w przykładach *

Prezentacja, której powinien wysłuchać każdy admin Hadoop-a odpowiedzialny za środowisko produkcyjne w przedsiębiorstwie:
Wiele projektów Hadoopowych zostaje wstrzymanych czy ograniczonych w skali z uwagi na braki po stronie bezpieczeństwa. Tymczasem wcale nie musi tak być - Hadoop może być bezpieczny! W trakcie prezentacji studium przypadku - jak wdrożyć politykę bezpieczeństwa zgodną z najbardziej restrekcyjnymi wymogami. Aspekty bezpieczeństwa - otoczenie, dostęp, szyfrowanie.
(WIĘCEJ...)


Od technologii w analizie danych z Internetu do modelowania

Od technologii w analizie danych z Internetu do modelowania
Omówienie procesu gromadzenia
danych oraz architektury w Grupie Wirtualna Polska.
Wykorzystanie technologii: Flume, Kafka, Hadoop, Hbase, Sqoop, Mahout i tak dalej.
Wkład tych technologii w budowę „martu danych” do analityki biznesowej. Format danych do efektywnego modelowania.
(WIĘCEJ...)


Zaawansowana analityka SAS i Hadoop - aspekty techniczne

Wyzwania związane z implementacją zaawansowanej analityki dla dużych danych – w jaki sposób oprogramowanie SAS
adresuje te zagadnienie Założenia i wysokopoziomowa architektura silnika analitycznego LASR Analytics Server, który dzięki wykorzystaniu rozproszonego środowiska obliczeniowego (klastera Hadoop) i modelu in-memory pozwala na zmierzenie się z wyzwaniami obliczeniowymi złożonych algorytmów analitycznych, gdy mamy mało czasu i dużo danych. W jaki sposób LASR współpracuje z Hadoop. Jak jego zalety mogą wykorzystać zarówno programiści Hadoop, Data Scientists, jak i osoby dla których Hadoop jest tylko workiem z danymi. Przykłady na żywo.
(WIĘCEJ...)


12.55-13.00Q&AQ&AQ&A
13.00–13.45
OBIAD
13.45-14.15
HBase w aspekcie ładowania dużych wolumenów i użycia pod predefiniowane wyszukiwania
Big Data czyli jak przestałem się martwić i pokochałem analizę komunikacji naukowej

Ludzie oprócz tweetów czy zdjęć publikują również artykuły naukowe. Na tej podstawie można odtworzyć i zrozumieć
mapę aktywności społeczności naukowej, korzystając z kilku prostych algorytmów uczenia maszynowego. Co się może w tej sytuacji udać, a co zaskoczyć? Jak dobrze podejść do podobnych zadań? Odpowiedzi na te pytania zdobyte w trakcie rozwoju projektu "COmmon Map of ACademia" (COMAC).
(WIĘCEJ...)


Analiza grafow w chmurze obliczeniowej

Wizualna analiza zależności w chmurze: modelowanie i analiza zależności poprzez zastosowanie wykresów może
przynieść firmie wartość dodaną. Potrzebujesz jednak do tego właściwych narzędzi. Tradycyjne narzędzia analityczne ogólnego zastosowania jak Hive, Pig czy generalnie MapReduce nie są odpowiednie do wizualnej analizy zależności poprzez wykresy. Na przestrzeni ostatnich lat wprowadzono na rynek szereg narzędzi służących konkretnie do tego rodzaju analiz. Przyjrzymy się łączącemu je wszystkie ogólnemu paradygmatowi programowania i możliwości jego wykorzystania w prezentacji analiz opartych na wykresach.
(WIĘCEJ...)


14.15-14.20Q&AQ&AQ&A
14.20-14.50
Ewolucja Hadoopa w Spotify: historia bolesnych zmagań i porażek *

Historia klastra Hadoop w Spotify - od kilku maszyn w biurowej szafie gromadzących dane na temat odegranych piosenek
do raportów finansowych, do naszego obecnego 900-węzłowego klastra w znaczący sposób wpływającego na wiele cech naszej aplikacji w jej aktualnym kształcie.
Dwaj członkowie zespołu Hadoopa w Spotify opowiedzą o porażkach, frustracjach i odebranych nauczkach, opisując przy tym architekturę Hadoopa/rozwiązania Big Data w Spotify i jej ewolucję na przestrzeni czasu. Wyjaśnimy, w jaki sposób i dlaczego wykorzystujemy szereg narzędzi (m.in. Apache Falcon i Apache Bigtop do testowania zmian; Apache Crunch, Scalding i Hive z Tez) w celu zbudowania kompleksowego rozwiązania i udostępnienia możliwości analitycznych (warto również wspomnieć o Snakebite i Luigi - dwóch narzędziach opracowanych wewnątrz firmy w celu rozwiązania często pojawiających się problemów).
(WIĘCEJ...)


Pytania, duże dane i szukanie odpowiedzi?

W jaki sposób zaplanować projekt analizy dużych danych i nim zarządzać? Odpowiedzią jest standard de facto:
Cross-Industry Standard Process for Data Mining (CRISP-DM). W trakcie prezentacji przedstawiona zostanie metodologia CRISP-DM oraz doświadczenia Ada Lab w pracy z nią
(WIĘCEJ...)


BigData w reklamie

Które z dobrodziejstw Big-Data można, a których nie można zastosować w dynamicznym środowisku reklam internetowych?
W jaki sposób optymalizować treści wyświetlane użytkownikom korzystając z danych w czasie rzeczywistym, przy ruchu przekraczającym 500 milionów wyświetleń dziennie i kiedy zamiast gotowego rozwiązania warto skupić się na własnym i zastąpić farmę serwerów jednym.
(WIĘCEJ...)


14.50-15.00Q&AQ&AQ&A
15.00-15.15
Przerwa kawowa
15.15-15.45
Zmierz się z pułapkami czyhającymi na tych, którzy mierzą się z magazynowaniem i przetwarzaniem danych w Hadoopie

Przed nami labirynt decyzji, które musimy podjąć, by przetwarzanie danych przebiegało gładko i bezproblemowo. Jak w przypadku
każdej łamigłówki, był to bardzo długi i nie zawsze idealnie działający proces - wielokrotnie gubiliśmy się w ślepych zaułkach i pozornych skrótach.
Kształt przechowywanych danych, w tym:
- struktura katalogu i jej wpływ na wydajność klastra Hadoop,
- istotność zadeklarowania schematu rekordu,
- wersjonowanie i aktualizacja rekordów, znane również pod nazwą zarządzania danymi historycznymi,
Proces kalkulacji:
- przyspiesz go, korzystając z odpowiednich struktur danych na każdym etapie,
- błędy są nieuniknione, więc łatwość powtórnej kalkulacji jest koniecznością,
- nieprawidłowe funkcjonowanie lub utrzymanie klastra wyzwala proces kalkulacji bez interwencji człowieka,
- projektuj z myślą o określonym przedziale czasowym, ale bądź również przygotowany na dane strumieniowe.
Bądź przykładem obywatelskiej postawy:
- niewielkie pliki i puste katalogi są źródłem problemów,
- dbaj o możliwie niewielkie rozmiary, stosując kompresję danych,
- szacuj popyt na zasoby YARN w oparciu o faktyczne potrzeby,
- pliki CSV są najmniej pożądane, ale nie są zabronione.

Niespodzianki w systemie Hadoop i gdzie się ich spodziewać. Doświadczenia z klasycznymi DBRMS-ami i aplikacjami jednoserwerowymi (w kontekście Hadoop narzucające się odpowiedzi są często błędne!):
- Zabijanie procesu Hive za pomocą prostego zapytania wybierającego,
- Ponowne próby, które przeciążają klaster,
- Niedeterministyczne miary wydajności MapReduce wykorzystujących te same dane,
- Ponowne wykorzystanie obiektów fazy redukcji MapReduce,
- Wydajność maszyny klienckiej może się czasem okazać wąskim gardłem.

Komentarz:
W przypadku każdego ze wspomnianych kłopotliwych aspektów przedstawię przykładowe rozwiązanie zastosowane lub przynajmniej ocenione w praktyce. Wspomniane wyżej problemy mogą się wydawać pesymistyczną i przytłaczającą wizją stosowania Hadoopa, ale to nieprawda. Praca z tym frameworkiem sprawia nam prawdziwą przyjemność, ale chciałbym opowiedzieć o ciemnej stronie implementacji technologii Big Data, ponieważ każdy prawdziwy sukces poprzedzają godziny ciężkiej pracy nad rozwiązaniem pojawiających się problemów. Będę przeszczęśliwy, jeśli przynajmniej części słuchaczy uda się uniknąć omówionych pułapek i z sukcesem wdrożyć ecosystem Hadoop.
(WIĘCEJ...)


Ile są warte dane? Tyle, ile w nich zobaczymy.

Aby podejmować lepsze decyzje w oparciu o dane, musimy te dane mieć i musimy je rozumieć. A jak ułatwić
zrozumienie historii ukrytej w oceanie liczb? Trzeba te liczby odpowiednio pokazać. Dobra wizualizacja danych prowadzi do istotnych odkryć, natomiast zła wizualizacja potrafi wyprowadzić na manowce. Zasady pozwalające na tworzenie dobrych prezentacji danych oraz praktyczne przykłady ich zastosowania.
(WIĘCEJ...)


Do czego wykorzystać ponad 200 mln. zdarzeń dziennie?

Wykorzystanie przetwarzania strumieniowego (STORM) do zaspokojenia potrzeb biznesu i developerów. Wszyscy chcą
otrzymywać informacje do podejmowania decyzji w jak najszybszym czasie, dlatego zdecydowaliśmy się przetwarzać strumień danych za pomocą Storm. Opowiemy Wam w jaki sposób zintegrowaliśmy się z istniejącymi rozwiązaniami oraz jakie informacje ułatwiają pracę redakcji i developerom, które ułatwiają im pracę każdego dnia.
(WIĘCEJ...)


15.45-15.50Q&AQ&AQ&A
15.50-16.20
Praktyczny podręcznik do rekomendacji na dużą skalę

W jaki sposób Allegro buduje swój system rekomendacji do dostarczania wartościowego kontentu:
Jakie problemy musieliśmy pokonać i jakie rozwiązania znaleźliśmy. Główne elementy składowe - Apache Spark, Hadoop z Cassandra i Elastic Search - i ich spoiwo, czyli funkcjonalny Scala Code.
(WIĘCEJ...)


Hadoop + Storm czyli kombo do budowy systemów big data działających w czasie rzeczywistym.

Każdy wie, że Hadoop jest potężny, ale zarazem powolny. Za to Strom wręcz przeciwnie - ograniczony na wiele sposobów,
za to bliski czasu rzeczywistego. Razem te dopełniające się systemy mogą być wykorzystane do stworzenia całej gamy produktów opartych na dużej ilości archiwalnych danych, jednocześnie uwzględniając nowe fakty w czasie rzeczywistym.
Studium przypadku jak zostało to zrobione w Base przy wykorzystaniu infrastruktury Amazona i jakie problemy udało się rozwiązać (a jakich nie) i które pułapki udało się im ominąć, a w które dali się złapać.
(WIĘCEJ...)


16.20-16.30Q&AQ&AQ&A
 16.30 – 16.45 
Przerwa kawowa
 16.45 – 17.15 
Przetwarzanie strumieniowe w BigData na potrzeby Internetu Rzeczy (IoT)
Mamy coraz więcej czujników i sensorów, coraz liczniejsze są różnorodne inteligentne sprzęty i urządzania, podłaczone do Internetu. Są one źródłem danych, których liczba i tempo powstawania lawinowo rośnie.
Stwarza to zupełnie nowe wyzwania i możliwości w świecie BigData. Co potrafi w tym kontekście Apache Kafka i Apache Samza? Jakie trudności rodzi przetwarzanie danych strumieniowych pochodzących z sensorów? Dlaczego są to inne wyzwania niż w przypadku tradycyjnych systemów internetowych?
(WIĘCEJ...)
 17.15 – 17.45 
Panel dyskusyjny - Rozwój profesjonalny dla speca od wielkich danych
Możliwe ścieżki kariery w Big Data i dostępne specjalizacje. Co trzeba potrafić. Światowy i krajowy rynek pracy dla specjalistów od technologii Big Data.
 17.45 – 17.55 
Losowanie nagród wśród uczestników i zakończenie konferencji
* Prezentacja prowadzona będzie w języku angielskim, organizatorzy nie przewidują tłumaczenia