KONFERENCJA, 26 lutego 2015 r.
Courtyard by Marriott, Żwirki i Wigury 1, 00-906 Warszawa
Otwarcie konferencji
Analiza bohatera czyli w jaki sposób King zarządza danymi
King to gwałtownie rozwijająca się firma z obszaru rozrywki cyfrowej. Ma ponad 350 milionów unikalnych użytkowników online w skali miesiąca i w związku z tym coraz bardziej wyrafinowane potrzeby analityczne.
Studium przypadku: budowa infrastruktury analitycznej, w przypadku której inspiracją była architektura Lambda – jak osiągnęliśmy odpowiednio dużą skalowalność, by obsłużyć ponad 100 milionów użytkowników dziennie. Wykorzystanie architektury analitycznej do prowadzenia analiz zachowań użytkowników w czasie rzeczywistym i offline.
(WIĘCEJ...)
Fakty kontra mity czyli Big Data w portalu internetowym
Business case – dlaczego w Interii pojawił się klaster Big Data i jakie problemy rozwiązał, a jakie … stworzył.
Technologie użyte do jego budowy i produkty uzyskane na ich bazie. W jaki sposób dane i analityka służą nam jako narzędzie do obiektywnej oceny sytuacji – i nierzadko weryfikują nasze stereotypowe myślenie.
Rynek internetowy to obecnie jeden z najbardziej dynamicznych obszarów biznesowych. Wiedza o internaucie (kliencie portalu) jest ważnym czynnikiem budowania przewagi konkurencyjnej. Dane niestrukturalne, szybkozmienne (jak click stream), intensywnie przyrastający wolumen w połączeniu z technologią Hadoop to cechy definiujące systemy Big Data w Grupie Interia.
(WIĘCEJ...)
Panel dyskusyjny - Przyszłość technologii BigData *
Dokąd zmierza ewolucja rozwiązań Hadoopa i innych z ekosystemu BigData? Jak duże jest tempo zmian? Czy Open Source w BigData nadal będzie dominować?
Udział wezmą m.in.:
Stephan Ewen, Data Artisan
Prowadzenie:
Przerwa kawowa
SESJE RÓWNOLEGŁE
Godz | SESJA Hadoop – Operations, Security, Governance | SESJA Data Science | SESJA Data Applications |
11.15-11.45 | Koniec z bałaganem w Hadoop-owym klastrze! Właściwe zarządzanie danymi i harmonogramowanie procesów to wyzwania, które są często lekceważone przez wiele firm, nawet tych dla których duże dane mają krytyczne znaczenie. (WIĘCEJ...)Na krótką metę takie podejście może ujść płazem, jednak w miarę wzrostu klastra chaos staję się być trudny do opanowania, klaster zaczyna przypominać stajnię Augiasza, a sam Sherlock Holmes nie jest w stanie rozwikłać zagadki, gdzie znajduje się poszukiwany zbiór danych i kto z niego korzysta. Nawet jednak, gdy zdasz sobie sprawę z istnienia problemu, możesz nie dostrzec, że skuteczne rozwiązania znajdują się tak blisko. W czasie prezentacji, opowiemy o tym jak uprościliśmy zarządzanie danymi i procesami w klastrze Hadoop za pomocą pożytecznych, choć póki co jeszcze mniej znanych, narzędzi open-source. Przyjdź i przekonaj się jak Apache Falcon, HCatalog i kilka prostych technik pomogą Ci w utrzymaniu porządku na klastrze i sprawnym poruszaniu się wśród ogromu danych, procesów i związków między nimi. | Bajki z krainy danych czyli czy na pewno wiem, co tutaj robię? Jednym z najbardziej fascynujących aspektów codziennej pracy na stanowisku Data Scientist jest odkrywanie tajemnic kryjących się w danych. Czy jednak wyniki nie prowadzą nas czasami na manowce? Przemek Maciołek opowie jak efektywnie modelować typowe procesy biznesowe za pomocą R i jak omijać niektóre pułapki. (WIĘCEJ...) | TEZ oznacza szybki Wprowadzenie do elastycznego przetwarzania danych w Hadoop. Prezentacja ta stanowi wstępne omówienie frameworku przetwarzania danych Apache TEZ - architektura, API, porównanie z podejściem w pradygmacie MapReduce. Będzie to również studium przypadku mało oczywistego zastosowania mechanizmu sesyjnego w TEZ. (WIĘCEJ...) |
11.45-11.50 | Q&A | Q&A | Q&A |
11.50-12.20 | Budujemy klaster Hadoopa Zespół i organizacja pracy - usuwanie silosów. Architektura rozwiązania: na co zwracać uwagę (sprzęt, sieć). Serwery fizyczne: automatyczna konfiguracja na przykładzie Cisco UCS. Serwery wirtualne: automatyczna instalacja serwerów RHEL. Automatyczna konfiguracja systemów na przykładzie BMC BladeLogic. Instalacja Hadoop z użyciem Ambari - Hortonworks HDP. Monitoring: integracja z wewnętrznymi systemami - od Nagios do OP. Bezpieczeństwo: wdrożenie Kerberosa oraz LDAP z użyciem IdM/IPA. Plany rozwojowe: integracja z Active Directory oraz komentarz na temat Rangera (centralne miejsce zarządzania uprawnieniami). (WIĘCEJ...) | Data Discovery and Analytics * Siloed data is difficult to access and causes data consumers to only have partial views of the problem at hand. By limiting access to large volumes of disparate data, analysts and business users alike don’t have the ability to included important data in their reports and models leading to suboptimal analytic outputs. Even when this data is available to countless users, traditional systems limit them to querying small volumes of data in order to return the results in a timely matter. What are key challenges here - (1) Limited data accessible to the people that need it, (2) Long time to value, and (3) Compliance and privacy concerns when you add more users and more diverse data. (WIĘCEJ...)An EDH allows organizations to bring together multiple data sources in one common location unlocking the ability to query against large volumes of disparate data. This includes not only SQL queries but also simple search and 3rd party BI platforms. With an EDH, analysts are now able to discover net-new data sets to include in analyses, perform large scale queries, and in turn, discover innovative analytics that drive a more predictable business. | Apache Flink: Szybkie i niezawodne przetwarzanie danych na wielką skalę * Apache Flink (w fazie inkubacji) jest jednym z ostatnich dodatków do rodziny silników przetwarzania danych Apache, uzupełniając ecosystem silników wzorowanych na MapReduce i Spark. Jest równie szybki jak silniki działające w pamięci systemu, a jednocześnie równie niezawodny jak Hadoop. Kompatybilność z systemem Hadoop (działa na YARN, odczytuje dane z HDFS i HBase i obsługuje włączanie istniejących funkcjonalności Hadoop map i reduce do programów Flink). Flink z perspektywy użytkownika: API i najbardziej interesujące wzorce projektowe stojące za Flinkiem. Zarys planów rozwojowych Flinka. (WIĘCEJ...) |
12.20-12.25 | Q&A | Q&A | Q&A |
12.25-12.55 | Bezpieczeństwo Hadoopa w przykładach * Prezentacja, której powinien wysłuchać każdy admin Hadoop-a odpowiedzialny za środowisko produkcyjne w przedsiębiorstwie: Wiele projektów Hadoopowych zostaje wstrzymanych czy ograniczonych w skali z uwagi na braki po stronie bezpieczeństwa. Tymczasem wcale nie musi tak być - Hadoop może być bezpieczny! W trakcie prezentacji studium przypadku - jak wdrożyć politykę bezpieczeństwa zgodną z najbardziej restrekcyjnymi wymogami. Aspekty bezpieczeństwa - otoczenie, dostęp, szyfrowanie. (WIĘCEJ...) | Od technologii w analizie danych z Internetu do modelowania Od technologii w analizie danych z Internetu do modelowania Omówienie procesu gromadzenia danych oraz architektury w Grupie Wirtualna Polska. (WIĘCEJ...)Wykorzystanie technologii: Flume, Kafka, Hadoop, Hbase, Sqoop, Mahout i tak dalej. Wkład tych technologii w budowę „martu danych” do analityki biznesowej. Format danych do efektywnego modelowania. | Zaawansowana analityka SAS i Hadoop - aspekty techniczne Wyzwania związane z implementacją zaawansowanej analityki dla dużych danych – w jaki sposób oprogramowanie SAS adresuje te zagadnienie Założenia i wysokopoziomowa architektura silnika analitycznego LASR Analytics Server, który dzięki wykorzystaniu rozproszonego środowiska obliczeniowego (klastera Hadoop) i modelu in-memory pozwala na zmierzenie się z wyzwaniami obliczeniowymi złożonych algorytmów analitycznych, gdy mamy mało czasu i dużo danych. W jaki sposób LASR współpracuje z Hadoop. Jak jego zalety mogą wykorzystać zarówno programiści Hadoop, Data Scientists, jak i osoby dla których Hadoop jest tylko workiem z danymi. Przykłady na żywo. (WIĘCEJ...) |
12.55-13.00 | Q&A | Q&A | Q&A |
13.00–13.45 | OBIAD |
||
13.45-14.15 | HBase w aspekcie ładowania dużych wolumenów i użycia pod predefiniowane wyszukiwania | Big Data czyli jak przestałem się martwić i pokochałem analizę komunikacji naukowej Ludzie oprócz tweetów czy zdjęć publikują również artykuły naukowe. Na tej podstawie można odtworzyć i zrozumieć mapę aktywności społeczności naukowej, korzystając z kilku prostych algorytmów uczenia maszynowego. Co się może w tej sytuacji udać, a co zaskoczyć? Jak dobrze podejść do podobnych zadań? Odpowiedzi na te pytania zdobyte w trakcie rozwoju projektu "COmmon Map of ACademia" (COMAC). (WIĘCEJ...) | Analiza grafow w chmurze obliczeniowej Wizualna analiza zależności w chmurze: modelowanie i analiza zależności poprzez zastosowanie wykresów może przynieść firmie wartość dodaną. Potrzebujesz jednak do tego właściwych narzędzi. Tradycyjne narzędzia analityczne ogólnego zastosowania jak Hive, Pig czy generalnie MapReduce nie są odpowiednie do wizualnej analizy zależności poprzez wykresy. Na przestrzeni ostatnich lat wprowadzono na rynek szereg narzędzi służących konkretnie do tego rodzaju analiz. Przyjrzymy się łączącemu je wszystkie ogólnemu paradygmatowi programowania i możliwości jego wykorzystania w prezentacji analiz opartych na wykresach. (WIĘCEJ...) |
14.15-14.20 | Q&A | Q&A | Q&A |
14.20-14.50 | Ewolucja Hadoopa w Spotify: historia bolesnych zmagań i porażek * Historia klastra Hadoop w Spotify - od kilku maszyn w biurowej szafie gromadzących dane na temat odegranych piosenek do raportów finansowych, do naszego obecnego 900-węzłowego klastra w znaczący sposób wpływającego na wiele cech naszej aplikacji w jej aktualnym kształcie. (WIĘCEJ...)Dwaj członkowie zespołu Hadoopa w Spotify opowiedzą o porażkach, frustracjach i odebranych nauczkach, opisując przy tym architekturę Hadoopa/rozwiązania Big Data w Spotify i jej ewolucję na przestrzeni czasu. Wyjaśnimy, w jaki sposób i dlaczego wykorzystujemy szereg narzędzi (m.in. Apache Falcon i Apache Bigtop do testowania zmian; Apache Crunch, Scalding i Hive z Tez) w celu zbudowania kompleksowego rozwiązania i udostępnienia możliwości analitycznych (warto również wspomnieć o Snakebite i Luigi - dwóch narzędziach opracowanych wewnątrz firmy w celu rozwiązania często pojawiających się problemów). | Pytania, duże dane i szukanie odpowiedzi? W jaki sposób zaplanować projekt analizy dużych danych i nim zarządzać? Odpowiedzią jest standard de facto: Cross-Industry Standard Process for Data Mining (CRISP-DM). W trakcie prezentacji przedstawiona zostanie metodologia CRISP-DM oraz doświadczenia Ada Lab w pracy z nią (WIĘCEJ...) | BigData w reklamie Które z dobrodziejstw Big-Data można, a których nie można zastosować w dynamicznym środowisku reklam internetowych? W jaki sposób optymalizować treści wyświetlane użytkownikom korzystając z danych w czasie rzeczywistym, przy ruchu przekraczającym 500 milionów wyświetleń dziennie i kiedy zamiast gotowego rozwiązania warto skupić się na własnym i zastąpić farmę serwerów jednym. (WIĘCEJ...) |
14.50-15.00 | Q&A | Q&A | Q&A |
15.00-15.15 | Przerwa kawowa |
||
15.15-15.45 | Zmierz się z pułapkami czyhającymi na tych, którzy mierzą się z magazynowaniem i przetwarzaniem danych w Hadoopie Przed nami labirynt decyzji, które musimy podjąć, by przetwarzanie danych przebiegało gładko i bezproblemowo. Jak w przypadku każdej łamigłówki, był to bardzo długi i nie zawsze idealnie działający proces - wielokrotnie gubiliśmy się w ślepych zaułkach i pozornych skrótach. (WIĘCEJ...)Kształt przechowywanych danych, w tym: - struktura katalogu i jej wpływ na wydajność klastra Hadoop, - istotność zadeklarowania schematu rekordu, - wersjonowanie i aktualizacja rekordów, znane również pod nazwą zarządzania danymi historycznymi, Proces kalkulacji: - przyspiesz go, korzystając z odpowiednich struktur danych na każdym etapie, - błędy są nieuniknione, więc łatwość powtórnej kalkulacji jest koniecznością, - nieprawidłowe funkcjonowanie lub utrzymanie klastra wyzwala proces kalkulacji bez interwencji człowieka, - projektuj z myślą o określonym przedziale czasowym, ale bądź również przygotowany na dane strumieniowe. Bądź przykładem obywatelskiej postawy: - niewielkie pliki i puste katalogi są źródłem problemów, - dbaj o możliwie niewielkie rozmiary, stosując kompresję danych, - szacuj popyt na zasoby YARN w oparciu o faktyczne potrzeby, - pliki CSV są najmniej pożądane, ale nie są zabronione. Niespodzianki w systemie Hadoop i gdzie się ich spodziewać. Doświadczenia z klasycznymi DBRMS-ami i aplikacjami jednoserwerowymi (w kontekście Hadoop narzucające się odpowiedzi są często błędne!): - Zabijanie procesu Hive za pomocą prostego zapytania wybierającego, - Ponowne próby, które przeciążają klaster, - Niedeterministyczne miary wydajności MapReduce wykorzystujących te same dane, - Ponowne wykorzystanie obiektów fazy redukcji MapReduce, - Wydajność maszyny klienckiej może się czasem okazać wąskim gardłem. Komentarz: W przypadku każdego ze wspomnianych kłopotliwych aspektów przedstawię przykładowe rozwiązanie zastosowane lub przynajmniej ocenione w praktyce. Wspomniane wyżej problemy mogą się wydawać pesymistyczną i przytłaczającą wizją stosowania Hadoopa, ale to nieprawda. Praca z tym frameworkiem sprawia nam prawdziwą przyjemność, ale chciałbym opowiedzieć o ciemnej stronie implementacji technologii Big Data, ponieważ każdy prawdziwy sukces poprzedzają godziny ciężkiej pracy nad rozwiązaniem pojawiających się problemów. Będę przeszczęśliwy, jeśli przynajmniej części słuchaczy uda się uniknąć omówionych pułapek i z sukcesem wdrożyć ecosystem Hadoop. | Ile są warte dane? Tyle, ile w nich zobaczymy. Aby podejmować lepsze decyzje w oparciu o dane, musimy te dane mieć i musimy je rozumieć. A jak ułatwić zrozumienie historii ukrytej w oceanie liczb? Trzeba te liczby odpowiednio pokazać. Dobra wizualizacja danych prowadzi do istotnych odkryć, natomiast zła wizualizacja potrafi wyprowadzić na manowce. Zasady pozwalające na tworzenie dobrych prezentacji danych oraz praktyczne przykłady ich zastosowania. (WIĘCEJ...) | Do czego wykorzystać ponad 200 mln. zdarzeń dziennie? Wykorzystanie przetwarzania strumieniowego (STORM) do zaspokojenia potrzeb biznesu i developerów. Wszyscy chcą otrzymywać informacje do podejmowania decyzji w jak najszybszym czasie, dlatego zdecydowaliśmy się przetwarzać strumień danych za pomocą Storm. Opowiemy Wam w jaki sposób zintegrowaliśmy się z istniejącymi rozwiązaniami oraz jakie informacje ułatwiają pracę redakcji i developerom, które ułatwiają im pracę każdego dnia. (WIĘCEJ...) |
15.45-15.50 | Q&A | Q&A | Q&A |
15.50-16.20 | Praktyczny podręcznik do rekomendacji na dużą skalę W jaki sposób Allegro buduje swój system rekomendacji do dostarczania wartościowego kontentu: Jakie problemy musieliśmy pokonać i jakie rozwiązania znaleźliśmy. Główne elementy składowe - Apache Spark, Hadoop z Cassandra i Elastic Search - i ich spoiwo, czyli funkcjonalny Scala Code. (WIĘCEJ...) | Hadoop + Storm czyli kombo do budowy systemów big data działających w czasie rzeczywistym. Każdy wie, że Hadoop jest potężny, ale zarazem powolny. Za to Strom wręcz przeciwnie - ograniczony na wiele sposobów, za to bliski czasu rzeczywistego. Razem te dopełniające się systemy mogą być wykorzystane do stworzenia całej gamy produktów opartych na dużej ilości archiwalnych danych, jednocześnie uwzględniając nowe fakty w czasie rzeczywistym. (WIĘCEJ...)Studium przypadku jak zostało to zrobione w Base przy wykorzystaniu infrastruktury Amazona i jakie problemy udało się rozwiązać (a jakich nie) i które pułapki udało się im ominąć, a w które dali się złapać. |
|
16.20-16.30 | Q&A | Q&A | Q&A |
Przerwa kawowa
Przetwarzanie strumieniowe w BigData na potrzeby Internetu Rzeczy (IoT)
Mamy coraz więcej czujników i sensorów, coraz liczniejsze są różnorodne inteligentne sprzęty i urządzania, podłaczone do Internetu. Są one źródłem danych, których liczba i tempo powstawania lawinowo rośnie.
Stwarza to zupełnie nowe wyzwania i możliwości w świecie BigData. Co potrafi w tym kontekście Apache Kafka i Apache Samza? Jakie trudności rodzi przetwarzanie danych strumieniowych pochodzących z sensorów? Dlaczego są to inne wyzwania niż w przypadku tradycyjnych systemów internetowych?
(WIĘCEJ...)
Panel dyskusyjny - Rozwój profesjonalny dla speca od wielkich danych
Możliwe ścieżki kariery w Big Data i dostępne specjalizacje. Co trzeba potrafić. Światowy i krajowy rynek pracy dla specjalistów od technologii Big Data.
Udział wezmą m.in.:
Prowadzenie:
Losowanie nagród wśród uczestników i zakończenie konferencji