Lokalizacja konferencji

Konferencja i warsztaty odbędą się 24/25 lutego 2016 r., w hotelu Novotel Airport ul. 1 Sierpnia 1, Warszawa.

Spotkanie integracyjne

W przeddzień konferencji, 24 lutego, odbędzie się  wieczorna impreza integracyjna dla uczestników warsztatów oraz konferencji BigData Technology Summit. Startujemy od 18:30.

Program Konferencji

08.30 - 09.00

Rejestracja uczestników i poranna kawa

09.00 - 09.15

Otwarcie konferencji

Adam Kawa

Data Engineer and Founder, GetInData

Adam Kawa

CEO and Co-founder, GetInData

Przemysław Gamdzyk

CEO & Meeting Designer, Evention

Przemysław Gamdzyk

CEO & Meeting Designer, Evention

09.15 - 09.45

Droga do skalowania Taboola – perspektywa danych*

W Taboola – firmie rekomendacji i odkrywana treści – przetwarzamy stale aktywny strumień danych – ponad 100 tysięcy zdarzeń na sekundę I ponad 5 terabajtów nowych danych dziennie! Musimy przetwarzać ten strumień w czasie rzeczywistym – tak abyśmy mogli tworzyć rekomendacje dotyczące spersonalizowanego kontentu, raportowania, zarządzania kampaniami, itd.

Jak udało nam się osiągnąć taką skalę, jak poradziliśmy sobie z problemami po drodze, jak szykujemy sie na dalszy rozwój. W jaki sposób pomógł nam tutaj Apache Spark, Cassandra, Vertica i inne techologie.

Tal Sliwowicz

‎Director R&D - Scale, Performance & Data, Taboola

Tal Sliwowicz

R&D Director, Taboola

09.45 - 10.15

Zapewnienie integralności danych w Facebooku – przy pomocy rozwiązań Machine Learning*

Facebook ma ponad dwa miliony aktywnych ogłoszeniodawców. Serwis odwiedza codziennie ponad miliard ludzi. W tych warunkach nie da się manualnie ocenić jakości wszystkich wyświetlanych reklam, tak aby uczestnikom stworzyć komfortowe, bezpieczne środowisko pracy. Dlatego Facebook wykorzystuje mieszankę zautomatyzowanych modeli Machine Learning i Human Computing, by wykrywać nadużycia polityk serwisu i ogłoszenia niskiej jakości. Opowiem o tym, w jaki sposób doszliśmy do obecnych rozwiązań, jakie napotkaliśmy tutaj wyzwania?

Dr. Daniel Olmedilla

Engineer Manager, Facebook

Dr Daniel Olmedilla

Engineer Manager, Facebook

10.15 - 10.45

Aktualne trendy w Big Data: technologia, zastosowania i konteksty

Punkt widzenia komercyjnego dostawcy kompleksowej, zintegrowanej z Hadoop platformy analitycznej na potencjalne kierunki, w których będą rozwijać się technologie dla Big Data i ich zastosowania. Spojrzenie dostawcy na rozwiązania Open-Source, czyli w poszukiwaniu synergii. Praktyczne przykłady ilustrujące obserwowane trendy

SAS stale rozbudowuje swój portfel produktów analityki dla Big Data, w tym m.in. różnego rodzaju narzędzia współpracujące i wykorzystujące Hadoop. Jako firma komercyjna w naturalny sposób obserwujemy ewolucję rzeczywistych potrzeb rynkowych i staramy się je przewidzieć i na nie reagować. SAS Data Loader for Hadoop czy linia produktów High Performance Analytics to właśnie odpowiedzi na niektóre z tych potrzeb.
(WIĘCEJ...)

Adam Bartos

Technology Strategy Advisor, Technology and Big Data Competency Center, SAS Institute

Adam Bartos

Technology Strategy Advisor, Technology and Big Data Competency Center, SAS Institute

10.45 - 11.10

Przerwa kawowa

Sesje równoległe

Godz

Big Data Operations, Security & Governance

W tej sesji będą miały miejsce techniczne prezentacje na różnorodne tematy związane z budową oraz utrzymywaniem infrastruktury sprzętowej i aplikacyjnej potrzebnej do zbierania, przechowywania oraz przetwarzania dużych ilości danych – zarówno w trybie batch jak i real-time. Tematyka prezentacji dotyczy zarządzania rozproszonymi systemami: takimi jak np. Hadoop, Cassandra, Storm, a także porusza aspekty dotyczące bezpieczeństwa, dostępu do danych oraz lekcji i wniosków wyciągniętych z wdrożeń.
(WIĘCEJ...)


Data Science, Analytics & Visualisation

Rzeczywiste przykłady, które pokazują jak duże dane oraz technologie służące do ich analizowania są wykorzystywane do rozwiązywania różnorodnych problemów biznesowych. Prezentacje dotyczą wydobywania wiedzy z danych, wizualizacji danych, uczenia maszynowego, A/B testów oraz różnego rodzaju analiz, które pozwalają podejmować biznesowe decyzje w oparciu o faktyczne dane oraz zasilać danymi różnorodne i spersonalizowane funkcjonalności tworzonych przez firmy produktów.
(WIĘCEJ...)


Big Data Tools, Frameworks & Development

Ścieżka zawiera techniczne prezentacje o narzędziach, metodach i innowacyjnych rozwiązaniach służących do pobierania i przetwarzania danych. Omawiane są technologie wykorzystywane do budowania procesów ETL, generowania raportów, koordynowania procesów, implementowania i testowania rozproszonych aplikacji uruchamianych na klastrze Hadoop.
(WIĘCEJ...)

11.10-11.40

Skalowanie Cassandry w każdym z wymiarów*

W Spotify działamy na ponad 100 klastrach Cassandy – począwszy od małych klastrów o 3 węzłach, aż do takich o 100 węzłach.
Wiele z nim to klastry będące multi centrami danych. Jak sobie poradzić z wyzwaniem, jakim jest obsługa tak wielu klastrów, i jakie narzędzia wykorzystujemy i sami zrobiliśmy, żeby sobie z tym radzić. Powiem także, gdzie i kiedy sobie nie poradziliśmy…
(WIĘCEJ...)


Machine Learning w ekosystemie Big Data


W Grupie Allegro wyzwania związane z przetwarzaniem dużej ilości danych spotykamy na każdym kroku. Od dawna w rozwiązywaniu problemów z nimi związanych pomagają nam narzędzia z rodziny Big Data.
Wspierając się nimi potrafimy sprawnie analizować dane, podejmować trafne decyzje oraz dostarczać naszym użytkownikom coraz lepsze rozwiązania. Jednak coraz częściej, aby sprostać złożonym zagadnieniom z jakimi się mierzymy, sięgamy po rozwiązania uczenia maszynowego. Sztandarowym przykładem jest wykorzystanie systemów uczących się przy tworzeniu spersonalizowanych treści - rekomendacji ofert wybranych specjalnie dla użytkownika. Ale to nie jedyne miejsce wykorzystania algorytmów ML w Grupie Allegro. W prezentacji: o problemach w tworzeniu systemów ML na dużą skalę, wdrażaniu ich na produkcję ale też krytycznie o wykorzystaniu technologii Big Data.
(WIĘCEJ...)


Wdrażanie narzędzi wyszukiwania w BigData


Rzut oka na implementacje platform wyszukiwania bazujących na Elastic Search – z perspektywy dewelopera.
Wyszukiwanie pełnotekstowe, relewantność, geolokalizacja, statystyki, agregacja, alerty – pokaże, jak to może być fajne i z kolei, jakie pułapki czekają na Ciebie w świecie systemów rozproszonych.
(WIĘCEJ...)

11.50-12.20

Big Data dla informacji niestrukturalnych


Źródłami dla Big Data są zwykle ustrukturalizowane dane, pochodzące z innych systemów i z mechanizmów śledzących kanały interakcji z klientami (lub urządzeniami w przypadku M2M). A co z olbrzymim potencjałem drzemiącym w przepastnych zasobach informacji nieustrukturalizowanej? Jak wydobyć biznesową wartość i zamienić koszt (składowania) takich danych na rzeczywiste aktywa firmy?
Poza tradycyjnymi narzędziami analizy Big Data (HPE IDOL czy Vertica) firma Hewlett Packard Enterprise oferuje technologie dla informacji niestrukturalnych. Klasyfikacja i analityka plików oferowana przez HPE ControlPoint pozwala na łatwą ocenę jakości informacji niestrukturalnych oraz na szybkie odsianie zbędnych danych (redundant, obsolete, trivial and dark data). HPE Investigative Analytics łączy źródła danych i analizy nie tylko za pomocą modeli behavioralnych, ale uzupełnia ten obraz o Analizę Nastroju (Sentiment Analysis) oraz Intencje (Intent).
(WIĘCEJ...)


Detekcja anomalii i przewidywanie awarii w zastosowaniach przemysłowych

Predicting machine failures allows the companies owning expensive assets like jet engines or locomotives, to make more intelligent decisions when and how to repair or replace them.
Having instrumented fleets of thousands of industrial machines in sensors and data streaming technologies, we are now able to monitor them in real-time, get early warning of anomalies and take action before costly failures happen. This talk will focus on how predictive data science is done for the purposes of fault detection, failure prediction and prognostics, and go through a few cases of successful models built for intelligent maintenance of heavy machinery.
(WIĘCEJ...)


Wizualizacja za pomocą Vizatry - wreszcie mamy framework wizualizacyjny, który dobrze współpracuje z dużymi bazami danych.*


To nieustające wyzwanie, by tworzyć narzędzia wizualizacji, które potrafią efektywnie współpracować z terabajtowymi bazami danych.
Albo mamy statyczne rozwiązania, które są dość szybkie, albo elastyczne, pozwalające na poruszanie się w wielowymiarowych hierarchiach, ale te z kolei są bardzo powolne, zazwyczaj na skutek słabo zoptymalizowanych narzędzi do budowania zapytań.Vizatra zmienia ten stan rzeczy – to aplikacja webowa na bazie Finatry. Pokażemy różne use-casy, wykorzystanie języka konfiguracyjnego Vizatry i historię budowy przez nas narzędzia „Yet Another Dashboarding Tool”.
(WIĘCEJ...)

12.30-13.00

Mining data at Google's scale


Google has always been about organizing world's data and making it universally accessible. This means collection of lot of data about internet (Scraping the Web) and about the real world (maps, streetview, satelite imaginery...) - and this is a lot of this data!

To make the data accessible and to be able to draw various conclusions, we needed tools which make it easy for external users and Google developers to ask various questions to this data.
So - over >10 years we have developed number of tools to process huge amounts of data in an a very efficient way - starting from tools like GFS and Mapreduce, to tools like: Millwheel, Dremel and Flume.
Then when the era of public clouds started, we thought that those tools might be also useful to external customers. Therefore we have published them as DataFlow, BigQuery, DataProc etc.
So - in this talk we will talk about those tools: how they are build and how can be used.
We will explain how easy it is to use them - and explain that people doing Big Data analysis can focus on their data, and don't need to think about the infrastructure doing the actual processing - Google will handle that for them.
(WIĘCEJ...)


Personalizacja treści w czasie rzeczywistym w oparciu o Spark Streaming i bazę HBase

W epoce Big Data każdy duży portal, czy serwis internetowy powinien szybko reagować na potrzeby swoich użytkowników i klientów.
Dopasowywanie na bieżąco treści (jak artykuły, newsy, reklamy, rekomendacje) do użytkowników jest jednym z głównych tematów prac Działu Big Data firmy Agora - jednej z największych firm mediowych w Polsce. W prezentacji pokażemy jak w Agorze radzimy sobie z personalizacją wszelkiego rodzaju treści w czasie rzeczywistym, przy tysiącach zdarzeń na sekundę w dynamicznym i złożonym środowisku. Dodatkowo postaramy się poruszyć problem poprawiania jakości serwowanych informacji przy odpowiednim wykorzystaniu algorytmów uczenia maszynowego
(WIĘCEJ...)


Duże dane, mały kod: Wykorzystanie Java 8 i Apache Crunch do szybkiej budowy spójnych, efektywnych, łatwych do odczytania i testowania potoków danych dla Hadoop MapReduce i Spark.

Chcę tutaj dokładnie wejść w temat, pokazać API i praktyczne przykład, jak można te środowiska wykorzystać do uproszczenia kodu i zwiększenia produktywności.
(WIĘCEJ...)

13.00-13.45Obiad
13.45-14.15

Zarządzanie uprawnieniami w klastrze Hortonworks z użyciem Apache Ranger

Once the proof of concept is successful in terms of performance and scalability many start asking questions how Hadoop can become a part of a corporate ecosystem.
It is also quite common for Hadoop to store vast amount of sensitive data becoming a central repository (data lake) shared with multiple tenants. There is a challenge to secure not a single platform, but the whole framework.
In this session I would like to show how Ranger, Kerberos and built-in Hadoop security mechanisms can help you to meet some of these objectives and share our experience in this area.
(WIĘCEJ...)



Data Science w korporacji finansowej czyli o "big data" w mBanku


„The purpose of computing is insight, not numbers” – to powiedzenie Richarda Hamminga warte jest przypomnienia szczególnie obecnie – w czasie, w którym wypada zajmować się „data science”, „big data” czy wreszcie „data visualization”.
Przypominać zaś warto pokazując, iż big data wcale niekoniecznie musi być związane z przetwarzaniem terabajtów danych, data science to coś więcej niż uruchamianie gotowych algorytmów ML zaś data visualization to nie tylko sposób na odkurzenie klasycznych narzędzi business intelligence i metoda rysowania większej liczby wykresów słupkowych. To ostatnie jest szczególnie istotne w środowisku klasycznej instytucji finansowej, w którym BI (ale także wykresy słupkowe!) to metody kanoniczne. O tym, jak zbudować a następnie „sprzedać” w takiej organizacji nieklasyczne narzędzia wizualizacji danych traktuje niniejsza prezentacja. W jej trakcie postaramy się przedstawić przykłady rzeczywistych analiz prowadzonych przez zespół Big Data mBanku, w szczególności zaś takie, w ktorych zastosowano interaktywną wizualizację danych oraz informacje geograficzne.
W drugiej część zaprezentowane zostanie praktyczne wykorzystanie bibliotek SparkR, Shiny oraz Leaflet w celu przygotowania webowej aplikacji BI generującej geo-insight’y dla analityków biznesowych.
(WIĘCEJ...)


Reactive Streams, linking Reactive Applications to Spark Streaming


The Reactive Manifesto describes the 4 characteristics defining a reactive application: responsive, resilient, elastic and message driven.
Reactive Streams is one of the tools used to create reactive application. It is a small API for the JVM defining the interfaces needed to connect a stream of data, with back pressure, between to the parts of a reactive application.

And with the addition of back pressure support in Spark Streaming in Spark 1.5, it is simpler than before to use these 3 technologies together.

This talk will define what is communication with back pressure, describe its implementation in reactive streams, and show how it can be used to integrate Spark Streaming in reactive applications.
(WIĘCEJ...)

14.25-14.55

Is your big data already safe? Now let's take care of security


W BigData dużo uwagi warto poświęcić kwestii bezpieczeństwa i integralności danych. Czy utrata danych to jedyne zagrożenie? Czy pamiętamy o właściwym zabezpieczeniu instalacji Hadoopa przed ryzykami związanymi z kradzieżą danych, zmianą ich zawartości i eskalacją przywilejów dostępu?
Pokażę, jak wygląda perspektywa atakującego instalacje Hadoopa i jak można się przed jego działaniami zabezpieczyć. Jak wskazują nasze własne badania, popularne instalacje Hadoopa nie są niestety wolne od podatności.
(WIĘCEJ...)


Monitorowanie zachowań użytkowników i detekcja anomalii w bankowości elektronicznej z wykorzystaniem narzędzi BigData


Analiza zachowań użytkowników na podstawie danych wewnętrznych oraz publicznych z wykorzystaniem narzędzi Big Data.
Analiza incydentów, dostępności i reklamacji, wykrywanie malware oraz innych zagrożeń dla systemu z wykorzystaniem sztucznej inteligencji, współpraca DevOps.
(WIĘCEJ...)


Interaktywna analityka czasu rzeczywistego – w dużej skali


Druid (http://druid.io/) jako potężna technologia Open Source wykorzystywana przez takie firmy jak Yahoo!, Netfilix czy eBay do stworzenia interaktywnego stosu analitycznego działającego w czasie rzeczywistym.
Druid to kolumnowe repozytorium danych stworzone dla analityki odkrywczej i przepływów OLAP. Rozwiązanie jest w pełni skalowalne, obsługujące setki węzłów do gromadzenia i analizowania petabajtów danych, przy czym czas odpowiedzi na przechowywane zapytania liczyć można w ułamkach sekund.
(WIĘCEJ...)


15.05-15.35

Wyzwania zaawansowanej analityki w Spotify*


Data Sciencist pracując w firmie, dla której najważniejsze są dane, musi odpowiedzieć na ciekawe wyzwania.
W Spotify nie chodzi li tylko o rekomendacje muzyki, ale również o możliwość dokonywania zaawansowanej analityki i uczenia maszynowego na poziomie petabajtów danych. Po co nam takie ilości danych? Czy nie wystarczy dobrze dobrana próbka danych i trenowanie modeli na pojedynczej maszynie? Czy Apache Spark to uniwersalne rozwiązania dla przetwarzania rozproszonego?
(WIĘCEJ...)


Przetwarzanie strumieni w czasie rzeczywistym z wykorzystaniem Apache Flink*
Apache Flink is an open source platform for distributed stream and batch data processing. At its core, Flink is a streaming dataflow engine which provides data distribution, communication, and fault tolerance for distributed computations over data streams.
On top of this core, APIs make it easy to develop distributed data analysis programs. Libraries for graph processing or machine learning provide convenient abstractions for solving large-scale problems. Apache Flink integrates with a multitude of other open source systems like Hadoop, databases, or message queues. Its streaming capabilities make it a perfect fit for traditional batch processing as well as state of the art stream processing.
(WIĘCEJ...)

15.35 - 15.55

Przerwa kawowa

15.55 - 17.25

Sesje roundtables. 2 rundy

Równoległe dyskusje roundtables to element konferencji angażujący wszystkich uczestników. Ta sesja ma kilka celów. Po pierwsze, bezpośrednią wymianę opinii i doświadczeń w ramach konkretnego zagadnienia, interesującego daną grupę uczestników. Po drugie możliwość spotkania i rozmowy z prowadzącym dane roundtable – wybraliśmy bowiem do ich prowadzenia osoby o dużej wiedzy i doświadczeniu. Sesja roundtables to b. szerokie spektrum tematów i bogate grono wybitnych osobowości ze świata BigData w roli prowadzących – tak aby każdy uczestnik konferencji mógł znaleźć interesującą go najbardziej dyskusję i poznać w ten sposób innych uczestników zainteresowanych tą samą tematyką.

16.00 - 16.40

Runda 1

16.45 - 17.25

Runda 2

Tematy poszczególnych stolików w sesji równoległych dyskusji roundtables:

SESJA PIERWSZA

16.00 - 16.40

Sesje roundtables: Runda pierwsza

1._Gdzie szukać i jak rekrutować specjalistów data science.

Czy rekrutacja data scientist jest jak polowanie na jednorożca? Czy standardowe metody rekrutacji sprawdzają się przy szukaniu takich pracowników? Czy zatrudniać data scientist, a może lepiej go sobie ‘wychować’? Jakie cechy powinien mieć dobry data scientist? Co liczy się w procesie rekrutacji doświadczenie czy wykształcenie? Kombinacja obu tych cech, a może jeszcze coś innego?

Olga Mierzwa

Co-founder, datahero.tech

Olga Mierzwa

Co-founder, datahero.tech

2. Automatyzacja i masowe wykorzystanie wyników pracy badacza danych na klastrze Hadoop – przydatne narzędzia, biblioteki i technologie.

– Czym różni się badacz danych od osób odpowiedzialnych za działanie środowisk podejmowania decyzji?

– Czym de facto jest wynik pracy badacza? W jakiej formie i postaci te wyniki są dostępne? Czy są to kody scoringowe? Czy wizualizacje i raporty? A może po prostu dane?

– W jaki sposób skutecznie przejść z procesu analizy danych do wspierania podejmowania decyzji w procesach biznesowych?

– Jaki jest oczekiwany/akceptowalny time-to-market na wdrożenie modelu?

– Jak skutecznie budować masowe ilości modeli analitycznych?

– W jaki sposób zbudować pomost pomiędzy strategią organizacji a właściwym wykorzystywaniem modeli analitycznych do wsparcia podejmowania decyzji?

– Monitorowanie jakości modeli? Jak zrealizować zamknięcie cyklu życia modeli pomiędzy środowiskiem podejmowania decyzji a budowania i odkrywania modeli?

Patryk Choroś

Principal Business Solutions Manager, SAS Institute

Patryk Choroś

Principal Business Solutions Manager, SAS Institute

3. Przetwarzanie strumieni dużych danych w czasie rzeczywistym – dostępne technologie, ich zalety i wady.

Wiemy jak przetwarzać i analizować dużo danych. Ale czy wiemy jak je przetwarzać i analizować kompleksowo i szybko – na bieżąco? Jak wyciągać wnioski ze zdarzeń w momencie, gdy one się dzieją? Jak automatyzować i odpalać działania w momencie samego zdarzenia? Jak gromadzić i udostępniać dane, by móc wspierać takie wymagające procesy real-time? Jak podglądać, eksplorować i analizować takie ciągle płynące zdarzenia? I w końcu jakich technologii użyć do tych działań? Chciałbym przy tym stoliku podyskutować o architekturach i technologiach używanych do realizacji analityki i kompleksowego przetwarzania zdarzeń w czasie rzeczywistym, oczywiście w sposób rozproszony, skalowalny i niezawodny. Niektóre z technologii o których chciałbym porozmawiać to: Kafka, Spark Streaming, Storm, Samza, Flink, Druid, Hbase, Cassandra.

Krzysztof Zarzycki

Big Data Architect, GetInData

Krzysztof Zarzycki

Big Data Architect, CTO and Co-founder, GetInData

4. Nie tylko Spark – czyli czy i jak inne batchowe narzędzia (np. Crunch, Scalding, Pig) mogą być efektywnie wykorzystane do przetwarzanie dużych ilości danych.

Ostatnimi czasy Spark to naprawdę gorący temat. Na wielu konferencjach prezentacje o nim przeważają. Czy słusznie? Czy nie ma alternatyw? A jeśli są to co je odróżnia? Czy jesteśmy w stanie wybrać “lepiej” i pracować z innymi narzędziami sprawniej i wygodniej? Na przykładzie narzędzi różnej klasy przyjrzymy się temu zagadnieniu.

Marcin Cylke

Software developer, Grupa Allegro

Marcin Cylke

Software developer, Grupa Allegro

5. Szukanie igły w stogu siana, czyli wyszukiwanie pełno tekstowe w dużych ilościach danych przy użyciu technologii takich jak Solr i Elasticsearch

Trudno sobie dziś wyobrazić serwisy internetowe, wewnętrzne systemy, intranety czy e-commerce bez wyszukiwania pełno tekstowego. Ale przed jakimi wyzwaniami staje zespół, którego zadaniem jest wdrożenie takiego systemu? Jakie najczęściej napotyka problemy przy przetwarzaniu dokumentów, analizie tekstu, jak rozwiązuje pułapki językowe? Jak zbudować model danych? Co robić, aby wyszukiwarka zwracała trafne wyniki i co to w ogóle znaczy, że wyszukiwarka działa dobrze? Te wszystkie tematy są związane z jakością wyszukiwania, ale w czasach przetwarzania dużych zbiorów danych pojawiły się kolejne: właściwie zaprojektowana architektura, skalowanie, zapewnienie wydajności na poziomie spełniającym oczekiwania użytkowników. Zapraszam do dyskusji na wymienione tematy oraz podzielenia się własnymi doświadczeniami w obszarze wdrażania systemów wyszukiwania pełno tekstowego.

Tomasz Sobczak

Senior Consultant & Talent Manager, Findwise

Tomasz Sobczak

Senior Consultant, Findwise

6. Wizualizacja danych – jak wizualizować duże, złożone i zaśmiecone dane oraz jakich technologii używać

“Jeden obraz mówi więcej niż tysiąc słów”. A jeżeli mamy setki milionów rekordów, to jak ten obraz powinien wyglądać, by ta maksyma nadal była prawdziwa? Jak pokazać dane, których jest mnóstwo? Czy i jak uwzględniać dane “zaśmiecone” lub niepełne? Czy tradycyjne wizualizacje mogą się sprawdzić, czy potrzebne są zupełnie nowe pomysły? Jak pomóc Użytkownikom zobaczyć i zrozumieć dane? Jak przy pomocy wizualizacji ułatwić wnioskowanie? Co mamy do dyspozycji?

Marek Jelenik, NewDataLabS

7. Szybki SQL na klastrze Hadoop – kłopot bogactwa, czy brak idealnego rozwiązania?

“Szybki .. Hadoop” – oksymoron? W jaki sposób interaktywnie (słowo-klucz) przetwarzać duże dane, jak je wygodnie eksplorować, czy SQL jest do tego najlepszy? Jakie rozwiązania SQL-on-Hadoop są dostępne, jak zaawansowane są (w porównaniu z tradycyjnymi silnikami SQL), jakie mają problemy, jak się pozycjonują? Kiedy można sie spodziewać dojrzałych rozwiązań w tej przestrzeni.

Wojciech Biela,

Software Engineering Manager, Teradata Labs

Wojciech Biela

Software Engineering Manager, Teradata Labs

8. Duże dane i duże wydatki – finansowe aspekty wdrożenia technologi Big Data w organizacji.

Gromadzimy coraz więcej danych, wierzymy, że zawierają cenne informacje. Aby dane nie były tylko suchymi faktami trzeba dodać do nich kontekst dzięki któremu nabierają nowego sensu. Pojawia się wówczas pytanie w jaki sposób robić efektywnie obliczenia aby uzyskać biznesowe korzyści z analizy ogromnych i wciąż szybko rosnących zbiorów danych.
Czy w mojej firmie jest potrzebne rozwiązanie typu Big Data ? Jeśli odpowiedź jest twierdząca to pojawia się kolejne . Jak zbudować takie rozwiązanie ? Czy kupić gotowe rozwiązanie u jednego z dostawców IT czy też zbudować samemu ? Czy opierać to na własnej infrastrukturze czy też skorzystać z usług chmurowych ? Jak duży klaster potrzebuje do moich obliczeń ? Czy zbudować większy na dłużej czy mniejszy i rozbudowywać na bieżąco? Ile to będzie kosztowało ? Jak przekonać zarząd, że taka inwestycja przyniesie oczekiwany zwrot z inwestycji ? Co należy przewidzieć na etapie utrzymania bo przecież technologia ciągle się rozwija ? Czy koszty ograniczają się tylko do technologii ? Czy mam specjalistów którzy potrafią efektywnie wykorzystać zbudowane rozwiązanie techniczne ? Każdy projekt budowy platformy Big Data jest unikalny i każdy przynosi liczne doświadczenia dlatego warto wymieniać wiedzę aby nie popełniać tych samych błędów.

Andrzej Litewka

Chief Software Architect, Grupa Interia

Andrzej Litewka

Chief Software Architect, Grupa Interia

9. Zarządzanie danymi i harmonogramowanie procesów na klastrze Hadoop.

Dążymy do tego, żeby na HDFS trafiało jak najwięcej różnorodnych danych, żeby umożliwić analitykom odkrywanie nowych zależności i budowanie zaawansowanych modeli. Szybko może okazać się jednak, że nie sposób zapanować nad ogromną liczbą zbiorów danych czy procesów przetwarzających te dane. Jakie techniki i narzędzia mogą pomóc zarządzać danymi? Jakich narzędzi użyć do harmonizowania i cyklicznego uruchamiania procesów? Jakich funkcjonalności jeszcze brakuje? Podczas dyskusji postaramy się wymienić doświadczeniami poruszając się w obrębie tej tematyki.

Piotr Krewski

Data Consultant and Co-founder, GetInData

Piotr Krewski

Big Data Consultant and Co-founder, GetInData

10. Dokąd zmierza Big Data?

Minęło ponad 10 lat od powstania Hadoopa… Wydaje się że obecnie jego najbardziej istotną składową HDFS raczej niż MapReduce. Sam HDFS zbiera jednak sporo krytyki jako niefektywny a i następujące zmiany w architekturach komputerowych (rosnąca dostępność bardzo szybkich pamięci masowych przy ciągle ograniczonych możliwościach przetwarzania przez CPU, przenoszenie obliczeń na GPU) wymuszają zmiany którym sprostać wydawać się mogą jedynie rewolucje w sposobie przetwarzania Big Data. Zarówno na warstwie przetwarzania danych (Spark, Impala, Drill) jak i dostępu do danych (np. Kudu) pojawiają sie rozwiązania gdzie Hadoop jest raczej dodatkiem niż głownym elementem układanki. Czy taki proces będzie dalej postępował? Jakich modeli przetwarzania można spodziewać się w następnych latach? Czy GPU zastąpią CPU w Big Data?

11. Wykorzystanie algorytmów uczenia maszynowego w przetwarzaniu dużych zbiorów danych w czasie rzeczywistym

Konsekwencją szybkiego rozwoju technologii Big Data jest coraz szersze zastosowanie technik uczenia maszynowego. Uczenie maszynowe pomaga w rozwiązywaniu wielu zagadnień Big Data takich jak rekomendacje, profilowanie, klasyfikacja czy klasteryzacja. Istnieje już wiele algorytmów, technologii i narzędzi pozwalających stosować uczenie maszynowe do batchowego (offline-owego) przetwarzania dużych zbiorów danych. Pytanie czy i jak możemy zastosować uczenie maszynowe dla danych spływających w czasie rzeczywistym? Jak zastosować algorytmy machine learning w dynamicznych systemach, gdzie uczony model musi być maksymalnie aktualny? Jak dobrze wykorzystać rozwiązania takie jak Spark Streaming z MLLib czy Mahout? Jak wykorzystać do przetwarzania online znane algorytmy przetwarzania offline? Na te i inne pytania postaramy się odpowiedzieć w naszej dyskusji.

Arkadiusz Jachink

Senior Data Scientist, Agora

Arkadiusz Jachink

Senior Data Scientist, Agora

SESJA DRUGA

16.45 - 17.25

Sesje roundtables: Runda druga

1. Stolik ekspercki z udziałem wybranych prelegentów zagranicznych*.

*prowadzenie w języku angielskim

2. Demokratyzacja Hadoop, czyli w jaki sposób wyjść z platformą Big Data poza grono specjalistów od Hadoop do analityków i użytkowników biznesowych.

– Czy możliwe jest, aby użytkownik biznesowy nie posiadający specjalistycznej wiedzy technicznej skorzystał z mocy i możliwości platformy hadoop?

– W jaki sposób jest to możliwe? W jaki sposób powinny być zbudowane narzędzia użytkownika (zarówno ładowanie danych jak i ich analiza i konsumpcja) aby umożliwiać demokratyzację?

– Czy demokratyzacja Hadoop oznacza tylko szerokie udostępnianie wyników analiz, a może danych zebranych w klastrze czy także otwarcie go na wprowadzanie nowych danych przez użytkowników?

– Dyskusja o przykładach zastosowania takiego podejścia w różnych branżach

– Jak właściwie budować i utrzymywać świadomość możliwości platformy hadoop u objętych „demokratyzacją” użytkowników?

– Jak zbudować model i świadomość odpowiedzialności za uzyskiwane wyniki? Jak zadbać o ich porównywalność i poprawność?

Adam Bartos

Technology Strategy Advisor, Technology and Big Data Competency Center, SAS Institute

Adam Bartos

Technology Strategy Advisor, Technology and Big Data Competency Center, SAS Institute

3. Przetwarzanie strumieni dużych danych w czasie rzeczywistym – dostępne technologie, ich zalety i wady.

Wiemy jak przetwarzać i analizować dużo danych. Ale czy wiemy jak je przetwarzać i analizować kompleksowo i szybko – na bieżąco? Jak wyciągać wnioski ze zdarzeń w momencie, gdy one się dzieją? Jak automatyzować i odpalać działania w momencie samego zdarzenia? Jak gromadzić i udostępniać dane, by móc wspierać takie wymagające procesy real-time? Jak podglądać, eksplorować i analizować takie ciągle płynące zdarzenia? I w końcu jakich technologii użyć do tych działań? Chciałbym przy tym stoliku podyskutować o architekturach i technologiach używanych do realizacji analityki i kompleksowego przetwarzania zdarzeń w czasie rzeczywistym, oczywiście w sposób rozproszony, skalowalny i niezawodny. Niektóre z technologii o których chciałbym porozmawiać to: Kafka, Spark Streaming, Storm, Samza, Flink, Druid, Hbase, Cassandra.

Krzysztof Zarzycki

Big Data Architect, GetInData

Krzysztof Zarzycki

Big Data Architect, CTO and Co-founder, GetInData

4. Produkcyjne aspekty związane z wdrażaniem algorytmów uczenia maszynowego w technologiach Big Data.

Czy modelować na całości czy jednak modelować na próbie. Jaki uzysk dostajemy przy trenowaniu lub weryfikacji modeli. Jak zarządzać modelami? Jak utrzymać jakość modeli? Czy warto mieć możliwość uzasadnienia dlaczego model (i który) zaprezentował wynik. Jakie są doświadczenia w tworzeniu modeli compozytowych? Czy warto stosować modele strumieniowe, w jakich przypadkach?

Maciej Czyżowicz

Technical Leader for Analytics Stream, Orange

Maciej Czyżowicz

Architekt Korporacyjny, Orange Polska

5. Bazy NoSQL – kiedy wybrać Cassandra, a kiedy HBase, a kiedy jeszcze inne rozwiązanie.

Skoro jest tak wiele rozwiazań baz NoSQL, jak stwierdzić która będzie się najlepiej nadawała do potrzeb projektu? A co jeśli wymagania się zmienią? Czy NoSQL są rzeczywiście lepsze od RDBMS? Jak projektować bazy NoSQL? A może są jakieś rozwiązania które pasują do wszystkiego?

Paweł Kucharski

CTO, Sotrender

Paweł Kucharski

CTO, Sotrender

6. Wizualizacja danych – jak wizualizować duże, złożone i zaśmiecone dane oraz jakich technologii używać

“Jeden obraz mówi więcej niż tysiąc słów”. A jeżeli mamy setki milionów rekordów, to jak ten obraz powinien wyglądać, by ta maksyma nadal była prawdziwa? Jak pokazać dane, których jest mnóstwo? Czy i jak uwzględniać dane “zaśmiecone” lub niepełne? Czy tradycyjne wizualizacje mogą się sprawdzić, czy potrzebne są zupełnie nowe pomysły? Jak pomóc Użytkownikom zobaczyć i zrozumieć dane? Jak przy pomocy wizualizacji ułatwić wnioskowanie? Co mamy do dyspozycji?

Marek Jelenik, NewDataLabS

7. BI/DWH w erze big data – czyli o integracji narzędzi raportujących z rozproszonymi silnikami obliczeniowymi oraz skalowalnymi kostkami analitycznymi.

Coraz więcej narzędzi big data udostępnia możliwość wykorzystania różnych dialektów języka SQL do formułowania zapytań analitycznych poprzez interfejsy jdbc/odbc, co w znaczący sposób ułatwia integrację z wieloma narzędziami raportującymi. Które z tych narzędzi wybrać, czy można w łatwy sposób przenosić modele danych z RDBMS, czy istnieją skalowalne kostki analityczne i jak i używać – to tyllko niektóre z tematów, które będą poruszane. Technologie-siniki obliczeniowe: Hive, SparkSQL, Presto, Impala, Kudu, Drill, Hawq, Phoenix, Kylin, itd.

Marek Wiewiórka

Big Data Architect, GetInData

Marek Wiewiórka

Big Data Architect, GetInData

8. Przykłady skutecznego wykorzystania dużych danych w biznesie

Wiele firm już teraz gromadzi duże zbiory danych i do ich przetwarzania korzysta z narzędzi Big Data.Technologia pozwala na dostęp do tych danych w krótkim czasie. Jednak same przetworzone dane nie są celem samym w sobie. Skuteczne ich wykorzystanie w biznesie objawia się konkretną wartością, np. stworzeniem tzw. “data products”, za które klienci są skłonni płacić. Efektywne wykorzystanie big data pozwala zwiększyć firmom przychody, poziom utrzymania klienta bądź zredukować koszty. Pewne modele wykorzystania dużych danych są wspólne dla wszystkich branży, a niektóre z nich zrodziły się w jakimś biznesie, ale mogłyby mieć przełożenie na inny. Są przedsiębiorstwa, które posiadały zaawansowane narzędzia, dedykowane zespoły ludzi, ale nie zdołały zmonetyzować tych rozwiązań zawrócić z – wydawałoby się – przyszłościowej ścieżki. Zapraszam do stolika wszystkich, którzy chcą i mogą pochwalić się mierzalnymi efektami zastosowania big data bądź nie mają pomysłu co zrobić z dużą ilością składowanych danych i szukają inspiracji. Być może po naszym spotkaniu zainicjujemy powstanie ogólnodostępnego katalogu typowych zastosowań biznesowych w podziale na branże, który będzie na bieżąco uzupełniany i z którego będą mogli korzystać potencjalni data scientists.

Remigiusz Siudziński

Business Intelligence Manager, Grupa Pracuj SA

9. Wdrażanie infrastruktury Big Data – kluczowe decyzje projektowe.

Choć Hadoop jest jedną z najpopularniejszych technologii na świecie, produkcyjnie wykorzystywaną przez tysiące firm, to wciąż każdorazowe wdrożenie nowej infrastruktury Big Data pociąga za sobą całą serię dylematów. Gdzie zbudować klaster (w chmurze czy w używając własnej infrastruktury), którą z dystrybucji wybrać, na jaki profil węzłów się zdecydować, jakie właściwości klastra zapewnić w pierwszej kolejności (np. obsługa wielu użytkowników, wydajność, bezpieczeństwo), ile klastrów mieć, jakie zasady pracy z klastrem narzucać użytkownikom? Podczas dyskusji postaramy się wymienić doświadczeniami poruszając się w obrębie tej tematyki.

Adam Kawa

Data Engineer and Founder, GetInData

Adam Kawa

CEO and Co-founder, GetInData

10. Analityka operacyjna w Apache Cassandra z użyciem Spark i Hadoop.

Apache Cassandra jest systemem baz danych przeznaczonym do przechowywania danych operacyjnych i odpowiadania na zapytania w czasie rzeczywistym. Silnik składowania danych nie był nigdy projektowany pod kątem operacji analitycznych. Jednak od pewnego czasu istnieje możliwość uruchamiania zadań Hadoop oraz Spark do bezpośredniej analizy danych składowanych w Cassandrze, przy pomocy dedykowanych Cassandrze implementacji Input/OutputFormat oraz Spark-Cassandra-Connector. Czy taka możliwość jest przydatna? Czego oczekiwać od narzędzi do analizy danych operacyjnych? Jakie rodzaje zapytań / analiz wykonuje się na danych operacyjnych? W jaki sposób modelować dane? Jak projektować systemy aby nie zaszkodzić części odpowiedzialnej za operacje? Czy istniejące narzędzia do integracji Cassandry ze Spark i Hadoop spełniają Wasze oczekiwania, a jeśli nie, to jakimi funkcjami / ulepszeniami bylibyście zainteresowani? Chciałbym, aby dyskusja posłużyła nie tylko do wymiany doświadczeń i wzajemnego wzbogacenia posiadanej wiedzy, ale również pomogła stworzyć lepsze narzędzia w ekosystemie Cassandry / Sparka w niedalekiej przyszłości.

Piotr Kołaczkowski

Lead Software Engineer, DataStax

Piotr Kołaczkowski

Lead Software Engineer, DataStax

11. Wykorzystanie algorytmów uczenia maszynowego w przetwarzaniu dużych zbiorów danych w czasie rzeczywistym

Konsekwencją szybkiego rozwoju technologii Big Data jest coraz szersze zastosowanie technik uczenia maszynowego. Uczenie maszynowe pomaga w rozwiązywaniu wielu zagadnień Big Data takich jak rekomendacje, profilowanie, klasyfikacja czy klasteryzacja. Istnieje już wiele algorytmów, technologii i narzędzi pozwalających stosować uczenie maszynowe do batchowego (offline-owego) przetwarzania dużych zbiorów danych. Pytanie czy i jak możemy zastosować uczenie maszynowe dla danych spływających w czasie rzeczywistym? Jak zastosować algorytmy machine learning w dynamicznych systemach, gdzie uczony model musi być maksymalnie aktualny? Jak dobrze wykorzystać rozwiązania takie jak Spark Streaming z MLLib czy Mahout? Jak wykorzystać do przetwarzania online znane algorytmy przetwarzania offline? Na te i inne pytania postaramy się odpowiedzieć w naszej dyskusji.

Arkadiusz Jachink

Senior Data Scientist, Agora

Arkadiusz Jachink

Senior Data Scientist, Agora

17.25 - 17.30

Zakończenie konferencji i losowanie nagród wśród uczestników

Adam Kawa

Data Engineer and Founder, GetInData

Adam Kawa

CEO and Co-founder, GetInData

Przemysław Gamdzyk

CEO & Meeting Designer, Evention

Przemysław Gamdzyk

CEO & Meeting Designer, Evention