The conference and workshops will take place on 24/25 February 2016 r., in Novotel Airport hotel at 1, 1 Sierpnia Street, Warsaw.

Conference agenda

08.30 - 09.00

Registration and morning coffee

09.00 - 09.15

Conference opening

Adam Kawa

Data Engineer and Founder, GetInData

Adam Kawa

CEO and Co-founder, GetInData

Przemysław Gamdzyk

CEO & Meeting Designer, Evention

Przemysław Gamdzyk

CEO & Meeting Designer, Evention

09.15 - 09.45

Taboola's road to scale - the data perspective*

At Taboola we are getting a constant feed of data (many billions of user events a day, more than 100K events/seconds and more than 5TB of incoming daily data). This feed needs to be processed in real time, to continually produce good personalized content recommendations, reporting, campaign management, etc. Taboola is the number one content discovery and recommendations platform. Our engine is focused on maximizing CTR as well as post click engagement.

In this talk we will share some points about how we grew (and growing) our scale with a focus on the data scale challenges along the way. This talk will also cover some of the technologies we are using, such as Apache Spark, Cassandra, Vertica and more.

Tal Sliwowicz

‎Director R&D - Scale, Performance & Data, Taboola

Tal Sliwowicz

R&D Director, Taboola

09.45 - 10.15

Applying Machine Learning to Ads Integrity at Facebook*

With over two million active advertisers and more than one billion daily active users, one of the missions of the Ads Integrity team is to protect people and advertisers by creating a safe, high-quality ad experience. Given Facebook scale, manually reviewing each ad created before it is shown to our users would be unfeasible. Instead, the team uses a combination of automated Machine Learning models and Human Computing to detect policy violating and low quality ads. This talk will provide an overview of the challenges faced and highlight some of the solutions currently running at Facebook.

Dr. Daniel Olmedilla

Engineer Manager, Facebook

Dr Daniel Olmedilla

Engineer Manager, Facebook

10.15 - 10.45

Present trends in BigData: Technology, applications and backgrounds

Adam Bartos

Technology Strategy Advisor, Technology and Big Data Competency Center, SAS Institute

Adam Bartos

Technology Strategy Advisor, Technology and Big Data Competency Center, SAS Institute

10.45 - 11.10

Coffee break

Simultaneous sessions


Big Data Operations, Security & Governance

This session will include technical presentations on various topics related to building and maintaining hardware and application infrastructure necessary for gathering, storing and processing Big Data – both in the batch mode and in real time. The presentations are devoted to managing distributed systems such as Hadoop, Cassandra or Storm, and also bring up the topic of security, access to data and lessons learned from implementations.

Data Science, Analytics & Visualisation

It includes real case studies demonstrating how Big Data and technologies for their analysis are used to solve a wide range of business problems. The presentations are devoted to deriving insights from data, visualizing data, machine learning, A/B tests and a range of analyses which enable users to make data-driven business decisions and feed various personalized functionalities of company-created products with data.

Big Data Tools, Frameworks & Development

This path includes technical presentations on tools, methods and innovative solutions used for collecting and processing data. It will feature technologies used to build ETL processes, generate reports, coordinate processes, as well as implement and test distributed applications running on the Hadoop cluster.


Scaling Cassandra in all directions*

At Spotify we run over 100 Cassandra clusters, from small 3 node clusters to clusters with up to 100 nodes.
Many of them are multi-datacenter clusters. I will talk about the challenges of having so many clusters and what tools we are using and have built for managing them. There will also be some war stories of when we have failed...

Machine Learning in Big Data ecosystem

W Grupie Allegro wyzwania związane z przetwarzaniem dużej ilości danych spotykamy na każdym kroku. Od dawna w rozwiązywaniu problemów z nimi związanych pomagają nam narzędzia z rodziny Big Data.
Wspierając się nimi potrafimy sprawnie analizować dane, podejmować trafne decyzje oraz dostarczać naszym użytkownikom coraz lepsze rozwiązania. Jednak coraz częściej, aby sprostać złożonym zagadnieniom z jakimi się mierzymy, sięgamy po rozwiązania uczenia maszynowego. Sztandarowym przykładem jest wykorzystanie systemów uczących się przy tworzeniu spersonalizowanych treści - rekomendacji ofert wybranych specjalnie dla użytkownika. Ale to nie jedyne miejsce wykorzystania algorytmów ML w Grupie Allegro. W prezentacji: o problemach w tworzeniu systemów ML na dużą skalę, wdrażaniu ich na produkcję ale też krytycznie o wykorzystaniu technologii Big Data.

Elastic development. Implementing Big Data search

Quick look at implementation of search platforms based on ElasticSearch from developer perspective.
Full-text search, relevance, geo location, stats, aggregations, alerting - I will show you how pleasant that may be and what traps are waiting for you in the limbo of distributed systems.


Big Data for unstructured data

Źródłami dla Big Data są zwykle ustrukturalizowane dane, pochodzące z innych systemów i z mechanizmów śledzących kanały interakcji z klientami (lub urządzeniami w przypadku M2M). A co z olbrzymim potencjałem drzemiącym w przepastnych zasobach informacji nieustrukturalizowanej? Jak wydobyć biznesową wartość i zamienić koszt (składowania) takich danych na rzeczywiste aktywa firmy?
Poza tradycyjnymi narzędziami analizy Big Data (HPE IDOL czy Vertica) firma Hewlett Packard Enterprise oferuje technologie dla informacji niestrukturalnych. Klasyfikacja i analityka plików oferowana przez HPE ControlPoint pozwala na łatwą ocenę jakości informacji niestrukturalnych oraz na szybkie odsianie zbędnych danych (redundant, obsolete, trivial and dark data). HPE Investigative Analytics łączy źródła danych i analizy nie tylko za pomocą modeli behavioralnych, ale uzupełnia ten obraz o Analizę Nastroju (Sentiment Analysis) oraz Intencje (Intent).

Industrial Anomaly Detection and Failure Prediction

Predicting machine failures allows the companies owning expensive assets like jet engines or locomotives, to make more intelligent decisions when and how to repair or replace them.
Having instrumented fleets of thousands of industrial machines in sensors and data streaming technologies, we are now able to monitor them in real-time, get early warning of anomalies and take action before costly failures happen. This talk will focus on how predictive data science is done for the purposes of fault detection, failure prediction and prognostics, and go through a few cases of successful models built for intelligent maintenance of heavy machinery.

Vizatra – a visualization tool*

Building visualizations that perform on top of many-TB-scale data warehouses is an ongoing challenge in the analytics space.
Most tools either offer a static presentation of a highly optimized view, and are fast, or permit exploration via a hierarchical dimensional model and end up being slow, in large part due to overly generic and/or poorly optimized query builders. In this talk we will present Vizatra, a visualization framework that turns this model on its head in an effort to work as optimally as possible with the underlying database. Vizatra is a stand-alone webapp built on top of Finatra that is simple to configure and deploy. We will discuss specific use cases that drove us to build Yet Another Dashboarding Tool and go in-depth showing how easy it is to build a time-series dashboard with Vizatra's configuration language.


Mining data at Google's scale

Google has always been about organizing world's data and making it universally accessible. This means collection of lot of data about internet (Scraping the Web) and about the real world (maps, streetview, satelite imaginery...) - and this is a lot of this data!

To make the data accessible and to be able to draw various conclusions, we needed tools which make it easy for external users and Google developers to ask various questions to this data.
So - over >10 years we have developed number of tools to process huge amounts of data in an a very efficient way - starting from tools like GFS and Mapreduce, to tools like: Millwheel, Dremel and Flume.
Then when the era of public clouds started, we thought that those tools might be also useful to external customers. Therefore we have published them as DataFlow, BigQuery, DataProc etc.
So - in this talk we will talk about those tools: how they are build and how can be used.
We will explain how easy it is to use them - and explain that people doing Big Data analysis can focus on their data, and don't need to think about the infrastructure doing the actual processing - Google will handle that for them.

Content personalization in real time using Spark Streaming and HBase

W epoce Big Data każdy duży portal, czy serwis internetowy powinien szybko reagować na potrzeby swoich użytkowników i klientów.
Dopasowywanie na bieżąco treści (jak artykuły, newsy, reklamy, rekomendacje) do użytkowników jest jednym z głównych tematów prac Działu Big Data firmy Agora - jednej z największych firm mediowych w Polsce. W prezentacji pokażemy jak w Agorze radzimy sobie z personalizacją wszelkiego rodzaju treści w czasie rzeczywistym, przy tysiącach zdarzeń na sekundę w dynamicznym i złożonym środowisku. Dodatkowo postaramy się poruszyć problem poprawiania jakości serwowanych informacji przy odpowiednim wykorzystaniu algorytmów uczenia maszynowego

Big Data, Small Code.*

Using Java 8 and Apache Crunch to quickly develop concise, efficient, readable and testable data pipelines for Hadoop MapReduce and Spark.
New execution platforms may be popping up all the time with the intention of being the "hot new thing" in Big Data, but all the while most of the heavy lifting in data organisations is still done with Hadoop MapReduce; and it continues to be a sensible choice for whole classes of ETL and aggregation problems. Apache Crunch is a simple framework on top of MapReduce (with support for running on Spark as well) which applies simple, typesafe, functional programming idioms to batch data processing pipelines to maximise developer productivity. With the addition of Java 8 and the upcoming crunch-lambda module, it is now simpler than ever to express your intent and get code working on your cluster quicker. This session will introduce the concepts behind Crunch, introduce the API, and provide practical examples of how it can be used to simplify your codebase and increase your productivity.


Managing user privileges in Hortonworks cluster using Apache Ranger

Once the proof of concept is successful in terms of performance and scalability many start asking questions how Hadoop can become a part of a corporate ecosystem.
It is also quite common for Hadoop to store vast amount of sensitive data becoming a central repository (data lake) shared with multiple tenants. There is a challenge to secure not a single platform, but the whole framework.
In this session I would like to show how Ranger, Kerberos and built-in Hadoop security mechanisms can help you to meet some of these objectives and share our experience in this area.

Data Science in finance corporation – Big Data in mBank

„The purpose of computing is insight, not numbers” – to powiedzenie Richarda Hamminga warte jest przypomnienia szczególnie obecnie – w czasie, w którym wypada zajmować się „data science”, „big data” czy wreszcie „data visualization”.
Przypominać zaś warto pokazując, iż big data wcale niekoniecznie musi być związane z przetwarzaniem terabajtów danych, data science to coś więcej niż uruchamianie gotowych algorytmów ML zaś data visualization to nie tylko sposób na odkurzenie klasycznych narzędzi business intelligence i metoda rysowania większej liczby wykresów słupkowych. To ostatnie jest szczególnie istotne w środowisku klasycznej instytucji finansowej, w którym BI (ale także wykresy słupkowe!) to metody kanoniczne. O tym, jak zbudować a następnie „sprzedać” w takiej organizacji nieklasyczne narzędzia wizualizacji danych traktuje niniejsza prezentacja. W jej trakcie postaramy się przedstawić przykłady rzeczywistych analiz prowadzonych przez zespół Big Data mBanku, w szczególności zaś takie, w ktorych zastosowano interaktywną wizualizację danych oraz informacje geograficzne.

Reactive Streams, linking Reactive Applications to Spark Streaming

The Reactive Manifesto describes the 4 characteristics defining a reactive application: responsive, resilient, elastic and message driven.
Reactive Streams is one of the tools used to create reactive application. It is a small API for the JVM defining the interfaces needed to connect a stream of data, with back pressure, between to the parts of a reactive application.

And with the addition of back pressure support in Spark Streaming in Spark 1.5, it is simpler than before to use these 3 technologies together.

This talk will define what is communication with back pressure, describe its implementation in reactive streams, and show how it can be used to integrate Spark Streaming in reactive applications.


Is your big data already safe? Now let's take care of security

When it comes to big data, a great effort is put on data safety and integrity. Is data corruption an only threat? What about actual securing and protecting Hadoop installations from risks associated with data theft, tampering and privilege escalation?
In this presentation you will learn the attacker point of view on Hadoop installations as well as ways to protect your big data environment. Do expect few critical vulnerabilities in popular Hadoop interfaces from our latest research.

Users activity monitoring – detecting anomalies in e-banking using BigData tools

Analiza zachowań użytkowników na podstawie danych wewnętrznych oraz publicznych z wykorzystaniem narzędzi Big Data.
Analiza incydentów, dostępności i reklamacji, wykrywanie malware oraz innych zagrożeń dla systemu z wykorzystaniem sztucznej inteligencji, współpraca DevOps.

Real-time Interactive Analytics at Scale

In this talk I would like to introduce you to Druid (, a powerful open-source technology used by companies like Metamarkets, Yahoo, Netflix or eBay, that can be used to create Real-Time Interactive Analytics stack.
Druid is a distributed columnar datastore, built specifically for exploratory analytics for OLAP workflows. With it you can build analytics on events streams that power your dashboards, your monitoring, business intelligence and exploratory tools. It can scale with your data, going to hundreds of nodes storing and analyzing petabytes or years of data, while keeping most of queries returning in subsecond time. All that on data that is explorable in few seconds after being ingested. I’m going to talk about Druid specifically, but also about other technologies involved in building Real-Time Analytics stack.


Challenges with advanced analytics at Spotify*

As a data scientist, working at a data-first company leads to many interesting challenges.
It is not only about building music recommendations, but also about being able to performing advanced analytics and machine learning on peta-byte level.
• What do Spotify use all peta-bytes of data for?
• Isn't it sufficient to take a sample and train models on a single machine?
• Is Apache Spark a silver-bullet to distributed computing?

Data stream processing in real time – using Apache Flink*
Apache Flink is an open source platform for distributed stream and batch data processing. At its core, Flink is a streaming dataflow engine which provides data distribution, communication, and fault tolerance for distributed computations over data streams.
On top of this core, APIs make it easy to develop distributed data analysis programs. Libraries for graph processing or machine learning provide convenient abstractions for solving large-scale problems. Apache Flink integrates with a multitude of other open source systems like Hadoop, databases, or message queues. Its streaming capabilities make it a perfect fit for traditional batch processing as well as state of the art stream processing.

15.35 - 15.55

Coffee break

15.55 - 17.25

Roundtable sessions. 2 rounds

Równoległe dyskusje roundtables to element konferencji angażujący wszystkich uczestników. Ta sesja ma kilka celów. Po pierwsze, bezpośrednią wymianę opinii i doświadczeń w ramach konkretnego zagadnienia, interesującego daną grupę uczestników. Po drugie możliwość spotkania i rozmowy z prowadzącym dane roundtable – wybraliśmy bowiem do ich prowadzenia osoby o dużej wiedzy i doświadczeniu. Sesja roundtables to b. szerokie spektrum tematów i bogate grono wybitnych osobowości ze świata BigData w roli prowadzących – tak aby każdy uczestnik konferencji mógł znaleźć interesującą go najbardziej dyskusję i poznać w ten sposób innych uczestników zainteresowanych tą samą tematyką.

16.00 - 16.40

Round 1

16.45 - 17.25

Round 2

Tematy poszczególnych stolików w sesji równoległych dyskusji roundtables:

  1. Gdzie szukać i jak rekrutować specjalistów data science.
  2. Wdrażanie infrastruktury Big Data – kluczowe decyzje projektowe.
  3. Nie tylko Spark – czyli czy i jak inne batchowe narzędzia (np. Crunch, Scalding, Pig) mogą być efektywnie wykorzystane do przetwarzanie dużych ilości danych.
  4. Przetwarzanie strumieni dużych danych w czasie w czasie rzeczywistym – dostępne technologie, ich zalety i ich wady.
  5. Szukanie igły w stogu siana, czyli wyszukiwanie pełnotekstowe w dużych ilościach danych przy użyciu takich technologii jak Solr i Elastic Search.
  6. Najważniejsze aspekty bezpieczeństwa związane z zarządzaniem i wykorzystywaniem klastra Hadoop.
  7. Wizualizacja danych – jak wizuwalizować duże, złożone i zaśmiecone dane oraz jakich technologii do tego używać.
  8. Produkcyjne aspekty związane z wdrażaniem algorytmów uczenia maszynowego w technologiach Big Data.
  9. Szybki SQL na klastrze Hadoop – kłopot bogactwa czy wprost przeciwnie – brak idealnego rozwiązania?
  10. Bazy NoSQL – co wybrać czyli kiedy Cassandra, a kiedy HBase, a kiedy jeszcze inne rozwiązanie.
  11. Duże dane i duże wydatki – finansowe aspekty wdrożenia technologii Big Data w organizacji.
  12. Zarządzanie danymi i harmonogramowanie procesów na klastrze Hadoop.
  13. Przydatne narzędzia, biblioteki i technologie w codziennej pracy produktywnego badacza danych na klastrze Hadoop.
  14. BI i Data Warehouse w erze Big Data – czyli rozmowa o integracji narzędzi raportujących z rozproszonymi silnikami obliczeniowymi oraz skalowalnymi kostkami analitycznymi.

17.25 - 17.30

End of the conference and prize drawing among participants

Adam Kawa

Data Engineer and Founder, GetInData

Adam Kawa

CEO and Co-founder, GetInData

Przemysław Gamdzyk

CEO & Meeting Designer, Evention

Przemysław Gamdzyk

CEO & Meeting Designer, Evention

*Presentation will be delivered in English only