Video of 2016 edition

Interview with Jarosław Kuśmierek, Google.

Interview with Krzysztof Zarzycki, GetInData.

Interview with Piotr Gawrysiak, mBank.

Konkretnie o dużych danych

Druga edycja BigData Technology Summit zgromadziła blisko 300 uczestników, którzy dyskutowali o technicznych aspektach wdrażania, rozwoju i użytkowania rozwiązań obsługujących wielkie zbiory danych: budowaniu i utrzymywaniu skalowalnych infrastruktur danych, popularnych narzędzia i framework-ach używanych w projektach Big Data – wszystko na tle case studies z kraju i zagranicy. Na konferencji obecni byli przedstawiciele zarówno dużych firm – banków, firm ubezpieczeniowych i telekomów – jak i firm informatycznych różnej wielkości, realizujących projekty BigData.

MINIP1210075x

W kuluarach konferencji dało się słyszeć przede wszystkim dyskusje praktyków dzielących się uwagami – aczkolwiek uwagami zrozumiałymi tylko dla developerów, analityków czy data scientists’ów zajmujących się na co dzień narzędziami Big Data. Pewnie dlatego często można było usłyszeć równie, że  „jest to jedyna konferencja dla specjalistów realizujących projekty Big Data umożliwiająca konkretną dyskusję na takim poziomie szczegółowości praktycznej”.

Chyba nikt nie powinien być zdziwiony jeśli w ciągu najbliższych kilku lat zaczniemy mówić o prawdziwej eksplozji zastosowań BigData. Liczba i skala projektów dotyczących wielkich zbiorów danych, prowadzonych w polskich przedsiębiorstwach, systematycznie wzrasta – podobnie zresztą jak liczba uczestników konferencji Big Data Technology Summit. Dotyczy to już nie tylko firm internetowych, dla których Big Data to chleb powszedni, ale także banków, instytucji finansowych, energetyki czy mediów.

 

Kluczowe trendy

W tym kontekście Adam Bartos z Big Data Competency Center w SAS Polska, występujący podczas sesji plenarnej, mówił o trzech kluczowych trendach w obszarze Big Data. Pierwszy z nich to wykorzystywanie w biznesie narzędzi open source, które z jednej strony stanowią konkurencję dla rozwiązań komercyjnych dostawców, „od zawsze” obecnych w świecie danych i analityki, ale z drugiej stanowią w pewnych obszarach uzupełnienie i są przez komercyjnych dostawców coraz częściej wykorzystywane. Drugi ważny trend to demokratyzacja wielkich danych, polegająca na udostępnianiu ich coraz szerszej grupie użytkowników poprzez zrozumiałe dla nich narzędzia – proste a zarazem coraz potężniejsze w swoich możliwościach. Trzeci trend z kolei to analityka strumienia danych, dokonywana w czasie rzeczywistym – czyli coś, co wydawało się przynależeć do dyskusji o przyszłości, a dzieje się już na naszych oczach.

Konferencja zaczęła się jednak od naprawdę wielkich danych, wielkich technologii i wielkich biznesów. Pierwszym z nich był Tal Sliwowicz, szef działu badań i rozwoju izraelskiej firmy Taboola, która specjalizuje się w odkrywaniu wzorów konsumowania treści w Internecie i na tej podstawie prezentowania rekomendacji kolejnych treści dla użytkowników. Tal Sliwowicz opowiadał, w jaki sposób historycznie rozwijana była infrastruktura obsługująca platformę, której istotnym elementem są technologie open source – takie jak Spark, Hadoop i Cassandra, wykorzystywaną m.in. przez NBC, USA Today, The Weather Channel oraz Fox Sports. Platforma Taboola serwuje 300 mld. rekomendacji dla 750 mln unikalnych użytkowników miesięcznie, co przekłada się na ponad 100 tys. zapytań na sekundę i 5TB danych każdego dnia.

O wykorzystaniu machine learning do zapewniania integralności i wysokiej jakości reklam opowiadał Dr. Daniel Olmedilla z Facebooka. Dla firmy obsługującej 2,5 mln aktywnych ogłoszeniodawców selekcja treści agresywnych, obraźliwych czy w jakikolwiek inny sposób mogących urazić użytkowników, to poważne wyzwanie (zarządzanie wyświetlaniem tych reklam dzieje się już całkowicie automatycznie). Dr. Daniel Olmedilla stoi na czele zespołu analityków i matematyków, którzy odpowiadają za wykorzystanie w tym celu zaawanasowanych technologii. Wyzwaniem jest tutaj rozumienie wielu różnych języków, w których tworzone są ogłoszenia czy analizowanie treści obrazów. Trzeba próbować sprawdzać różne hipotezy, ponieważ nie wiadomo, co możemy osiągnąć, dopóki nie spróbujemy. Teoria nie zawsze sprawdza się w praktyce, ale im większa jest liczba danych, tym lepsze są budowane modele. Think Big, Start small, Fail quick and Succeed fast – podsumował Dr. Daniel Olmedilla.

Dalsza część konferencji odbywała się trybie trzech ścieżek tematycznych koncentrujących się wokół zagadnień związanych budową i utrzymywaniem infrastruktury sprzętowej i aplikacyjnej, w tym systemami rozproszonymi (m.in. Hadoop, Cassandra, Storm); przykładów zastosowania technologii analitycznych Big Data w biznesie; oraz narzędzi, metod i innowacyjnych rozwiązań do pobierania i przetwarzania danych. Pośród prelegentów znaleźli się przedstawiciele takich firm jak Spotify, SoundCloud, ale także Allegro czy mBank.

 

Dużo dużych danych

Dr. Anders Arpteg, kierujący pracami działu badań analitycznych Spotify, mówił o znacznej skali działania firmy – 75 mln aktywnych użytkowników miesięcznie, 30 mln licencjonowanych utworów – i wyzwaniach z tym związanych. Technologie analityczne Big Data w Spotify wykorzystywane są m.in. do raportowania do wytwórni muzycznych i posiadaczy praw autorskich, na potrzeby funkcji udostępnianych użytkownikom, zapewniania wysokiej jakości danych w katalogu, a także analiz operacyjnych, analityki biznesowej oraz na potrzeby marketingu i rozwoju.

Opowiadał również o rozwoju narzędzi analitycznych w Spotify – od tradycyjnej analizy statystycznej, przez Big Data aż do obecnych technologii działających w czasie rzeczywistym i współpracujących z rozwiązaniami machine learning. Spotify wykorzystuje w tych celach wiele technologii open source m.in. Hadoop, Spark, Flink, Kafka, Storm czy Hive.

Anders Arpteg mówił, że wykorzystanie wielkoskalowego rozwiązania machine learning ma umożliwić wykorzystanie informacji o zachowaniach użytkowników, danych demograficznych oraz dotyczących ogłoszeń, do szacowania prawdopodobieństwa konwersji z wykorzystaniem modelu regresji logistycznej. Jako głównym wyzwaniem w związku z tym projektem Arpteg wskazywał duże zapotrzebowanie na “rozproszoną” szybkość działania systemu. Najważniejsze narzędzia, które są wykorzystywane w tym celu do IPython notebook, biblioteka Scikit oraz Spark w połączeniu z MLlib.

Natomiast Grzegorz Kołpuć z Thomson Reuters, największej międzynarodowej agencji informacyjnej, posiadającej ponad 200 biur na świecie, 2,5 tys. dziennikarzy oraz 600 fotografów (która ma swój ogromny ośrodek R&D w Trójmieście), przedstawiał rozproszone, oparte na technologii Elastic Search oraz open source Lucene, rozwiązanie umożliwiające przeszukiwanie pełnotekstowe wielkich zbiorów danych z funkcjami analitycznymi, które pozwalają na grupowanie wyników, prezentowanie statystyk i rozmaitych wskaźników.

Rozwiązanie Thomson Reuters także musi sprostać operacjom w znacznej skali: m.in. ponad 2,2 mln newsów rocznie, 580 tys. zdjęć i obrazów, 100 tys. relacji wideo. Firma zatrudnia łącznie ponad 60 tys. pracowników (w tym 1200 w Gdyni), z których aż 10 tys. zajmuje się technologiami.

Znacznym zainteresowaniem cieszyło się także wystąpienie Jakuba Kałużnego z SecuRing, który poruszył kwestie bezpieczeństwa w środowiskach Big Data. Swoją prezentację rozpoczął od przedstawienia specyfiki Hadoop w porównaniu do normalnych baz danych odnosząc się do tego co to znaczy naprawdę duża ilość danych na przykładzie Facebooka, Evil Corp.

Dalej mówił o analizie ryzyka i zagrożeniach – ich poznanie jest kluczowe dla zapewnienia ochrony. Na koniec przedstawił “zalecenia” pozwalające zapewnić ochronę dla środowiska Hadoop m.in. ograniczenie do minimum dostępu sieciowego i uprawnień użytkowników, wykonywanie testów penetracyjnych, kontrolowanie wszystkich komponentów rozwiązania, a także połączeń do systemów zewnętrznych.

 

Między nami praktykami

Konferencja zakończyła się dwiema rundami wielotematycznych sesji roundtables, podczas których uczestnicy w stosunkowo niewielkich grupach mogli wymieniać się wiedzą i doświadczeniami dotyczącymi szczególnie interesujących ich zagadnień. Całość zyskała wysokie noty w ocenach widocznych w ankietach wypełnianych przez uczestników – widać było, że BigData Technology Summit trwale wpisał się w krajobraz konferencji o dużych danych w Polsce, służąc społeczności praktyków realizujących wdrożenia BigData.

Zapraszamy za rok, w lutym 2017 roku!

Informacje w kontekście

Rozmowa z Dariuszem Śliwą, Big Data Solution (IM&G) Sales w HPE Software.

MINI_B4F3651x

 

Podczas wystąpienia na konferencji zwracał Pan szczególną uwagę na dane niestrukturalne. Dlaczego?

Należałoby zacząć od tego, że obszar Big Data bardzo szybko się rozwija. Technologie coraz lepiej radzą się z wszystkimi typami danych strukturalnych – czyli takich, które najłatwiej pozyskać i analizować. Mamy jednak do dyspozycji ogromne ilości danych niestrukturalnych, tworzonych przez ludzi, które trzeba najpierw przetworzyć, żeby mogła je zrozumieć maszyna i dokonać analizy. Chodzi np. o zapisy konwersacji między ludźmi czy komunikację miedzy konsumentem a firmą. Nasi klienci potrzebują tego, by z tymi danymi też coś zrobić.

 

Jak wobec tego przedstawia się oferta HPE w obszarze Big Data – z czego się składa?

Podczas prezentacji mówiłem o naszej platformie Big Data HAVEn 2.0, której jednym z fundamentów jest tabelaryczna baza danych Vertica pozwalająca analizować dane w czasie rzeczywistym na olbrzymią skalę. To rozwiązanie jest popularne zwłaszcza pośród wielkich firm internetowych – zresztą można się było o tym przekonać na konferencji.

Drugim elementem jest przejęta wraz z firmą Autonomy technologia IDOL, która wykorzystując mechanizmy sztucznej inteligencji, pozwala na procesowanie i indeksowanie informacji. IDOL potrafi zrozumieć, zinterpretować informacje w sposób w zbliżony do ludzkiego. Może rozróżniać kontekst i rozumieć w jakim znaczeniu słowo zostało użyte w danym kontekście. IDOL potrafi dzięki temu monitorując media społecznościowe zrozumieć sentyment danej wypowiedzi – pozytywny, negatywny czy ironiczny. Przy tym technologia ta jest lingwistycznie niezależna, to znaczy, że większość języków używanych w biznesie, w tym polski, jest obsługiwana z jednakową jakością.

 

Gdzie znajdują zastosowanie te technologie?

IDOL jest używany w wielu rozwiązaniach programowych HPE. Jednym z przykładów jest Control Point. To jest oprogramowanie, która może zajrzeć do repozytoriów z „ludzkimi danymi”, przejrzeć zawartość dokumentów, rysunków, schematów, pozyskać informacje a następnie zindeksować je i zaklasyfikować. Warto dodać, że to najtrudniejsze zadanie, z jakim borykamy się w przypadku przetwarzania informacji generowanych przez człowieka.

Dzięki temu Control Point pozwala nie tylko na usuwanie duplikatów plików, co pozwala uwolnić przestrzeń w pamięci masowej, ale przede wszystkim ma zastosowanie w obszarze tzw. compliance. Kiedy firma wypracowuje politykę informacyjną, to chce później skutecznie ją egzekwować. Naruszenie polityki powinno zostać wychwycone i skorygowane a następnie powinny zostać podjęte działania naprawcze. ControlPoint to potrafi.

Każdy element przetworzony przez Control Point opisywany jest przy wykorzystaniu metadanych. Właśnie takie uzupełnienie „ludzkich danych” o metadane, pozwala później na ich wykorzystanie przez regularne mechanizmy Big Data. W tym miejscu docieramy do sedna sprawy: dzięki kontekstowi informacji jesteśmy w stanie osiągnąć o wiele więcej.

 

Jak postrzega Pan relacje pomiędzy rozwiązaniami komercyjnymi a open source w obszarze Big Data?

Open source to mechanizm zapewniający znaczną demokratyzację technologiczną. Narzędzia podstawowe i ludzka inteligencja to sprawdzony sposób na postęp, odkrycia oraz innowacje. Jeśli jednak mówimy o szybkości, wydajności produkcji, to narzędzia podstawowe przestają wystarczać. Biznes jest w stanie zapłacić za przewidywalne efekty, dostarczone w odpowiedniej jakości i stosunkowo szybko – to jest miejsce dla rozwiązań komercyjnych.

Rozwiązania open source i komercyjne nie są sobie przeciwstawne. Klienci skłonni do eksperymentowania, chętnie wykorzystują narzędzia otwarte. Inni, którym zależy na czasie, wydajności, elastyczności i oczekują gwarancji sukcesu, korzystają z rozwiązań komercyjnych.

Dla HPE open source jest integralną częścią rynku informatycznego. Nasza platforma sprzętowa jest w stanie wydajnie i efektywnie obsługiwać zarówno rozwiązania komercyjne jak i open source. Natomiast od strony programowej, chcemy być blisko klientów, którym zależy na wydajności, szybkości i przewidywalnych efektach.

Machine Learning at Facebook scale

Interview with Dr Daniel Olmedilla, Engineering Manager, who is leading the Machine Learning and Optimization efforts in the area of ads integrity at Facebook.

MINI_B4F3501x

What do you do at Facebook? What is the scope of your work?

I am an Engineering Manager, I lead the machine learning efforts in the area of ads integrity. Basically, my role is to manage the group of engineers that are creating machine learning models to ensure that the quality of the ads created by advertisers is very good. We also apply these models in other domains, like pages for example.

Can you describe your engineering team?

Currently we are 7 people, including me. We are all software engineers. All of us have experience in machine learning, and some of us have PhD in this area or related area of applied machine learning. It is an international, multicultural team. We do not have two members from the same country. We are based in in Menlo Park, within Silicon Valley in California.

What are the most important skills to work in the area of machine learning?

A prototypical person will be a good engineer, that is able to program and to develop new solutions. S/he should also have experience in machine learning. We look for people with a PhD on machine learning or in an area where machine learning was applied. Within the area of machine learning there are things that are of special interest for us such as computer vision. But in general any person working with the type of problems that we try to solve might be a good fit.

Is it hard to find such people in Sillicon Valey?

It is difficult to find experts in general. Machine learning is just one area, but I can imagine that it is difficult also in other specialities. And looking for talent in Sillicon Valey is hard because of the competitive nature of the place.

Let’s get back to your team. Can you say what you are doing as a team?

The team tries to ensure that the content that advertisers are creating is of high quality. We want to present content that is engaging and relevant to our users. And that’s why we want to keep it high quality.

Sometimes ads are lower quality. Since we want users to have a very good experience at Facebook, we work with advertisers so that we can improve the content and protect users.

What are the biggest challenges with that goal?

Definitely the biggest challenge is the scale at which Facebook operates.

According to public numbers, we are talking about 3 million advertisers, more than 1 billion active users daily, almost 1,6 billion active users monthly and more than 50 million small and medium businesses actively using our pages. Even 100 million hours of video are watched each day on Facebook. Facebook operates at Exabyte scale.

Another challenge is having a lot of data where we have a class imbalance problem, that means that whenever you try to learn from the data the distribution is very skewed. The vast majority of the ads are good and relevant. And it is only a small portion in comparison to the overall population that is lower quality.

Part of our work is understanding what is on the text, on the video on the image. Performing and training models at that scale is quite a challenge. That is why we might have different solutions than others. Also the challenge is understanding different languages because 80% of the content that we have is coming outside of US and Canada.

You mentioned that the tools you use are different. Can you tell me more on that?

We, as a team, use many tools that Facebook is offering internally. One of the existing public tools is the FBLearner platform.

It is a platform that allows us to apply machine learning at scale. It provides us with a language in which we can define machine learning workflows. Thanks to that we can iterate and develop new models quickly. We don’t have to deal so much with the challenges of working with large amounts of data and most of the complexity is rather hidden from the person creating those models. We also use many other tools, but we have a policy not to discuss it publicly.

How do you see machine learning – is it pioneering work or is it mature enough to use in business?

I think it is both. A lot of the things that are happening today, not only at Facebook, but in general, is about revisiting some of the work that happened in the past. For example part of the work that has been done now on deep neural networks was done before from a theoretical perspective. These are things that already existed in the past, but were not possible. Now we are making it possible thanks to the increase in computing power, parallel computing, etc.

Then still innovation is going on in many different areas. That is why there is a lot of different institutions doing research. There are many areas being advanced, but simply doing it at very big scale imposes additional challenges.