Wideorelacja z konferencji

Wywiad z Jarosławem Kuśmierkiem, Google.

Wywiad z Krzysztofem Zarzyckim, GetInData.

Wywiad z Piotrem Gawrysiakiem, mBank.

Konkretnie o dużych danych

Druga edycja BigData Technology Summit zgromadziła blisko 300 uczestników, którzy dyskutowali o technicznych aspektach wdrażania, rozwoju i użytkowania rozwiązań obsługujących wielkie zbiory danych: budowaniu i utrzymywaniu skalowalnych infrastruktur danych, popularnych narzędzia i framework-ach używanych w projektach Big Data – wszystko na tle case studies z kraju i zagranicy. Na konferencji obecni byli przedstawiciele zarówno dużych firm – banków, firm ubezpieczeniowych i telekomów – jak i firm informatycznych różnej wielkości, realizujących projekty BigData.

MINIP1210075x

W kuluarach konferencji dało się słyszeć przede wszystkim dyskusje praktyków dzielących się uwagami – aczkolwiek uwagami zrozumiałymi tylko dla developerów, analityków czy data scientists’ów zajmujących się na co dzień narzędziami Big Data. Pewnie dlatego często można było usłyszeć równie, że  „jest to jedyna konferencja dla specjalistów realizujących projekty Big Data umożliwiająca konkretną dyskusję na takim poziomie szczegółowości praktycznej”.

Chyba nikt nie powinien być zdziwiony jeśli w ciągu najbliższych kilku lat zaczniemy mówić o prawdziwej eksplozji zastosowań BigData. Liczba i skala projektów dotyczących wielkich zbiorów danych, prowadzonych w polskich przedsiębiorstwach, systematycznie wzrasta – podobnie zresztą jak liczba uczestników konferencji Big Data Technology Summit. Dotyczy to już nie tylko firm internetowych, dla których Big Data to chleb powszedni, ale także banków, instytucji finansowych, energetyki czy mediów.

 

Kluczowe trendy

W tym kontekście Adam Bartos z Big Data Competency Center w SAS Polska, występujący podczas sesji plenarnej, mówił o trzech kluczowych trendach w obszarze Big Data. Pierwszy z nich to wykorzystywanie w biznesie narzędzi open source, które z jednej strony stanowią konkurencję dla rozwiązań komercyjnych dostawców, „od zawsze” obecnych w świecie danych i analityki, ale z drugiej stanowią w pewnych obszarach uzupełnienie i są przez komercyjnych dostawców coraz częściej wykorzystywane. Drugi ważny trend to demokratyzacja wielkich danych, polegająca na udostępnianiu ich coraz szerszej grupie użytkowników poprzez zrozumiałe dla nich narzędzia – proste a zarazem coraz potężniejsze w swoich możliwościach. Trzeci trend z kolei to analityka strumienia danych, dokonywana w czasie rzeczywistym – czyli coś, co wydawało się przynależeć do dyskusji o przyszłości, a dzieje się już na naszych oczach.

Konferencja zaczęła się jednak od naprawdę wielkich danych, wielkich technologii i wielkich biznesów. Pierwszym z nich był Tal Sliwowicz, szef działu badań i rozwoju izraelskiej firmy Taboola, która specjalizuje się w odkrywaniu wzorów konsumowania treści w Internecie i na tej podstawie prezentowania rekomendacji kolejnych treści dla użytkowników. Tal Sliwowicz opowiadał, w jaki sposób historycznie rozwijana była infrastruktura obsługująca platformę, której istotnym elementem są technologie open source – takie jak Spark, Hadoop i Cassandra, wykorzystywaną m.in. przez NBC, USA Today, The Weather Channel oraz Fox Sports. Platforma Taboola serwuje 300 mld. rekomendacji dla 750 mln unikalnych użytkowników miesięcznie, co przekłada się na ponad 100 tys. zapytań na sekundę i 5TB danych każdego dnia.

O wykorzystaniu machine learning do zapewniania integralności i wysokiej jakości reklam opowiadał Dr. Daniel Olmedilla z Facebooka. Dla firmy obsługującej 2,5 mln aktywnych ogłoszeniodawców selekcja treści agresywnych, obraźliwych czy w jakikolwiek inny sposób mogących urazić użytkowników, to poważne wyzwanie (zarządzanie wyświetlaniem tych reklam dzieje się już całkowicie automatycznie). Dr. Daniel Olmedilla stoi na czele zespołu analityków i matematyków, którzy odpowiadają za wykorzystanie w tym celu zaawanasowanych technologii. Wyzwaniem jest tutaj rozumienie wielu różnych języków, w których tworzone są ogłoszenia czy analizowanie treści obrazów. Trzeba próbować sprawdzać różne hipotezy, ponieważ nie wiadomo, co możemy osiągnąć, dopóki nie spróbujemy. Teoria nie zawsze sprawdza się w praktyce, ale im większa jest liczba danych, tym lepsze są budowane modele. Think Big, Start small, Fail quick and Succeed fast – podsumował Dr. Daniel Olmedilla.

Dalsza część konferencji odbywała się trybie trzech ścieżek tematycznych koncentrujących się wokół zagadnień związanych budową i utrzymywaniem infrastruktury sprzętowej i aplikacyjnej, w tym systemami rozproszonymi (m.in. Hadoop, Cassandra, Storm); przykładów zastosowania technologii analitycznych Big Data w biznesie; oraz narzędzi, metod i innowacyjnych rozwiązań do pobierania i przetwarzania danych. Pośród prelegentów znaleźli się przedstawiciele takich firm jak Spotify, SoundCloud, ale także Allegro czy mBank.

 

Dużo dużych danych

Dr. Anders Arpteg, kierujący pracami działu badań analitycznych Spotify, mówił o znacznej skali działania firmy – 75 mln aktywnych użytkowników miesięcznie, 30 mln licencjonowanych utworów – i wyzwaniach z tym związanych. Technologie analityczne Big Data w Spotify wykorzystywane są m.in. do raportowania do wytwórni muzycznych i posiadaczy praw autorskich, na potrzeby funkcji udostępnianych użytkownikom, zapewniania wysokiej jakości danych w katalogu, a także analiz operacyjnych, analityki biznesowej oraz na potrzeby marketingu i rozwoju.

Opowiadał również o rozwoju narzędzi analitycznych w Spotify – od tradycyjnej analizy statystycznej, przez Big Data aż do obecnych technologii działających w czasie rzeczywistym i współpracujących z rozwiązaniami machine learning. Spotify wykorzystuje w tych celach wiele technologii open source m.in. Hadoop, Spark, Flink, Kafka, Storm czy Hive.

Anders Arpteg mówił, że wykorzystanie wielkoskalowego rozwiązania machine learning ma umożliwić wykorzystanie informacji o zachowaniach użytkowników, danych demograficznych oraz dotyczących ogłoszeń, do szacowania prawdopodobieństwa konwersji z wykorzystaniem modelu regresji logistycznej. Jako głównym wyzwaniem w związku z tym projektem Arpteg wskazywał duże zapotrzebowanie na “rozproszoną” szybkość działania systemu. Najważniejsze narzędzia, które są wykorzystywane w tym celu do IPython notebook, biblioteka Scikit oraz Spark w połączeniu z MLlib.

Natomiast Grzegorz Kołpuć z Thomson Reuters, największej międzynarodowej agencji informacyjnej, posiadającej ponad 200 biur na świecie, 2,5 tys. dziennikarzy oraz 600 fotografów (która ma swój ogromny ośrodek R&D w Trójmieście), przedstawiał rozproszone, oparte na technologii Elastic Search oraz open source Lucene, rozwiązanie umożliwiające przeszukiwanie pełnotekstowe wielkich zbiorów danych z funkcjami analitycznymi, które pozwalają na grupowanie wyników, prezentowanie statystyk i rozmaitych wskaźników.

Rozwiązanie Thomson Reuters także musi sprostać operacjom w znacznej skali: m.in. ponad 2,2 mln newsów rocznie, 580 tys. zdjęć i obrazów, 100 tys. relacji wideo. Firma zatrudnia łącznie ponad 60 tys. pracowników (w tym 1200 w Gdyni), z których aż 10 tys. zajmuje się technologiami.

Znacznym zainteresowaniem cieszyło się także wystąpienie Jakuba Kałużnego z SecuRing, który poruszył kwestie bezpieczeństwa w środowiskach Big Data. Swoją prezentację rozpoczął od przedstawienia specyfiki Hadoop w porównaniu do normalnych baz danych odnosząc się do tego co to znaczy naprawdę duża ilość danych na przykładzie Facebooka, Evil Corp.

Dalej mówił o analizie ryzyka i zagrożeniach – ich poznanie jest kluczowe dla zapewnienia ochrony. Na koniec przedstawił “zalecenia” pozwalające zapewnić ochronę dla środowiska Hadoop m.in. ograniczenie do minimum dostępu sieciowego i uprawnień użytkowników, wykonywanie testów penetracyjnych, kontrolowanie wszystkich komponentów rozwiązania, a także połączeń do systemów zewnętrznych.

 

Między nami praktykami

Konferencja zakończyła się dwiema rundami wielotematycznych sesji roundtables, podczas których uczestnicy w stosunkowo niewielkich grupach mogli wymieniać się wiedzą i doświadczeniami dotyczącymi szczególnie interesujących ich zagadnień. Całość zyskała wysokie noty w ocenach widocznych w ankietach wypełnianych przez uczestników – widać było, że BigData Technology Summit trwale wpisał się w krajobraz konferencji o dużych danych w Polsce, służąc społeczności praktyków realizujących wdrożenia BigData.

Zapraszamy za rok, w lutym 2017 roku!

Informacje w kontekście

Rozmowa z Dariuszem Śliwą, Big Data Solution (IM&G) Sales w HPE Software.

MINI_B4F3651x

 

Podczas wystąpienia na konferencji zwracał Pan szczególną uwagę na dane niestrukturalne. Dlaczego?

Należałoby zacząć od tego, że obszar Big Data bardzo szybko się rozwija. Technologie coraz lepiej radzą się z wszystkimi typami danych strukturalnych – czyli takich, które najłatwiej pozyskać i analizować. Mamy jednak do dyspozycji ogromne ilości danych niestrukturalnych, tworzonych przez ludzi, które trzeba najpierw przetworzyć, żeby mogła je zrozumieć maszyna i dokonać analizy. Chodzi np. o zapisy konwersacji między ludźmi czy komunikację miedzy konsumentem a firmą. Nasi klienci potrzebują tego, by z tymi danymi też coś zrobić.

 

Jak wobec tego przedstawia się oferta HPE w obszarze Big Data – z czego się składa?

Podczas prezentacji mówiłem o naszej platformie Big Data HAVEn 2.0, której jednym z fundamentów jest tabelaryczna baza danych Vertica pozwalająca analizować dane w czasie rzeczywistym na olbrzymią skalę. To rozwiązanie jest popularne zwłaszcza pośród wielkich firm internetowych – zresztą można się było o tym przekonać na konferencji.

Drugim elementem jest przejęta wraz z firmą Autonomy technologia IDOL, która wykorzystując mechanizmy sztucznej inteligencji, pozwala na procesowanie i indeksowanie informacji. IDOL potrafi zrozumieć, zinterpretować informacje w sposób w zbliżony do ludzkiego. Może rozróżniać kontekst i rozumieć w jakim znaczeniu słowo zostało użyte w danym kontekście. IDOL potrafi dzięki temu monitorując media społecznościowe zrozumieć sentyment danej wypowiedzi – pozytywny, negatywny czy ironiczny. Przy tym technologia ta jest lingwistycznie niezależna, to znaczy, że większość języków używanych w biznesie, w tym polski, jest obsługiwana z jednakową jakością.

 

Gdzie znajdują zastosowanie te technologie?

IDOL jest używany w wielu rozwiązaniach programowych HPE. Jednym z przykładów jest Control Point. To jest oprogramowanie, która może zajrzeć do repozytoriów z „ludzkimi danymi”, przejrzeć zawartość dokumentów, rysunków, schematów, pozyskać informacje a następnie zindeksować je i zaklasyfikować. Warto dodać, że to najtrudniejsze zadanie, z jakim borykamy się w przypadku przetwarzania informacji generowanych przez człowieka.

Dzięki temu Control Point pozwala nie tylko na usuwanie duplikatów plików, co pozwala uwolnić przestrzeń w pamięci masowej, ale przede wszystkim ma zastosowanie w obszarze tzw. compliance. Kiedy firma wypracowuje politykę informacyjną, to chce później skutecznie ją egzekwować. Naruszenie polityki powinno zostać wychwycone i skorygowane a następnie powinny zostać podjęte działania naprawcze. ControlPoint to potrafi.

Każdy element przetworzony przez Control Point opisywany jest przy wykorzystaniu metadanych. Właśnie takie uzupełnienie „ludzkich danych” o metadane, pozwala później na ich wykorzystanie przez regularne mechanizmy Big Data. W tym miejscu docieramy do sedna sprawy: dzięki kontekstowi informacji jesteśmy w stanie osiągnąć o wiele więcej.

 

Jak postrzega Pan relacje pomiędzy rozwiązaniami komercyjnymi a open source w obszarze Big Data?

Open source to mechanizm zapewniający znaczną demokratyzację technologiczną. Narzędzia podstawowe i ludzka inteligencja to sprawdzony sposób na postęp, odkrycia oraz innowacje. Jeśli jednak mówimy o szybkości, wydajności produkcji, to narzędzia podstawowe przestają wystarczać. Biznes jest w stanie zapłacić za przewidywalne efekty, dostarczone w odpowiedniej jakości i stosunkowo szybko – to jest miejsce dla rozwiązań komercyjnych.

Rozwiązania open source i komercyjne nie są sobie przeciwstawne. Klienci skłonni do eksperymentowania, chętnie wykorzystują narzędzia otwarte. Inni, którym zależy na czasie, wydajności, elastyczności i oczekują gwarancji sukcesu, korzystają z rozwiązań komercyjnych.

Dla HPE open source jest integralną częścią rynku informatycznego. Nasza platforma sprzętowa jest w stanie wydajnie i efektywnie obsługiwać zarówno rozwiązania komercyjne jak i open source. Natomiast od strony programowej, chcemy być blisko klientów, którym zależy na wydajności, szybkości i przewidywalnych efektach.

Machine Learning w skali Facebooka

Rozmowa z dr Danielem Olmedilla, pełniącym w Facebooku funkcję Engineering Managera, który kieruje pracami związanymi z uczeniem maszynowymi i jego optymalizacją w obszarze poprawności doboru i wyświetlania reklam.

MINI_B4F3501x

 

Co Pan robi w Facebooku? Jaki jest zakres Pańskich obowiązków?

Jestem menadżerem zarządzającymi pracami inżynierskimi w zakresie machine learning na potrzeby zapewnienia poprawności reklam. W skrócie, moja rola polega na kierowaniu grupą inżynierów tworzących modele uczenia maszynowego w celu zagwarantowania, że jakość reklam tworzonych przez ogłoszeniodawców stoi na odpowiednio wysokim poziomie. Wykorzystujemy te modele także w innych obszarach, przykładowo na stronach Facebooka.

 

Czy może Pan opisać swój zespół?

Wszyscy jesteśmy inżynierami oprogramowania. Wszyscy mamy także doświadczenie w zakresie uczenia maszynowego, a niektórzy z nas mają stopień naukowy doktora w tym obszarze lub w pokrewnej dziedzinie związanej z zastosowaniem uczenia maszynowego. Jesteśmy międzynarodowym, wielokulturowym zespołem. Nie ma w nim dwóch członków z tego samego kraju. Jesteśmy zlokalizowani w Menlo Park, w obrębie Doliny Krzemowej w Kalifornii.

 

Jakie są najważniejsze umiejętności potrzebne do pracy nad uczeniem maszynowym?

Idealny kandydat to dobry inżynier, który potrafi programować i rozwijać nowe rozwiązania. Powinien (czy powinna!) mieć doświadczenie w obszarze uczenia maszynowego. Szukamy ludzi ze stopniem doktora w obszarze machine learning lub w dziedzinie, w której zastosowano uczenie maszynowe. Pewne zagadnienia są dla nas bardziej interesujące niż inne, np. widzenie komputerowe. Zasadniczo jednak, każda osoba, która zajmowała się takim typem problemów, które staramy się rozwiązywać pasowałaby do naszego zespołu.

MINIP1210251x

 

Czy trudno znaleźć takich ludzi w Dolinie Krzemowej?

W ogóle trudno znaleźć ekspertów w różnych dziedzinach. Uczenie maszynowe to tylko jedna z nich, ale wyobrażam sobie, że tak samo trudno znaleźć specjalistów w innych obszarach. A poszukiwanie talentów w Dolinie Krzemowej jest trudno ze względu na konkurencyjną naturę tego miejsca.

 

Wróćmy do Pańskiego zespołu. Czy może Pan opowiedzieć czym dokładnie się zajmujecie?

Zespół stara się zapewnić wysoką jakość treści, które tworzą ogłoszeniodawcy. Chcemy pokazywać naszym użytkownikom treści, które są angażujące i odpowiadają na ich potrzeby. Dlatego staramy się zachować wysoką jakość.

Czasem zdarzają się ogłoszenia niższej jakości. W związku z tym, że chcemy by użytkownicy mieli pozytywne wrażenia związane z korzystaniem z Facebooka, pracujemy z ogłoszeniodawcami nad poprawieniem treści i ochroną użytkowników.

 

Co jest największym wyzwaniem w tym przypadku?

Zdecydowanie największym wyzwaniem jest skala, w jakiej działa Facebook.

Patrząc na dostępne publicznie liczby, mówimy o blisko 3 milionach ogłoszeniodawców, ponad 1 miliardzie aktywnych użytkowników każdego dnia, prawie 1,6 miliardzie aktywnych użytkowników miesięcznie i ponad 50 milionach małych i średnich przedsiębiorstw aktywnie korzystających z naszych stron. Nawe 100 milionów godzin wideo jest każdego dnia wyświetlanych na Facebooku. Firma działa eksabajtowej w skali.

Innym wyzwaniem jest duża ilość danych, w której mamy problem nierównowagi klas, co oznacza, że zawsze kiedy chcemy czegoś dowiedzieć w oparciu o te dane, dystrybucja jest bardzo odchylona. Ogromna większość ogłoszeń jest wysokiej jakości i odpowiada na potrzeby użytkowników. Jedynie niewielka część w porównaniu do całej populacji jest niższej jakości.

Częścią naszej pracy jest zrozumienie tekstu albo tego co znajduje się na filmie czy na grafice. Tworzenie i trenowanie modeli w takiej skali jest poważnym wyzwaniem. Dlatego nasze rozwiązania mogą się różnić od tych wykorzystywanych przez innych. Ponadto wyzwaniem jest rozumienie różnych języków, ponieważ 80% naszych treści pochodzi spoza obszaru USA i Kanady.

 

Wspomniał Pan, że wykorzystujecie nietypowe narzędzia? Czy może Pan to rozwinąć?

Jako zespół korzystamy z wielu narzędzi, które Facebook oferuje wewnętrznie. Jednym z istniejących publicznych narzędzi jest platforma FBLearner.

To platforma, która pozwala nam zastosować machine learning w odpowiedniej skali. Dostarcza nam języka, w którym możemy definiować przepływy zadań w uczeniu maszynowym. Dzięki temu możemy szybko tworzyć iteracje i nowe modele. Nie musimy tak bardzo zmagać się z wyzwaniem, jakim jest praca z dużymi ilościami danych. Większość złożonych problemów z tym związanych jest ukryta przed osobą tworzącą te modele. Korzystamy także z wielu innych narzędzi, jednak nasza polityka nie pozwala rozmawiać o nich publicznie.

 

Jak Pan postrzega uczenie maszynowe – czy to pionierska działalność czy ta dziedzina jest dostatecznie dojrzała, żeby można ją było zastosować w biznesie?

Myślę, że obie odpowiedzi są właściwe. Wiele projektów, które są obecnie realizowane, nie tylko w Facebooku, ale w ogóle, to powrót do prac, które zostały wykonane w przeszłości. Przykładowo, część aktualnych prac związanych z głębokimi sieciami neuronowymi, została wykonana wcześniej na poziomie teoretycznym. To rozwiązania, które istniały w przeszłości, ale były niemożliwe do zrealizowania. Obecnie stało się to możliwie dzięki wzrostowi mocy obliczeniowej, przetwarzaniu równoległemu itp.

Jednak wciąż pojawiają się innowacje w wielu różnych obszarach. Dlatego wiele różnych instytucji prowadzić badania. Wiele obszarów znajduje się na wysokim poziomie zaawansowania, ale realizacja projektów w bardzo dużej skali stwarza dodatkowe wyzwania.

 

Dr Daniel Olmedilla był jednym z keynote na konferencji BigData Technology Summit – 25 lutego 2016 r. w Warszawie.