40 dni – tyle czasu ma Facebook na odpowiedź na wniosek o udostępnienie pełnych informacji, jakie ma o użytkowniku (z takim żądaniem może wystąpić każda osoba korzystająca z serwisu). Na raport czekam od ponad dwóch tygodni i wiem, że będzie obszerny. Bo już po kilku godzinach od wysłania prośby korporacja przesłała mi jego wersję skróconą. To 75 MB danych. Część oczywista, bo pamiętam, z czego się wyspowiadałam FB: data urodzenia, numer telefonu, ale na pewno nie adres, informacje o wykształceniu, zatrudnieniu czy numer karty kredytowej.
Najbardziej zadziwiające było jednak to, gdy zobaczyłam, jak FB widzi te informacje. Każde wejście do serwisu jest opisane: data, IP komputera, szerokość oraz długość geograficzna, pod którą się znajdowałam, kto spośród znajomych był w tym czasie dostępny – czyli mógł przeczytać moje wpisy. Opisy zdjęć są równie szczegółowe: jakim aparatem wykonane, o której godzinie i kto oraz gdzie je obejrzał. Wszystko podzielone na kilkanaście kategorii, m.in.: polubione strony firmowe i te, z których obserwowania zrezygnowałam, wydarzenia publiczne, w których uczestniczyłam, i kto ze znajomych też brał w nich udział. Była też tam cała prywatna korespondencja, także ta, którą wykasowałam. Gdyby jeszcze były używane dyskietki, to na informacje, które Facebook mi udostępnił, potrzeba by ich było ponad 52.
Sporo. A przecież internet to nie tylko Facebook. To także Google, Apple, Microsoft, Amazon, eBay, Twitter, Yahoo, NK.pl, Allegro i dziesiątki tysięcy innych internetowych sklepów czy firm. Bo zbieranie, przechowywanie i przetwarzanie danych jest coraz ważniejszą częścią prowadzonych przez nie biznesów. Tak ważną, że nazywane są Big Data, czyli Wielkie Dane. Nie tylko dlatego, że są większe niż jakiekolwiek dotąd zbierane informacje do celów statystycznych czy badawczych. A że są, wystarczy przykład Wal-Martu, największej sieci sklepów na świecie, która gromadzi ponad milion informacji zakupowych na godzinę. Wielkie także dlatego, że ich przyrost jest coraz szybszy. Ale skoro są tak wielkie zasoby, to czy w ogóle można je sensownie wykorzystać?
Nowa ropa, nowy cukier
– socjolog Jan Zając natychmiast odpowiada na pytanie, czy zbieranie miliardów milionów bajtów danych ma sens. – dodaje.
Świat cyfrowej gospodarki jest światem Big Data. – tłumaczy Zając. Jest nie tylko socjologiem specjalizującym się w nowych mediach, lecz także współtwórcą firmy SmartNet Research & Solutions założonej przez naukowców z Uniwersytetu Warszawskiego. Opracowała ona Sotrender – narzędzie służące do analizy danych gromadzonych w serwisach społecznościowych. Stało się o nim głośno rok temu podczas protestów anty-ACTA. Administrator strony fanowskiej kancelarii premiera na Facebooku ocenzurował negatywne komentarze internautów oburzonych przyjęciem tej umowy. Kancelaria tłumaczyła: trzeba było to zrobić, bo były pełne wulgaryzmów. Sotrender udowodnił, że w sieci nic nie ginie. Odkopał wykasowane komentarze i upublicznił je. Wcale nie były wulgarne, ale po prostu antyrządowe.
To jeden z dowodów na to, jaką siłę mogą mieć wiedza i umiejętności korzystania z danych w sieci. Inny przykład: European Bakery, jedna z europejskich sieci piekarni, zaobserwowała, że w dni słoneczne sprzedaje więcej ciastek, a w dni deszczowe – kanapek. I zaczęła dostosowywać produkcję do prognozy pogody. tłumaczy Michał Sadowski, prezes firmy Brand24, specjalizującej się w przetwarzaniu informacji, jakie zostawiamy na portalach społecznościowych, i na ich podstawie przygotowującej raporty dla firm o nowych trendach, o tym, jak są oceniane w sieci, ale także czy nie zbliża się kryzys, bo klienci zaczynają właśnie w sposób negatywny wypowiadać się o danej marce czy danym przedsiębiorstwie.
Eksperci od przetwarzania danych tłumaczą, jak wygląda cały proces. Internet jest jak wielka farma. Nie hoduje się tu jednak owiec ani świnek, nie sadzi się marchewki i ziemniaków, nie zbiera się jaj i nie doi krów. Na tej farmie hoduje się, sadzi, zbiera i doi ludzi. Na jakie strony wchodzą, gdzie się rejestrują, jakie filmy oglądają, jakiej muzyki słuchają, co kupują, za ile, z kim się kontaktują, gdzie się znajdują... Inna metafora przetwarzania Wielkich Danych przyrównuje je do platformy wiertniczej wydobywającej ropę naftową. Im głębiej, tym jej więcej, ale trzeba się coraz bardziej natrudzić, by ją wydobyć. Ale właśnie ta „nowa ropa” napędza e-biznes.
Rob Jackson, ekspert od analityki e-biznesowej z Elisa DBI, woli metaforę nowego cukru. tłumaczy Jackson.
Randka z data scientist
Od połowy lat 80. królowało tradycyjne podejście do zarządzania danymi z sieci. Na przykład zanim prezesowi przedstawiono przekroje sprzedaży w różnych segmentach klientów, najpierw rzesza pracowników musiała poopisywać tych klientów, pamiętając o takich szczegółach, jak płeć, wydatek, rodzaj czy miejsce zakupu. Potem informacje kumulowano w tzw. hurtowniach danych i układano pod konkretne zamówienia i potrzeby. Ale 5 lat temu pojawiły się głosy, że taki system tylko przysparza problemów. Zauważono, że w niektórych sytuacjach porządkowanie danych traci sens, bo tempo ich przyrastania jest większe niż tempo analizowania. Zaczął się gigantyczny bałagan.
Trzeba było poszukać nowych metod analizowania. Według świeżutkiego raportu Deloitte najbliższe miesiące miną pod hasłem „Billions and billions: Big Data becomes a big deal”, czyli „Miliardy i miliardy: Wielkie Dane stają się wielkim biznesem”. Ale nie jest to zadanie łatwe, bo materia jest wyjątkowo płynna i obszerna. Tylko sam FB codziennie zbiera o użytkowanikach 500 terabajtów danych (dysk twardy o takiej pojemności, gdyby istniał, pozwoliłby na zapisanie 127 mln piosenek w formacie mp3). przyznaje Sadowski.
I właśnie dlatego działy zarządzania danymi są najszybciej rozwijającymi się departamentami nie tylko w e-korporacjach, lecz także w tradycyjnych firmach. – tłumaczy Zając. W największym serwisie aukcyjnym na świecie, eBayu, już 7,5 tys. osób – czyli co czwarty pracownik – zajmuje się analizami codziennych danych na temat zachowań klientów. Ale i oni już nie nadążają: każdego dnia przyrasta 50 TB danych. Podobne niedobory są u wszystkich graczy. Jak prognozuje McKinsey & Company, do 2018 roku tylko w Ameryce będzie brakować do 180 tys. specjalistów od analizy Big Data i 1,5 mln menedżerów umiejących wykorzystywać efekty tej pracy do podejmowania decyzji biznesowych.
Na szczycie piramidy wszystkich pracowników zajmujących się analizą danych są data scientists. Big Data to zupełnie nowa jakość, więc trzeba się nimi inaczej zajmować: muszą być najpierw przetworzone w celu dokonania wystandaryzowanej obróbki, a potem potrzebna jest wiedza społeczna, by je wykorzystać. I właśnie tym zajmują się data scientists. To połączenie inżynierów, statystyków i socjologów, którzy nieustannie poszukują nowych korelacji, które trzeba jak najszybciej włączyć do badań. Już dziś tacy eksperci są tak bardzo poszukiwani, że „Harvard Business Review” zawód data scientist nazwał „najseksowniejszą pracą XXI wieku” i doradza swoim czytelnikom: chcesz być na czasie i brylować w towarzystwie, poproś szefa, aby napisał na twojej wizytówce: „Mistrz danych”.
Wyścig zbrojeń
Tak właśnie pracuje Data Science Team, zespół analizy danych w centrali Facebooka, kierowany przez 36-letniego Camerona Marlowa. Jeszcze rok temu liczył 12 naukowców, dziś ponad 20. Niby niedużo, ale to creme de la creme: magazyn naukowy Massachusetts Institute of Technology, jednej z najlepszych technicznych uczelni świata, nazwał ich „laboratorium Bella epoki mediów społecznościowych” (naukowcy z laboratorium Bella dali światu w ubiegłym wieku mnóstwo przełomowych wynalazków – red.). Wszyscy z bardzo dużymi umiejętnościami matematycznymi, programistycznymi i co równie ważne – ze sporą wiedzą z dziedziny nauk społecznych. Kiedy inne grupy analityczne w Facebooku skupiają się na pojedynczych zachowaniach użytkowników serwisu, zespół Marlowa pływa po całym oceanie informacji. Mają zapewnione wszelkie możliwości badawcze, bo zarząd firmy wie, że to oni mają największą szansę na odkrycie metod, na których serwis zacznie w końcu zarabiać.
Dane analizuje się jednak nie tylko wewnątrz firm. Powstaje coraz więcej przedsiębiorstw, które specjalizują się w przyjmowaniu zleceń na takie usługi. Tak właśnie działają wspomniane Sotrender czy Brand24. Ale także setki innych firm ze świata, które mają pełne ręce roboty. Dla przykładu amerykańska platforma BrightEdge, która ruszyła zaledwie dwa lata temu, dziś ma ponad 150 klientów i każdego tygodnia analizuje 100 TB danych, doradzając, jak pozycjonować się w wyszukiwarkach i skuteczniej angażować klientów na portalach społecznościowych. –powiada Sadowski.
Według Josepha Regera, dyrektora technicznego z Fujitsu Technology Solutions, jesteśmy świadkami powstawania nowej branży: pośrednictwa informacyjnego. – tłumaczy. I dodaje, że w połowie lat 20. XXI w. pośrednictwo informacji najprawdopodobniej będzie już powszechnie stosowane. dodaje ekspert z Fujitsu.
Już dziś rynek szykuje się do tego nowego modelu. Najważniejsze moce są w rękach (serwerach) dwóch największych graczy: Oracle i Salesforce. Te dwie amerykańskie firmy mają najwięcej rozwiązań pozwalających na przetwarzanie danych. I to między nimi trwa wyścig na coraz bardziej zaawansowane rozwiązania. Tylko w ubiegłym roku Oracle przejął kilka spółek z ich nowoczesnymi rozwiązaniami. Była to m.in. Collective Intellect specjalizująca się w wykorzystaniu „nowoczesnych technologii semantycznych do przetwarzania strumieni informacji publikowanych przez użytkowników serwisów społecznościowych”, czyli śledząca i analizująca korespondencję prowadzoną przez użytkowników w ramach serwisów takich jak Facebook. Wcześniej Oracle nabyło firmę Vitrue, która skupiła się na mechanizmach wspierających zarządzanie kampaniami marketingowymi w sieciach społecznościowych. W tym samym czasie Salesforce przejęło spółkę Buddy Media wyspecjalizowaną w rozwiązaniach wspierających procesy sprzedażowe oparte na sieciach społecznych, będącą największym konkurentem Vitrue. I te zakupy okazują się jak najbardziej trafione, bo i Oracle, i Salesforce z roku na rok osiągają coraz większe przychody.
Na tym tle o dziwo najsłabiej wypada Google. Choć dysponuje zasobami informacji, o których wszyscy inni mogą tylko pomarzyć (ponad 2 mln zapytań na godzinę), zespół analityczny potentata z Montain View nie jest specjalnie rozbudowany. Może to i dobrze, bo wiedza o nas, którą ma Google, jest naprawdę ogromna. Jak podał były już szef tej firmy Eric Smichdt, w ciągu dwóch dni na świecie powstaje i trafia do mniejszych i większych graczy internetowych kompletnie niewyobrażalna liczba 5 eksabajtów (jeden eksabajt to milion terabajtów) informacji i za sporą ich część odpowiada właśnie jego eksfirma.
Cena pod klienta
Skoro już wiemy, kto dysponuje danymi, warto się dowiedzieć, jak konkretnie są one wykorzystywane. – Dzięki nim rozwija się reklama behawioralna, w której komunikat jest dopasowywany do konkretnej osoby zostawiającej informacje o sobie w sieci – opowiada Jan Zając.
Takie reklamy są powszechne. Facebook, który stara się niewiele miejsca na stronie przeznaczać na reklamy, wyłącznie używa behawioralnych, zaprogramowanych pod konkretnego użytkownika. Od niemal czterech lat z reklamą behawioralną eksperymentuje Google, a od półtora roku możliwość kierowania reklam do użytkowników zainteresowanych określoną tematyką mają już wszyscy klienci tej firmy. I jest to mechanizm coraz bardziej precyzyjny. Jeszcze niedawno kierowanie reklam w tej sieci opierało się głównie na kontekście, np. reklamowe ramki na blogu modowym automat wypełniał anonsami sklepów z ubraniami. Choć wybór takiej witryny wskazywał na zainteresowanie internauty modą, sprzedawcy tracili go z oczu z chwilą, gdy przechodził na inną stronę. Nowa technologia umożliwia dotarcie do internautów zainteresowanych na przykład modą również wtedy, gdy odwiedzają witrynę poświęconą książkom. System obserwuje najpierw ich zachowanie, przeglądane przez nich witryny, z uwzględnieniem częstotliwości i spędzonego tam czasu. Na tej podstawie wyciąga wnioski na temat zainteresowań.
Ale kierunkowanie reklam to początek. – mówi Zając. I właśnie takie sprzedażowe cele to dziś główny kierunek analiz danych. Po prostu one dają natychmiastowy efekt i zysk.
Ale marketingowe i sprzedażowe działania wcale nie są docelowym kierunkiem. Data scientists mają coraz większe ambicje. Jak choćby Carlo Ratti, profesor Massachusetts Institute of Technology, gdzie kieruje Senseable City Lab. Właśnie pracuje nad wykorzystaniem cyfrowych danych do stworzenia „real time city”, czyli miasta zarządzanego w czasie rzeczywistym, które jest nieustannie podglądane, a analiza danych umożliwia błyskawiczne podejmowanie decyzji. Jakich? Jak policja ma walczyć z przestępcami czy jak zarządzać transportem miejskim przy zmianie pogody. Jak się okazuje, nie są tu przydatne tylko dane o samej przestępczości, pogodzie i możliwościach transportowych. Ale także wszystko to, co w internecie publikują mieszkańcy, skarżąc się na warunki podróżowania, wzrost konkretnych zagrożeń czy dzieląc się opiniami o życiu w danym miejscu.
„Real time city” to pieśń przyszłości. Może niezbyt odległej, ale jednak. Tak samo jak osaczenie nas przez wszystko wiedzący komputerowy algorytm Facebooka, Google'a czy Apple'a. Bo jaki spójny wniosek, który może zostać zamieniony na pieniądze, płynie z tego, że ten tekst pisałam na komputerze z Windowsem, poprawiałam na macu, a przy okazji przeglądałam FB, nieco zatwittowałam, zajrzałam na News.bbc.co.uk, a potem przejrzałam kilka luźniejszych stron? I że była właśnie godzina 6.45 rano?
– mówi Rob Jackson, analityk e-biznesu z Elisa DBI