40 dni – tyle czasu ma Facebook na odpowiedź na wniosek o udostępnienie pełnych informacji, jakie ma o użytkowniku (z takim żądaniem może wystąpić każda osoba korzystająca z serwisu). Na raport czekam od ponad dwóch tygodni i wiem, że będzie obszerny. Bo już po kilku godzinach od wysłania prośby korporacja przesłała mi jego wersję skróconą. To 75 MB danych. Część oczywista, bo pamiętam, z czego się wyspowiadałam FB: data urodzenia, numer telefonu, ale na pewno nie adres, informacje o wykształceniu, zatrudnieniu czy numer karty kredytowej.
Najbardziej zadziwiające było jednak to, gdy zobaczyłam, jak FB widzi te informacje. Każde wejście do serwisu jest opisane: data, IP komputera, szerokość oraz długość geograficzna, pod którą się znajdowałam, kto spośród znajomych był w tym czasie dostępny – czyli mógł przeczytać moje wpisy. Opisy zdjęć są równie szczegółowe: jakim aparatem wykonane, o której godzinie i kto oraz gdzie je obejrzał. Wszystko podzielone na kilkanaście kategorii, m.in.: polubione strony firmowe i te, z których obserwowania zrezygnowałam, wydarzenia publiczne, w których uczestniczyłam, i kto ze znajomych też brał w nich udział. Była też tam cała prywatna korespondencja, także ta, którą wykasowałam. Gdyby jeszcze były używane dyskietki, to na informacje, które Facebook mi udostępnił, potrzeba by ich było ponad 52.
Sporo. A przecież internet to nie tylko Facebook. To także Google, Apple, Microsoft, Amazon, eBay, Twitter, Yahoo, NK.pl, Allegro i dziesiątki tysięcy innych internetowych sklepów czy firm. Bo zbieranie, przechowywanie i przetwarzanie danych jest coraz ważniejszą częścią prowadzonych przez nie biznesów. Tak ważną, że nazywane są Big Data, czyli Wielkie Dane. Nie tylko dlatego, że są większe niż jakiekolwiek dotąd zbierane informacje do celów statystycznych czy badawczych. A że są, wystarczy przykład Wal-Martu, największej sieci sklepów na świecie, która gromadzi ponad milion informacji zakupowych na godzinę. Wielkie także dlatego, że ich przyrost jest coraz szybszy. Ale skoro są tak wielkie zasoby, to czy w ogóle można je sensownie wykorzystać?



Reklama

Nowa ropa, nowy cukier

– Można. I to się robi – socjolog Jan Zając natychmiast odpowiada na pytanie, czy zbieranie miliardów milionów bajtów danych ma sens. – Serwisy społecznościowe, portale, sklepy, wyszukiwarki nie dość, że zbierają skrzętnie każdą informację o nas, to jeszcze zamieniają ją na pieniądze. A nawet jeżeli części z tych danych jeszcze nie potrafią przetworzyć, to mają sztaby ekspertów, które pracują tylko nad tym – dodaje.
Świat cyfrowej gospodarki jest światem Big Data. – Ale trzeba przyznać, że to surowiec, którego przetwórstwa dopiero się uczą – tłumaczy Zając. Jest nie tylko socjologiem specjalizującym się w nowych mediach, lecz także współtwórcą firmy SmartNet Research & Solutions założonej przez naukowców z Uniwersytetu Warszawskiego. Opracowała ona Sotrender – narzędzie służące do analizy danych gromadzonych w serwisach społecznościowych. Stało się o nim głośno rok temu podczas protestów anty-ACTA. Administrator strony fanowskiej kancelarii premiera na Facebooku ocenzurował negatywne komentarze internautów oburzonych przyjęciem tej umowy. Kancelaria tłumaczyła: trzeba było to zrobić, bo były pełne wulgaryzmów. Sotrender udowodnił, że w sieci nic nie ginie. Odkopał wykasowane komentarze i upublicznił je. Wcale nie były wulgarne, ale po prostu antyrządowe.
To jeden z dowodów na to, jaką siłę mogą mieć wiedza i umiejętności korzystania z danych w sieci. Inny przykład: European Bakery, jedna z europejskich sieci piekarni, zaobserwowała, że w dni słoneczne sprzedaje więcej ciastek, a w dni deszczowe – kanapek. I zaczęła dostosowywać produkcję do prognozy pogody. – Do niedawna takie związki można było odkrywać na podstawie niemierzalnych przeczuć. Dziś można coraz więcej zbadać i niezbicie udowodnić. Sami jakiś czas temu zbadaliśmy zupełnie dla przyjemności, jak wzrost temperatury wpływa na liczbę wpisów o piwie w sieci. To przykład prościutki, ale pokazuje siłę danych – tłumaczy Michał Sadowski, prezes firmy Brand24, specjalizującej się w przetwarzaniu informacji, jakie zostawiamy na portalach społecznościowych, i na ich podstawie przygotowującej raporty dla firm o nowych trendach, o tym, jak są oceniane w sieci, ale także czy nie zbliża się kryzys, bo klienci zaczynają właśnie w sposób negatywny wypowiadać się o danej marce czy danym przedsiębiorstwie.
Eksperci od przetwarzania danych tłumaczą, jak wygląda cały proces. Internet jest jak wielka farma. Nie hoduje się tu jednak owiec ani świnek, nie sadzi się marchewki i ziemniaków, nie zbiera się jaj i nie doi krów. Na tej farmie hoduje się, sadzi, zbiera i doi ludzi. Na jakie strony wchodzą, gdzie się rejestrują, jakie filmy oglądają, jakiej muzyki słuchają, co kupują, za ile, z kim się kontaktują, gdzie się znajdują... Inna metafora przetwarzania Wielkich Danych przyrównuje je do platformy wiertniczej wydobywającej ropę naftową. Im głębiej, tym jej więcej, ale trzeba się coraz bardziej natrudzić, by ją wydobyć. Ale właśnie ta „nowa ropa” napędza e-biznes.
Rob Jackson, ekspert od analityki e-biznesowej z Elisa DBI, woli metaforę nowego cukru. – Pysznie smakuje, ale jest niezdrowy, szczególnie gdy jest nieodpowiednio oczyszczony. Podobnie jest z Big Data. Po pierwsze, panuje złudna pewność, że wnioski z obrobionych danych są zawsze trafne. Po drugie, wciąż nie za bardzo wiadomo, co z nimi zrobić, gdy już się je ma. I praktycznie wszystkie przedsiębiorstwa, które zaczynają interesować się informacjami o swoich klientach czy kontrahentach, zmagają się przynajmniej z jednym z tych problemów – tłumaczy Jackson.

Randka z data scientist

Od połowy lat 80. królowało tradycyjne podejście do zarządzania danymi z sieci. Na przykład zanim prezesowi przedstawiono przekroje sprzedaży w różnych segmentach klientów, najpierw rzesza pracowników musiała poopisywać tych klientów, pamiętając o takich szczegółach, jak płeć, wydatek, rodzaj czy miejsce zakupu. Potem informacje kumulowano w tzw. hurtowniach danych i układano pod konkretne zamówienia i potrzeby. Ale 5 lat temu pojawiły się głosy, że taki system tylko przysparza problemów. Zauważono, że w niektórych sytuacjach porządkowanie danych traci sens, bo tempo ich przyrastania jest większe niż tempo analizowania. Zaczął się gigantyczny bałagan.
Trzeba było poszukać nowych metod analizowania. Według świeżutkiego raportu Deloitte najbliższe miesiące miną pod hasłem „Billions and billions: Big Data becomes a big deal”, czyli „Miliardy i miliardy: Wielkie Dane stają się wielkim biznesem”. Ale nie jest to zadanie łatwe, bo materia jest wyjątkowo płynna i obszerna. Tylko sam FB codziennie zbiera o użytkowanikach 500 terabajtów danych (dysk twardy o takiej pojemności, gdyby istniał, pozwoliłby na zapisanie 127 mln piosenek w formacie mp3). – Dopiero się uczymy, co można z tymi wszystkimi danymi zrobić. Teraz wykorzystywany jest ledwie jeden procent z tego, co jest zbierane – przyznaje Sadowski.
I właśnie dlatego działy zarządzania danymi są najszybciej rozwijającymi się departamentami nie tylko w e-korporacjach, lecz także w tradycyjnych firmach. – Te „data management teams” są pełne świetnych informatyków i fizyków, którzy opracowują algorytmy do obróbki informacji. To właśnie do nich należy przyszłość – tłumaczy Zając. W największym serwisie aukcyjnym na świecie, eBayu, już 7,5 tys. osób – czyli co czwarty pracownik – zajmuje się analizami codziennych danych na temat zachowań klientów. Ale i oni już nie nadążają: każdego dnia przyrasta 50 TB danych. Podobne niedobory są u wszystkich graczy. Jak prognozuje McKinsey & Company, do 2018 roku tylko w Ameryce będzie brakować do 180 tys. specjalistów od analizy Big Data i 1,5 mln menedżerów umiejących wykorzystywać efekty tej pracy do podejmowania decyzji biznesowych.
Na szczycie piramidy wszystkich pracowników zajmujących się analizą danych są data scientists. Big Data to zupełnie nowa jakość, więc trzeba się nimi inaczej zajmować: muszą być najpierw przetworzone w celu dokonania wystandaryzowanej obróbki, a potem potrzebna jest wiedza społeczna, by je wykorzystać. I właśnie tym zajmują się data scientists. To połączenie inżynierów, statystyków i socjologów, którzy nieustannie poszukują nowych korelacji, które trzeba jak najszybciej włączyć do badań. Już dziś tacy eksperci są tak bardzo poszukiwani, że „Harvard Business Review” zawód data scientist nazwał „najseksowniejszą pracą XXI wieku” i doradza swoim czytelnikom: chcesz być na czasie i brylować w towarzystwie, poproś szefa, aby napisał na twojej wizytówce: „Mistrz danych”.



Wyścig zbrojeń

Tak właśnie pracuje Data Science Team, zespół analizy danych w centrali Facebooka, kierowany przez 36-letniego Camerona Marlowa. Jeszcze rok temu liczył 12 naukowców, dziś ponad 20. Niby niedużo, ale to creme de la creme: magazyn naukowy Massachusetts Institute of Technology, jednej z najlepszych technicznych uczelni świata, nazwał ich „laboratorium Bella epoki mediów społecznościowych” (naukowcy z laboratorium Bella dali światu w ubiegłym wieku mnóstwo przełomowych wynalazków – red.). Wszyscy z bardzo dużymi umiejętnościami matematycznymi, programistycznymi i co równie ważne – ze sporą wiedzą z dziedziny nauk społecznych. Kiedy inne grupy analityczne w Facebooku skupiają się na pojedynczych zachowaniach użytkowników serwisu, zespół Marlowa pływa po całym oceanie informacji. Mają zapewnione wszelkie możliwości badawcze, bo zarząd firmy wie, że to oni mają największą szansę na odkrycie metod, na których serwis zacznie w końcu zarabiać.
Dane analizuje się jednak nie tylko wewnątrz firm. Powstaje coraz więcej przedsiębiorstw, które specjalizują się w przyjmowaniu zleceń na takie usługi. Tak właśnie działają wspomniane Sotrender czy Brand24. Ale także setki innych firm ze świata, które mają pełne ręce roboty. Dla przykładu amerykańska platforma BrightEdge, która ruszyła zaledwie dwa lata temu, dziś ma ponad 150 klientów i każdego tygodnia analizuje 100 TB danych, doradzając, jak pozycjonować się w wyszukiwarkach i skuteczniej angażować klientów na portalach społecznościowych. – Ten wysyp spowodował, że obróbka danych, która jeszcze kilka lat temu była droga i wykorzystywana tylko przez firmy z listy 500 największych przedsiębiorstw świata, dziś jest dostępna nawet dla małego gracza. Podstawowe raporty to koszt kilkunastu, może kilkudziesięciu dolarów miesięcznie – opowiada Sadowski.
Według Josepha Regera, dyrektora technicznego z Fujitsu Technology Solutions, jesteśmy świadkami powstawania nowej branży: pośrednictwa informacyjnego. – Broker informacji może być równocześnie pośrednikiem, kuratorem oraz konsultantem. Chcesz spojrzeć na swoich dotychczasowych lub potencjalnych klientów z nowej perspektywy? Możesz w tym celu pozyskać dodatkowe informacje, a nawet dane analityczne, korzystając z usług zewnętrznych – tłumaczy. I dodaje, że w połowie lat 20. XXI w. pośrednictwo informacji najprawdopodobniej będzie już powszechnie stosowane. – Trzeba jednak pamiętać, że gdy wszyscy mają dostęp do wszystkiego, osiągnięcie przewagi nad konkurencją staje się znacznie trudniejsze. W ciągu najbliższych 10 lat przewagę zdobędą firmy, które mają już dostęp do danych Big Data i potrafią je inteligentnie interpretować. W ten sposób powstaną nowe modele biznesowe, rynki zostaną podzielone, a nowe usługi wygenerują dodatkową wartość – dodaje ekspert z Fujitsu.
Już dziś rynek szykuje się do tego nowego modelu. Najważniejsze moce są w rękach (serwerach) dwóch największych graczy: Oracle i Salesforce. Te dwie amerykańskie firmy mają najwięcej rozwiązań pozwalających na przetwarzanie danych. I to między nimi trwa wyścig na coraz bardziej zaawansowane rozwiązania. Tylko w ubiegłym roku Oracle przejął kilka spółek z ich nowoczesnymi rozwiązaniami. Była to m.in. Collective Intellect specjalizująca się w wykorzystaniu „nowoczesnych technologii semantycznych do przetwarzania strumieni informacji publikowanych przez użytkowników serwisów społecznościowych”, czyli śledząca i analizująca korespondencję prowadzoną przez użytkowników w ramach serwisów takich jak Facebook. Wcześniej Oracle nabyło firmę Vitrue, która skupiła się na mechanizmach wspierających zarządzanie kampaniami marketingowymi w sieciach społecznościowych. W tym samym czasie Salesforce przejęło spółkę Buddy Media wyspecjalizowaną w rozwiązaniach wspierających procesy sprzedażowe oparte na sieciach społecznych, będącą największym konkurentem Vitrue. I te zakupy okazują się jak najbardziej trafione, bo i Oracle, i Salesforce z roku na rok osiągają coraz większe przychody.
Na tym tle o dziwo najsłabiej wypada Google. Choć dysponuje zasobami informacji, o których wszyscy inni mogą tylko pomarzyć (ponad 2 mln zapytań na godzinę), zespół analityczny potentata z Montain View nie jest specjalnie rozbudowany. Może to i dobrze, bo wiedza o nas, którą ma Google, jest naprawdę ogromna. Jak podał były już szef tej firmy Eric Smichdt, w ciągu dwóch dni na świecie powstaje i trafia do mniejszych i większych graczy internetowych kompletnie niewyobrażalna liczba 5 eksabajtów (jeden eksabajt to milion terabajtów) informacji i za sporą ich część odpowiada właśnie jego eksfirma.

Cena pod klienta

Skoro już wiemy, kto dysponuje danymi, warto się dowiedzieć, jak konkretnie są one wykorzystywane. – Dzięki nim rozwija się reklama behawioralna, w której komunikat jest dopasowywany do konkretnej osoby zostawiającej informacje o sobie w sieci – opowiada Jan Zając.
Takie reklamy są powszechne. Facebook, który stara się niewiele miejsca na stronie przeznaczać na reklamy, wyłącznie używa behawioralnych, zaprogramowanych pod konkretnego użytkownika. Od niemal czterech lat z reklamą behawioralną eksperymentuje Google, a od półtora roku możliwość kierowania reklam do użytkowników zainteresowanych określoną tematyką mają już wszyscy klienci tej firmy. I jest to mechanizm coraz bardziej precyzyjny. Jeszcze niedawno kierowanie reklam w tej sieci opierało się głównie na kontekście, np. reklamowe ramki na blogu modowym automat wypełniał anonsami sklepów z ubraniami. Choć wybór takiej witryny wskazywał na zainteresowanie internauty modą, sprzedawcy tracili go z oczu z chwilą, gdy przechodził na inną stronę. Nowa technologia umożliwia dotarcie do internautów zainteresowanych na przykład modą również wtedy, gdy odwiedzają witrynę poświęconą książkom. System obserwuje najpierw ich zachowanie, przeglądane przez nich witryny, z uwzględnieniem częstotliwości i spędzonego tam czasu. Na tej podstawie wyciąga wnioski na temat zainteresowań.
Ale kierunkowanie reklam to początek. – Kilka miesięcy temu wydało się, że Amazon w zależności od klienta prezentuje różne ceny produktów. Gdy z analizy danych wynikało, że dana osoba jest skłonna zapłacić więcej, cena była wyższa – mówi Zając. I właśnie takie sprzedażowe cele to dziś główny kierunek analiz danych. Po prostu one dają natychmiastowy efekt i zysk.
Ale marketingowe i sprzedażowe działania wcale nie są docelowym kierunkiem. Data scientists mają coraz większe ambicje. Jak choćby Carlo Ratti, profesor Massachusetts Institute of Technology, gdzie kieruje Senseable City Lab. Właśnie pracuje nad wykorzystaniem cyfrowych danych do stworzenia „real time city”, czyli miasta zarządzanego w czasie rzeczywistym, które jest nieustannie podglądane, a analiza danych umożliwia błyskawiczne podejmowanie decyzji. Jakich? Jak policja ma walczyć z przestępcami czy jak zarządzać transportem miejskim przy zmianie pogody. Jak się okazuje, nie są tu przydatne tylko dane o samej przestępczości, pogodzie i możliwościach transportowych. Ale także wszystko to, co w internecie publikują mieszkańcy, skarżąc się na warunki podróżowania, wzrost konkretnych zagrożeń czy dzieląc się opiniami o życiu w danym miejscu.
„Real time city” to pieśń przyszłości. Może niezbyt odległej, ale jednak. Tak samo jak osaczenie nas przez wszystko wiedzący komputerowy algorytm Facebooka, Google'a czy Apple'a. Bo jaki spójny wniosek, który może zostać zamieniony na pieniądze, płynie z tego, że ten tekst pisałam na komputerze z Windowsem, poprawiałam na macu, a przy okazji przeglądałam FB, nieco zatwittowałam, zajrzałam na News.bbc.co.uk, a potem przejrzałam kilka luźniejszych stron? I że była właśnie godzina 6.45 rano?
Facebook codziennie zbiera o użytkownikach 500 terabajtów danych. Jednak z Wielkimi Danymi są dwa podstawowe problemy. Nie ma żadnej pewności, czy płynące z nich wnioski są trafne. I wciąż tak naprawdę nie wiadomo, jak można je zamienić na pieniądze – mówi Rob Jackson, analityk e-biznesu z Elisa DBI