ISSN 2658-1086
Wydanie bieżące

1 września 17 (425) / 2021

Barbara Orzeł,

MAŁA KSIĄŻKA O DUŻYCH ZBIORACH DANYCH (DAWN E. HOLMES: 'BIG DATA')

A A A
„Obecnie prawie niemożliwa jest codzienna egzystencja i unikanie gromadzenia niektórych danych osobowych drogą elektroniczną. Kasy w supermarketach zbierają dane o tym, co kupujemy, linie lotnicze – informacje o naszych ustaleniach dotyczących podróży podczas zakupu biletu, a banki – nasze dane finansowe” (s. 29). Kumulowanie i przetwarzanie danych jest we współczesnym świecie czymś nieuchronnym, nieuniknionym, koniecznym.

Pierwsze skojarzenie, które nasuwa mi się po przejrzeniu „Big Daty”: ta książka jest niczym espresso! To konkretnie podana wiedza na temat dużych zbiorów danych zawarta na 125 stronach (po odcięciu wszelkich „dodatków” w postaci przedmowy podziękowania, spisu literatury czy indeksu). Publikacja przygotowana przez Dawn E. Holmes, wykładowczynię na Uniwersytecie Kalifornijskim w Santa Barbara, jest częścią fantastycznej interdyscyplinarnej serii Krótkie wprowadzenie, wydawanej przez Wydawnictwo Uniwersytetu Łódzkiego.

Tomik składa się z ośmiu rozdziałów, rozpoczyna go „Eksplozja danych”, w której badaczka dokonała rzetelnego uporządkowania definicji i (począwszy od starożytności) historii pozyskiwania, zapisu i praktycznego wykorzystania danych (przydatnych chociażby podczas prób ujarzmienia epidemia cholery w XIX-wiecznym Londynie). Autorka dokonuje przeglądu statusu danych w erze cyfrowej, pochodzących z wyszukiwarek, danych dotyczących opieki zdrowotnej, odnoszących się do czasu rzeczywistego, czy danych astronomicznych (w jakiś sposób może to pomóc odbiorcy niezaznajomionemu z tą tematyką w określeniu, jak „big” jest „big data”). W drugim rozdziale autorka próbuje odpowiedzieć na pytanie, „Dlaczego duże zbiory danych są ważne?” (m.in. w oparciu o koncepcję trzech „V” Douga Laneya, volume, variety, velocity, rozszerzone m.in. o value, visualization). Holmes z ogromną dociekliwością drąży temat. Przedstawia ciekawe studium przypadku dotyczące wykrywania oszustw związanych z kartami kredytowymi (np. przy użyciu algorytmów sztucznej inteligencji umożliwiających zidentyfikowanie anomalii w zachowaniach zakupowych klientów).

Ważnym elementem uniwersum dużych zbiorów danych jest ich przechowywanie – niniejsze zagadnienie zostało omówione w części trzeciej (i ku mojej uciesze Holmes dokonała w tym miejscu świetnego omówienia prawa Moore’a, skomplikowanej materii Rozproszonego Systemu Plików Hadoop oraz baz danych NoSQL). W kolejnym rozdziale badaczka przybliżyła mechanizmy służące analizie dużych zbiorów danych, do których należą: MapReduce (umożliwiający dzielenie bardzo dużych zbiorów danych na mniejsze części i sprawne przetwarzanie każdej z nich osobno), filtry Blooma (weryfikujące złośliwe strony internetowych lub spam) czy – znany wielu użytkownikom google’owski PageRank (umożliwiający porządkowanie witryn według ich znaczenia dla wyszukiwanych haseł).

Rozdział piąty, poświęcony medycynie, otwiera poniekąd „praktyczną” część książki (w szczególności chciałam polecić podrozdziały dotyczące prognozowania możliwości wybuchu epidemii grypy w oparciu o algorytm Google czy analiz wpierających walkę z wirusem ebola). Następnie autorka zajęła się zakupami online, reklamą pay-by-click, plikami cookie, reklamami rekomendującymi, Amazonem i Netflixem (zwróćmy uwagę, że przyjemność bądź uciążliwość korzystania z każdego z tych systemów wspierane są przez odpowiednie algorytmy zarządzające pozyskanymi danymi). Siódmy rozdział poświęcono bezpieczeństwu – wszak szyfrowanie, hakowanie, zabezpieczenie danych w chmurze to swoiste leitmotivy współczesnej komunikacji. Wieńczy go przypomnienie głośnej sprawy Edwarda Snowdena i WikiLeaks.

Ostatnia część książki zawiera refleksję o „przyszłości, która zaczyna się teraz” – o robotach, inteligentnych samochodach, domach czy też miastach. Holmes kończy swoje rozważania w następujących, mocnych słowach: „Rewolucja w zakresie dużych zbiorów danych oznacza zmianę w sposobie funkcjonowania świata i podobnie jak w przypadku wszystkich osiągnięć technologicznych jednostki, naukowcy i rządy ponoszą moralną odpowiedzialność za zapewnienie jej właściwego wykorzystania. Duże zbiory danych to potęga, ich potencjał w służbie ludzkości jest i będzie ogromny, a to, jak o nie zadbamy, aby uniknąć nadużyć, zależy tylko od nas” (s. 140). Big Data to nie żarty – kreowanie coraz to nowszych, potężniejszych algorytmów obciążone jest ogromną odpowiedzialnością.

Krótko i na temat: publikacja „Big Data” powinna znaleźć się w „przyborniku” każdego cyfrowego humanisty, medioznawcy i świadomego użytkownika współczesnej zdigitalizowanej rzeczywistości. Takiej książki o dużych zbiorach danych zdecydowanie brakowało na polskim rynku wydawniczym.
Dawn E. Holmes: Big Data”. Przeł. Robert Kowalczyk. Red. naukowa Piotr Fulmański. Wydawnictwo Uniwersytetu Łódzkiego. Łódź 2021 [seria: Krótkie wprowadzenie].