Big data – termin odnoszący się do dużych, zmiennych i różnorodnych zbiorów danych, których przetwarzanie i analiza jest trudna, ale jednocześnie wartościowa, ponieważ może prowadzić do zdobycia nowej wiedzy[1].
Pojęcie dużego zbioru danych jest względne i oznacza sytuację, gdy zbioru nie da się przetwarzać przy użyciu trywialnych, powszechnie dostępnych metod[2]. W zależności od branży i stopnia złożoności algorytmu może to oznaczać rozmiar terabajtów lub petabajtów (np. analiza zderzeń cząstek elementarnych w fizyce wysokich energii[3]), jednak w innych zastosowaniach będą to już megabajty bądź gigabajty (np. porównywanie billingów telefonicznych w telekomunikacji[4]). Big data ma zastosowanie wszędzie tam, gdzie dużej ilości danych cyfrowych towarzyszy potrzeba zdobywania nowych informacji lub wiedzy. Szczególne znaczenie odgrywa wzrost dostępności Internetu oraz usług świadczonych drogą elektroniczną, które w naturalny sposób są przystosowane do wykorzystywania baz danych. Wykorzystanie do analiz dużych zbiorów danych oznacza jednocześnie, że nie trzeba ograniczać się do mniejszych zbiorów określanych za pomocą różnych sposobów doboru próby, co eliminuje związane z tym błędy[5].
Charakterystyka
W 2001 roku META Group opublikowała raport[6], który opisuje big data w modelu 3V:
- duża ilość danych (ang. volume);
- duża prędkość przetwarzania danych (ang. velocity);
- duża różnorodność danych (ang. variety).
Model ten uzupełniony został o kolejne składowe – weryfikację posiadanych danych (ang. veracity) oraz wartość dla użytkownika (ang. value)[5][7].
Zastosowanie modelu w polskiej wersji 4W przedstawia się następująco[8]:
- wykorzystanie – wykorzystaj najpierw wewnętrzne (własne) zasoby danych;
- wnioskowanie – umiejętnie stosuj techniki analityczne, użyj ekspertów;
- wzbogacanie – wzbogacaj własne dane o informacje z rynku, używaj słowników i baz referencyjnych;
- weryfikacja – koniecznie weryfikuj hipotezy i wnioski.
W roku 2012 Gartner uzupełnił podaną wcześniej definicję, wskazując, iż big data to zbiory informacji o dużej objętości, dużej zmienności lub dużej różnorodności, które wymagają nowych form przetwarzania w celu wspomagania podejmowania decyzji, odkrywania nowych zjawisk oraz optymalizacji procesów”[9].
Technologie
Raport McKinsey Global Institute[10] z 2011 roku scharakteryzował główne komponenty i ekosystem big data w następujący sposób:
- techniki analizy danych, takich jak testy A/B, uczenie maszynowe i przetwarzanie języka naturalnego,
- technologie big data takie jak Business Intelligence, przetwarzanie danych w chmurze oraz bazy danych,
- wizualizacje, takie jak wykresy, grafy i inne formy prezentowania danych.
Wielowymiarowe big data mogą być również reprezentowane jako tensory, które mogą być wydajnie obsługiwane przez obliczenia oparte na tensorach, takie jak wieloliniowe uczenie podprzestrzenne. Dodatkowe technologie, które znajdują zastosowanie w big data obejmują wielkoskalowe równoległe przetwarzanie baz danych, aplikacje oparte na szukaniu, eksploracja danych, rozproszone systemy plików, rozproszone bazy danych, infrastruktura chmurowa (aplikacje, zasoby przetwarzające, pamięć) oraz Internet.
Nie wszystkie bazy danych WRP mają zdolność do przechowywania i zarządzania petabajtami danych. Wnioskując jest możliwość doładowania, monitorowania, tworzenia kopii zapasowych oraz optymalizacji użycia ogromnymi tabelami danych w relacyjnych bazach danych[11].
Topologiczna analiza danych poszukuje fundamentalnej struktury zbiorów olbrzymich danych. W 2008 roku technologia została upubliczniona wraz z założeniem firmy Ayasdi.
Praktycy procesów analizy big data są generalnie wrodzy dla wolniejszych współdzielonych pamięci[12], preferując bezpośrednio dołączone pamięci (DAS) w przeróżnych formach, od dysków SSD do wielko pojemnościowych dysków SATA zakopanych wewnątrz węzłów przetwarzania równoległego. Postrzeganie architektur współdzielonych pamięci jest takie, ze są relatywnie wolne, złożone oraz drogie. Te wartości nie są zgodne z analitycznymi systemami big data, które czerpią z wydajności systemu, łatwo dostępnej infrastrukturze oraz niskich kosztów.
Rzeczywisty lub prawie rzeczywisty czas dostarczania informacji jest jedną z kluczowych charakterystyk analizy big data. Unika się opóźnień, chociaż są możliwe. Dane w pamięci są dobre – dane na dysku talerzowym na drugim końcu serwerowni.
Są zalety tak samo jak wady w rozwiązaniu współdzielonych pamięci, ale praktycy analizy big data do 2011 roku nie faworyzują tego[13].
Big data w zarządzaniu strategicznym
Aktualnie Big Data oddziałuje praktycznie na każdy segment rynku, w którym zachodzi proces przetwarzania informacji. Należą do nich wszelkie instytucje, uczelnie, banki, przedsiębiorstwa produkcyjne, a nawet ośrodki zdrowia. Wszystkie te segmenty wykorzystują szybki dostęp do potrzebnej informacji, która z kolei ma zasadniczy wpływ na optymalizację działalności. Big data umożliwia ponadto szczegółowe rozpoznanie potrzeb i wymagań konsumentów – ich źródłem są zwłaszcza szeroko pojęte media społecznościowe. Jako że każda jednostka nastawiona na zysk chce w swoim funkcjonowaniu odnieść sukces, odpowiednie przetwarzanie danych w działaniach strategicznych możliwe jest tylko przy wykorzystaniu Big Data[14].
Zobacz też
Przypisy
Bibliografia
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.