Jaka jest definicja „Big Data”?

23

Czy jest jeden

Wszystkie definicje, które mogę znaleźć, opisują rozmiar, złożoność / różnorodność lub prędkość danych.

Definicja Wikipedii jest jedyną, którą znalazłem z faktyczną liczbą

Wielkie rozmiary danych są stale zmieniającym się celem, począwszy od 2012 r., Od kilkudziesięciu terabajtów do wielu petabajtów danych w jednym zestawie danych.

Wydaje się to jednak sprzeczne z definicją MIKE2.0 , przywołaną w następnym akapicie, która wskazuje, że „duże” dane mogą być małe i że 100 000 czujników w samolocie tworzącym tylko 3 GB danych można uznać za duże.

IBM, mimo że powiedział:

Duże zbiory danych są prostsze niż kwestia rozmiaru.

podkreślili rozmiar w swojej definicji .

O'Reilly też się stresował "volume, velocity and variety" . Choć wyjaśniona dobrze i bardziej szczegółowo, wydaje się, że jest to ponowny skrót pozostałych - lub odwrotnie, oczywiście.

Myślę, że tytuł artykułu z Tygodnia komputerowego dość dobrze podsumowuje wiele artykułów „Co to jest big data i jak można go wykorzystać do uzyskania przewagi konkurencyjnej” .

Ale ZDNet wygrywa z następującymi od 2012 roku :

„Big Data” to hasło, które wyskakuje z nisz komputerowych o wysokiej wydajności na rynku IT ... Jeśli obejrzymy prezentacje dziesięciu dostawców technologii, prawdopodobnie pojawi się piętnaście różnych definicji. Każda definicja oczywiście wspiera zapotrzebowanie na produkty i usługi tego dostawcy. Wyobraź sobie, że.

Zasadniczo „duże dane” są „duże” w jakiś sposób w kształcie lub formie.

Co to jest „duży”? Czy obecnie jest to wymierne?

Jeśli „duży” jest nie do kwantyfikacji, czy istnieje definicja, która nie opiera się wyłącznie na uogólnieniu?

Ben
źródło
7
„Co to jest„ duże ”? Czy w tej chwili jest to kwantyfikowalne?”. Pewnie. Big to więcej, niż możesz sobie poradzić w tej chwili;)
Oded
1
@Oded, musisz zdefiniować „uchwyt”, a następnie :-).
Ben
14
Jeśli musisz zapytać, twoje nie jest wystarczająco duże, aby policzyć. ;)
FrustratedWithFormsDesigner
@Ben - To jest zdefiniowane inaczej dla każdej osoby i systemu ...
Oded
4
„Duży” najprawdopodobniej odnosi się do „trudnego w obsłudze”. Wystarczy, aby nie zmieścić się w pamięci, zapełnić dysk, poświęcić czas na przesyłanie przez sieć itp.

Odpowiedzi:

42

Nie ma jednego; to modne słowo.

Wyznacznikiem jest jednak to, że twoje dane wykraczają poza możliwości tradycyjnych systemów. Dane są zbyt duże, aby przechowywać je na największym dysku, zapytania zajmują tony zbyt długo bez specjalnej optymalizacji, sieć lub dysk nie mogą obsługiwać ruchu przychodzącego, zwykły stary widok danych nie obsłuży wizualizacji kształtu / rozmiar / szerokość danych ...

Zasadniczo, że twoje dane znajdują się poza jakimś źle zdefiniowanym punktem zwrotnym, w którym „wystarczy dodać więcej sprzętu” nie zamierza ich wyciąć.

Telastyn
źródło
+1 i co więcej, to, co liczy się jako „duże”, zawsze się zmienia, ponieważ lepszy sprzęt nadrabia zaległości, a wcześniej dostosowane narzędzia stają się dojrzałe, standaryzowane i sprzedawane komercyjnie, aby poradzić sobie z takimi problemami.
FrustratedWithFormsDesigner
Innymi słowy: nie, nie mam pojęcia, nie, nie :-).
Ben
Ponadto, zanim duże zbiory danych stały się dużą sprawą, wiele firm i instytutów badawczych już to zrobiło. Dopiero teraz, gdy wszystkie wyzwania związane z mediami społecznościowymi / Internetem w zakresie dużych zbiorów danych stały się bardziej głównym strumieniem.
Paul Hiemstra
2

Jak wskazano w linku Oracle (komentarz Immad Careem) oracle.com/us/technologies/big-data/index.html. Big Data to wszystko, co nie jest relacyjnymi danymi przechowywanymi w RDBMS. Kilka lat przed szumem było to po prostu „dużo danych”. Teraz wzrosła i była promowana przez marketerów jako specjalne dane.

Istnieje kilka wtórnych powodów (innych niż marketing), aby uznać Big Data za prawdziwą rzecz.

  1. Opracowanie mapy zmniejszonej
  2. Technologie NOSQL, takie jak Hadoop
  3. Pewna ewolucja tradycyjnych RDBMS pod wpływem popytu na nieustrukturyzowane typy danych
  4. Być może niektóre technologie sprzętowe oferowane przez korporację EMC2

źródło
2
„Wynalezienie zmniejszenia mapy”? Musisz żartować.
Telastyn
1
„Wszystko, co nie jest danymi relacyjnymi”, jest definicją, która może pochodzić tylko od kogoś tak skoncentrowanego na RDB jak Oracle (i jest błędna). Zgodnie z tą definicją każdy indeks SolR, każda baza danych MongoDB i każda baza danych Berkley DB to „duże zbiory danych”. I to jest po prostu głupie.
Joachim Sauer
0

Wykorzystując odpowiedź Douga Laneya jako punkt wyjścia, zmieniliśmy inżynierię listę definicji Big Data, obecnie ponad 30 i coraz silniejszych. Nasza lista definicji „Big Data” znajduje się tutaj .

Czekamy na poprawki, wpisy, grafiki itp.

Opentracker BData
źródło
-1

Wspaniale jest zobaczyć O'Reilly i innych, którzy w końcu korzystają z 3 dużych danych Gartnera, które po raz pierwszy wprowadziliśmy ponad 11 lat temu. Dla odniesienia, oto oryginalny utwór, który napisałem w 2001 roku: http://blogs.gartner.com/doug-laney/deja-vvvue-others-claiming-gartners-volume-velocity-variety-construct-for-big-data/ .

Niedawno zaktualizowana definicja Gartnera rozpoznaje także aspekt wartości: „Big Data to zasoby informacyjne o wielkościach, prędkościach i / lub różnorodności wymagające innowacyjnych form przetwarzania informacji w celu lepszego odkrywania wglądu, podejmowania decyzji i automatyzacji procesów”.

Opracowaliśmy również metodę kwantyfikacji wielkości danych wzdłuż trzech wektorów, które są nakazowe pod względem przyjęcia technologii. Nie mogę jednak udostępniać tego publicznie.

Doug Laney
źródło