Kilkakrotnie zadawano mi pytanie:
Co to jest Big-Data?
Zarówno przez studentów, jak i moich krewnych, którzy podnoszą szum wokół statystyk i ML.
Znalazłem ten CV . I czuję, że zgadzam się z jedyną tam odpowiedzią.
Strona Wikipedii również ma na ten temat kilka uwag, ale nie jestem pewien, czy naprawdę się ze wszystkim zgadzam.
EDYCJA: ( Wydaje mi się, że stronie Wikipedii brakuje wyjaśnienia metod rozwiązania tego problemu i paradygmatu, o którym wspomniałem poniżej) .
Niedawno uczestniczyłem w wykładzie Emmanuela Candèsa , gdzie przedstawił paradygmat Big-Data jako
Najpierw dane Zadaj pytanie później
Jest to główna różnica w stosunku do badań opartych na hipotezach, w których najpierw formułuje się hipotezę, a następnie zbiera dane, aby coś o niej powiedzieć.
Dużo zajmował się kwestią kwantyfikacji wiarygodności hipotez generowanych przez szpiegowanie danych. Najważniejsze, co wyciągnąłem z jego wykładu, to fakt, że naprawdę musimy zacząć kontrolować FDR, a on przedstawił metodę knockoff , aby to zrobić.
Myślę, że CV powinno mieć pytanie o to, co to jest Big Data i jaka jest twoja definicja na jej temat. Wydaje mi się, że istnieje tak wiele różnych „definicji” , że tak naprawdę trudno jest pojąć, co to jest, lub wytłumaczyć to innym, jeśli nie ma ogólnego konsensusu co do tego, z czego się składa.
Wydaje mi się, że „definicja / paradygmat / opis” zapewniony przez Candès jest najbliższą rzeczą, na którą się zgadzam, jakie są twoje myśli?
EDYCJA 2: Uważam, że odpowiedź powinna zawierać coś więcej niż tylko wyjaśnienie samych danych. Powinno to być połączenie danych / metod / paradygmatu.
EDIT3: Wydaje mi się, że ten wywiad z Michaelem Jordanem również może coś dodać do stołu.
EDYCJA 4: Zdecydowałem się wybrać poprawną odpowiedź, która uzyskała najwyższy głos. Chociaż uważam, że wszystkie odpowiedzi dodają coś do dyskusji i osobiście uważam, że jest to raczej kwestia paradygmatu, w jaki sposób generujemy hipotezy i pracujemy z danymi. Mam nadzieję, że to pytanie posłuży jako zbiór referencji dla tych, którzy szukają tego, czym jest Big-Data. Mam nadzieję, że strona Wikipedii zostanie zmieniona w celu dalszego podkreślenia problemu wielokrotnego porównywania i kontroli FDR.
źródło
Odpowiedzi:
Miałem przyjemność uczestniczyć w wykładzie dr Hadleya Wickhama o sławie RStudio. Tak to zdefiniował
Hadley uważa również, że większość danych można przynajmniej sprowadzić do problemów, które można rozwiązać, i że bardzo niewielka ilość to tak naprawdę duże zbiory danych. Nazywa to „Big Data Mirage”.
Slajdy można znaleźć tutaj .
źródło
Zestaw danych / strumień nazywa się Big Data, jeśli spełnia wszystkie cztery V.
O ile zbiór danych nie zostanie określony jako Big Data, dopóki nie zostanie spełniony.
Podobna moja odpowiedź w celach informacyjnych.
Powiedziawszy to, jako naukowiec danych; Uważam, że środowisko Map-Reduce jest naprawdę fajne. Dzielenie danych, mapowanie, a następnie wyniki kroku mapowania są redukowane do jednego wyniku. Uważam, że te ramy są naprawdę fascynujące i jak skorzystały na świecie danych.
Oto niektóre sposoby radzenia sobie z problemem danych podczas codziennej pracy:
I tak przeprowadzany jest eksperyment danych:
Tak, istnieją algorytmy Big Data, takie jak hyperloglog itp .; ale nie znalazłem potrzeby ich używania.
Więc tak. Dane są gromadzone najpierw przed wygenerowaniem hipotezy.
źródło
Myślę, że jedyną przydatną definicją dużych zbiorów danych są dane, które katalogują wszystkie informacje o danym zjawisku. Rozumiem przez to, że zamiast pobierać próbki z pewnej populacji i gromadzić pewne pomiary na tych jednostkach, duże zbiory danych gromadzą pomiary dla całej interesującej populacji. Załóżmy, że interesują Cię klienci Amazon.com. Amazon.com może gromadzić informacje o wszystkich zakupach swoich klientów, a nie tylko śledzić niektórych użytkowników lub tylko niektóre transakcje.
Moim zdaniem definicje, które zależą od wielkości pamięci samych danych, mają nieco ograniczoną użyteczność. Według tej miary, biorąc pod uwagę wystarczająco duży komputer, żadne dane nie są tak naprawdę dużymi danymi. Na skraju nieskończenie dużego komputera argument ten może wydawać się redukcyjny, ale rozważmy przypadek porównania mojego laptopa klasy konsumenckiej z serwerami Google. Najwyraźniej miałbym ogromne problemy logistyczne podczas próby przesiewania terabajta danych, ale Google ma zasoby, aby dość łatwo poradzić sobie z tym zadaniem. Co ważniejsze, rozmiar komputera nie jest nieodłączną właściwością danych , więc zdefiniowanie danych wyłącznie w odniesieniu do dowolnej dostępnej technologii przypomina rodzaj pomiaru odległości pod względem długości ramion.
Ten argument to nie tylko formalizm. Potrzeba skomplikowanych schematów paralelizacji i platform obliczeniowych rozproszonych znika, gdy masz wystarczającą moc obliczeniową. Więc jeśli przyjmiemy definicję, że Big Data jest zbyt duży, aby zmieścić się w pamięci RAM (lub awarii Excel, lub cokolwiek), a następnie po tym jak uaktualnić nasze maszyny, Big Data przestaje istnieć. To wydaje się głupie.
Ale spójrzmy na niektóre dane na temat dużych zbiorów danych, i nazwiemy to „Big Metadata”. W tym blogu zauważono ważny trend: dostępna pamięć RAM rośnie szybciej niż rozmiary danych i prowokacyjnie twierdzi, że „duża pamięć RAM zjada duże dane” - to znaczy, przy wystarczającej infrastrukturze nie masz już problemu z dużymi danymi, po prostu masz dane i wrócisz do dziedziny konwencjonalnych metod analizy.
Co więcej, różne metody reprezentacji będą miały różne rozmiary, więc nie jest do końca jasne, co to znaczy zdefiniować „duże dane” w odniesieniu do jego wielkości w pamięci. Jeśli dane są skonstruowane w taki sposób, że przechowywanych jest wiele zbędnych informacji (to znaczy wybierasz nieefektywne kodowanie), możesz łatwo przekroczyć próg tego, co komputer może z łatwością obsłużyć. Ale dlaczego chcesz, aby definicja miała tę właściwość? Moim zdaniem to, czy zbiór danych jest „big data”, nie powinno zależeć od tego, czy dokonałeś efektywnych wyborów w projektowaniu badań.
Z punktu widzenia praktyka, duże zbiory danych, które definiuję, niesie ze sobą również wymagania obliczeniowe, ale wymagania te są specyficzne dla aplikacji. Przemyślenie projektu bazy danych (oprogramowania, sprzętu, organizacji) dla obserwacji jest zupełnie inne niż dla10 7104 107 obserwacje i to jest w porządku. Oznacza to również, że duże zbiory danych, jak to definiuję, mogą nie wymagać specjalistycznej technologii wykraczającej poza to, co opracowaliśmy w klasycznej statystyce: próbki i przedziały ufności są nadal doskonale przydatnymi i ważnymi narzędziami wnioskowania, kiedy trzeba ekstrapolować. Modele liniowe mogą zapewnić całkowicie akceptowalne odpowiedzi na niektóre pytania. Ale duże zbiory danych, które zdefiniowałem, mogą wymagać nowatorskiej technologii. Być może musisz sklasyfikować nowe dane w sytuacji, gdy masz więcej predyktorów niż danych treningowych lub gdy Twoje predyktory rosną wraz z rozmiarem danych. Te problemy będą wymagały nowszej technologii.
Nawiasem mówiąc, myślę, że to pytanie jest ważne, ponieważ domyślnie dotyczy tego, dlaczego definicje są ważne - to znaczy dla kogo definiujesz temat. Dyskusja na temat dodawania dla pierwszoklasistów nie zaczyna się od teorii mnogości, zaczyna się od zliczenia obiektów fizycznych. Z mojego doświadczenia wynika, że większość użycia terminu „duże zbiory danych” występuje w popularnej prasie lub w komunikacji między ludźmi, którzy nie są specjalistami w dziedzinie statystyki lub uczenia maszynowego (na przykład materiały marketingowe wymagające profesjonalnej analizy) i używa się go do wyrażają ideę, że współczesne praktyki komputerowe oznaczają, że istnieje mnóstwo dostępnych informacji, które można wykorzystać. Dzieje się tak prawie zawsze w kontekście danych ujawniających informacje o konsumentach, które, jeśli nie prywatne, nie są od razu oczywiste.
Tak więc konotacja i analiza dotyczące powszechnego użycia „dużych zbiorów danych” niesie ze sobą również pomysł, że dane mogą ujawniać niejasne, ukryte, a nawet prywatne szczegóły życia danej osoby, pod warunkiem zastosowania wystarczającej metody wnioskowania. Kiedy media informują o dużych zbiorach danych, to właśnie do tego dąży pogorszenie anonimowości - określenie, na czym polega „duże zbiory danych”, wydaje się nieco błędne w tym świetle, ponieważ popularna prasa i niespecjaliści nie przejmują się zaletami losowości lasy i obsługujące maszyny wektorowe i tak dalej, nie mają też świadomości wyzwań związanych z analizą danych w różnych skalach. I to jest w porządku.Z ich punktu widzenia troska koncentruje się na społecznych, politycznych i prawnych konsekwencjach ery informacji. Dokładna definicja mediów lub niespecjalistów nie jest tak naprawdę przydatna, ponieważ ich rozumienie również nie jest precyzyjne. (Nie myśl, że jestem zadowolony z siebie - po prostu obserwuję, że nie każdy może być ekspertem we wszystkim.)
źródło
Przeglądając ogromną literaturę na temat dużych zbiorów danych, zebrałem do 14 terminów „V”, w tym 13 wzdłuż około 11 wymiarów:
14 kadencja to Vacuity. Według najnowszego prowokującego postu Big Data nie istnieje . Jego główne punkty to:
Właściwa definicja Big Data ewoluowałaby wraz ze sprzętem, oprogramowaniem, potrzebami i wiedzą i prawdopodobnie nie powinna zależeć od ustalonego rozmiaru. Stąd możliwe do zdefiniowania pojęcie dużych zbiorów danych: kolejna granica innowacji, konkurencji i wydajności , czerwiec 2011 r .:
źródło
Ludzie wydają się skupiać na dużym kwalifikatorze w Big Data. Jednak rozmiar jest tylko jednym z elementów tego terminu (domeny). Nie wystarczy, że Twój zestaw danych był duży, aby nazwać twój problem (domenę) dużymi danymi, potrzebujesz również zrozumienia i analizy, a nawet przetworzenia. Niektórzy nazywają tę funkcję nieuporządkowaną , ale nie jest to tylko struktura, ale także niejasny związek między różnymi częściami i elementami danych.
Rozważmy zestawy danych, w których fizycy wysokich energii pracują w miejscach takich jak CERN . Pracowali z danymi dotyczącymi wielkości petabajtów od lat, zanim powstał termin Big Data . Ale nawet teraz nie nazywają tych dużych zbiorów danych o ile mi wiadomo. Dlaczego? Ponieważ dane są raczej regularne, wiedzą, co z nimi zrobić. Mogą nie być w stanie wyjaśnić jeszcze każdej obserwacji, więc pracują nad nowymi modelami itp.
Teraz nazywamy Big Data problemami dotyczącymi zbiorów danych o rozmiarach, które można wygenerować w ciągu kilku sekund z LHC w CERN. Powodem jest to, że te zestawy danych zwykle zawierają elementy danych pochodzące z wielu źródeł o różnych formatach, niejasne relacje między danymi i niepewna wartość dla firmy. Może to być zaledwie 1 TB, ale tak trudno jest przetworzyć wszystkie pliki audio, wideo, teksty, mowę itp. Tak więc, pod względem złożoności i wymaganych zasobów, to przewyższa petabajty danych CERN. Nie wiemy nawet, czy w naszych zestawach danych znajdują się dostrzegalne przydatne informacje.
Dlatego rozwiązywanie problemów z Big Data polega na analizie, ekstrakcji elementów danych o nieznanej wartości, a następnie łączeniu ich ze sobą. „Analiza” obrazu może sama w sobie stanowić duży problem. Powiedzmy, że szukasz materiału z monitoringu z ulic miasta, próbującego sprawdzić, czy ludzie się denerwują i czy ma to wpływ na wypadki drogowe z udziałem pieszych. Jest mnóstwo filmów, można znaleźć twarze, spróbować ocenić ich nastroje za pomocą wyrażeń, a następnie połączyć je z liczbą zestawów danych o wypadkach, raportami policyjnymi itp., A jednocześnie kontrolować pogodę (zapobieganie wypadkom, temperatura) i korki uliczne. Potrzebujesz narzędzi pamięci i narzędzi analitycznych, które obsługują te duże zestawy danych różnego rodzaju i mogą skutecznie łączyć dane ze sobą.
Big Data to złożony problem analityczny, w którym złożoność wynika zarówno z samej wielkości, jak i złożoności struktury i kodowania informacji w nim zawartych.
źródło
Myślę, że powodem, dla którego ludzie są zdezorientowani co do tego, czym jest Big Data, jest to, że nie widzą jej zalet. Wartość Big Data (technika) zależy nie tylko od ilości danych, które można zebrać, ale także od Modelowania predykcyjnego, które ostatecznie jest ważniejsze:
Więcej predyktorów, ponieważ jesteśmy teraz w stanie przechwycić dane, które wcześniej nie były możliwe (z powodu ograniczonej mocy sprzętowej, ograniczonej zdolności do pracy na nieustrukturyzowanych danych). Więcej predyktorów oznacza większe szanse na posiadanie znaczących predyktorów, tj. Lepszy model, lepsze przewidywanie, lepsza decyzja dla firmy.
Więcej obserwacji nie tylko czyni model bardziej wytrzymałym w czasie, ale także pomaga modelowi uczyć się / wykrywać wszystkie możliwe wzorce, które można przedstawić / wygenerować w rzeczywistości.
źródło
Trudna rzecz w Big Data vs. jej antonim (przypuszczalnie Small Data?) Polega na tym, że jest to kontinuum. Ludzie dużych zbiorów danych przeszli na jedną stronę spektrum, ludzie małych danych przeszli na drugą stronę, ale na piasku nie ma wyraźnej linii, na którą wszyscy mogliby się zgodzić.
Spojrzałbym na różnice w zachowaniu między nimi. W sytuacjach z małymi danymi masz „mały” zestaw danych i starasz się wycisnąć jak najwięcej informacji z każdego naszego punktu danych. Zdobądź więcej danych, możesz uzyskać więcej wyników. Jednak uzyskanie większej ilości danych może być kosztowne. Dane, które gromadzi, są często ograniczone do modeli matematycznych, takich jak przeprowadzanie częściowego silnia testów w celu sprawdzenia interesujących zachowań.
W sytuacjach z dużymi zbiorami danych masz „duży” zestaw danych, ale Twój zestaw danych zwykle nie jest tak ograniczony. Zazwyczaj nie przekonuje się klientów do zakupu łacińskiego kwadratu mebli, aby ułatwić analizę. Zamiast tego masz tendencje do gromadzenia danych o słabej strukturze. Aby rozwiązać te problemy, celem nie jest „wybieranie najlepszych danych i wyciskanie z nich wszystkiego, co można”, tak jak można naiwnie próbować, jeśli ktoś jest przyzwyczajony do małych danych. Cel wydaje się być bardziej podobny do tego, że „jeśli możesz po prostu wyciągnąć mały smidgen z każdego pojedynczego punktu danych, suma będzie ogromna i dogłębna”.
Pomiędzy nimi znajdują się średnie zbiory danych o dobrej strukturze. To są „naprawdę trudne problemy”, więc teraz mamy tendencję do organizowania się w dwa obozy: jeden z małymi danymi wyciskającymi z niego każdy ostatni fragment, a drugi z dużymi danymi starającymi się pozwolić, aby każdy punkt danych świecił własnym dobrze. Idąc dalej, spodziewam się, że więcej procesów dla małych danych będzie próbowało dostosować się do większych zestawów danych, a więcej procesów dla dużych danych będzie próbowało się przystosować do wykorzystania bardziej uporządkowanych danych.
źródło
Powiedziałbym, że istnieją trzy elementy niezbędne do zdefiniowania dużych zbiorów danych: kierunek analizy, rozmiar danych w odniesieniu do populacji i rozmiar danych w odniesieniu do problemów obliczeniowych.
Samo pytanie zakłada, że hipotezy powstają po danych. Nie używam słowa „zebrane”, ponieważ myślę, że słowo „zebrane” oznacza dla określonego celu, a dane często nie istnieją w tym czasie. Gromadzenie często odbywa się w przypadku dużych zbiorów danych poprzez połączenie istniejących danych w celu obsługi pytania.
Drugą ważną częścią jest to, że nie są to tylko dane, dla których właściwa jest analiza post hoc, którą można nazwać analizą eksploracyjną z mniejszymi zestawami danych. Musi mieć wystarczającą wielkość, aby uważać, że zebrane z niego szacunki są wystarczająco bliskie szacunkom populacji, że wiele mniejszych problemów z próbkami można zignorować. Z tego powodu jestem trochę zaniepokojony faktem, że w tej chwili istnieje nacisk na wiele korekt porównawczych. Jeśli miałeś całą populację lub przybliżenie, które masz uzasadniony powód, by uważać za słuszne, takie poprawki powinny być dyskusyjne. Chociaż zdaję sobie sprawę, że zdarza się, że czasami pojawiają się problemy, które naprawdę zmieniają „duże dane” w małą próbkę (np. Duże regresje logistyczne), sprowadza się to do zrozumienia, czym jest duża próbka dla konkretnego pytania. Wiele z wielu pytań porównawczych należy zamiast tego zamienić na pytania o wielkości efektu. I oczywiście cały pomysł, w którym użyłbyś testów z wartością alfa = 0,05, jak wielu nadal robi z dużymi danymi, jest po prostu absurdalny.
I w końcu małe populacje się nie kwalifikują. W niektórych przypadkach populacja jest niewielka i można zebrać wszystkie dane wymagane do jej bardzo łatwego zbadania i umożliwić spełnienie dwóch pierwszych kryteriów. Dane muszą mieć wystarczającą wielkość, aby stały się problemem obliczeniowym. Jako taki, pod pewnymi względami musimy przyznać, że „duże zbiory danych” mogą być przejściowym szumem i być może zjawiskiem nieustannie poszukującym ścisłej definicji. Niektóre rzeczy, które sprawiają, że „duże zbiory danych” stają się teraz duże, znikną za kilka lat, a definicje takie jak Hadley, oparte na pojemności komputera, będą wydawać się dziwne. Ale na innym poziomie problemami obliczeniowymi są pytania, które nie dotyczą pojemności komputera lub być może pojemności komputera, której nigdy nie można rozwiązać. Myślę, że w tym sensie problemy ze zdefiniowaniem „
Można zauważyć, że nie podałem przykładów ani twardych definicji tego, czym jest trudny problem obliczeniowy dla tej domeny (istnieje mnóstwo przykładów ogólnie w comp sci i kilka odpowiednich, do których nie wejdę). Nie chcę ich robić, ponieważ uważam, że będzie to musiało być nieco otwarte. Z biegiem czasu zebrane prace wielu osób spotykają się, aby ułatwić takie rzeczy, częściej w tym momencie poprzez tworzenie oprogramowania niż sprzętu. Być może pole będzie musiało dojrzeć pełniej, aby ten ostatni wymóg był bardziej solidnie ograniczony, ale krawędzie zawsze będą rozmyte.
źródło
Wikipedia podaje dość jasną definicję
inna prosta definicja, którą znam
Niestety nie pamiętam odniesienia do tego. Cała reszta wynika z tych definicji - musisz jakoś poradzić sobie z dużą ilością danych.
źródło
Dodałbym, że Big Data to odniesienie do pracy nad dużym zbiorem danych (miliony i / lub miliardy wierszy) lub próby znalezienia informacji / wzorców na temat szerokich zasobów danych, które można teraz gromadzić wszędzie.
źródło