Czy pobieranie próbek ma znaczenie w czasach „dużych zbiorów danych”?

54

Lub bardziej „czy to będzie”? Big Data sprawia, że ​​statystyki i odpowiednia wiedza stają się tym ważniejsze, ale wydaje się, że nie uwzględniają teorii próbkowania.

Widziałem ten szum wokół „Big Data” i nie mogę się dziwić, że „dlaczego” chciałbym wszystko analizować ? Czy nie było powodu, aby „teorię próbkowania” zaprojektować / wdrożyć / wynaleźć / odkryć? Nie mam sensu analizować całej „populacji” zestawu danych. To, że możesz to zrobić, nie oznacza, że ​​powinieneś (głupota to przywilej, ale nie powinieneś go nadużywać :)

Moje pytanie brzmi więc: czy analiza całego zestawu danych jest statystycznie istotna? Najlepsze, co możesz zrobić, to zminimalizować błąd, jeśli wykonałeś próbkowanie. Ale czy naprawdę warto kosztować minimalizację tego błędu? Czy „wartość informacji” naprawdę jest warta wysiłku, kosztów czasu itp., Które wiążą się z analizą dużych zbiorów danych na masowo równoległych komputerach?

Nawet jeśli przeanalizuje się całą populację, wynik byłby w najlepszym razie domniemaniem z większym prawdopodobieństwem posiadania racji. Prawdopodobnie nieco wyższy niż pobieranie próbek (czy byłoby o wiele więcej?) Czy wgląd uzyskany z analizy populacji w porównaniu z analizą próby różni się znacznie?

A może powinniśmy zaakceptować to jako „czasy się zmieniły”? Próbkowanie jako działanie może stać się mniej ważne, biorąc pod uwagę wystarczającą moc obliczeniową :)

Uwaga: nie próbuję rozpoczynać debaty, ale szukam odpowiedzi, aby zrozumieć, dlaczego duże zbiory danych robią to, co robią (tj. Analizują wszystko) i ignorują teorię próbkowania (czy nie?)

Doktorat
źródło
1
Zobacz także: stats.stackexchange.com/q/22502/7828 - jak wyciągnąć prawidłowe wnioski z dużych zbiorów danych.
Anony-Mousse,
2
(+1 dawno temu) Zawsze lubię czytać wnikliwe pytania. Są prawdziwym atutem tej strony.
kardynał
1
@cardinal - Szczerze doceniam twój komentarz. Wiele znaczy od ciebie.
Dr

Odpowiedzi:

29

Jednym słowem tak . Uważam, że nadal istnieją wyraźne sytuacje, w których próbkowanie jest właściwe, zarówno w świecie „dużych zbiorów danych”, jak i bez niego, ale natura dużych zbiorów danych z pewnością zmieni nasze podejście do próbkowania i użyjemy większej liczby zestawów danych, które są prawie kompletnymi reprezentacjami bazowych danych populacja.

W przypadku pobierania próbek: w zależności od okoliczności prawie zawsze będzie jasne, czy pobieranie próbek jest właściwe. Pobieranie próbek nie jest z natury korzystnym działaniem; jest to po prostu to, co robimy, ponieważ musimy kompromisować koszty wdrożenia gromadzenia danych. Staramy się scharakteryzować populacje i musimy wybrać odpowiednią metodę gromadzenia i analizy danych o populacji. Próbkowanie ma sens, gdy koszt krańcowy metody gromadzenia lub przetwarzania danych jest wysoki. W takim przypadku próba dotarcia do 100% populacji nie jest dobrym wykorzystaniem zasobów, ponieważ często lepiej jest zająć się takimi sprawami, jak brak uprzedzeń, niż drobną poprawą losowego błędu próbkowania.

Czym różni się Big Data? „Duże zbiory danych” odpowiadają na te same pytania, które mieliśmy od wieków, ale „nowością” jest to, że gromadzenie danych odbywa się w ramach istniejącego procesu, w którym pośredniczy komputer, więc krańcowy koszt zbierania danych jest zasadniczo zerowy. To znacznie zmniejsza naszą potrzebę próbkowania.

Kiedy nadal będziemy używać próbkowania? Jeśli populacja „dużych zbiorów danych” jest odpowiednią populacją dla problemu, wówczas próbkowanie zostanie zastosowane tylko w kilku przypadkach: potrzeba uruchomienia oddzielnych grup eksperymentalnych lub jeśli sama ilość danych jest zbyt duża do przechwycenia i przetworzenia (wiele z nas z łatwością poradzi sobie z milionami wierszy danych, więc granica tutaj jest coraz większa). Jeśli wydaje się, że odrzucam twoje pytanie, to prawdopodobnie dlatego, że rzadko napotykałem sytuacje, w których wolumen danych budził obawy na etapie gromadzenia lub przetwarzania, chociaż wiem, że wielu

Sytuacja, która wydaje mi się trudna, polega na tym, że populacja „dużych zbiorów danych” nie idealnie reprezentuje populację docelową, więc kompromisy to więcej jabłek niż pomarańczy. Załóżmy, że jesteś regionalnym planistą transportu, a Google zaoferowało Ci dostęp do swoich dzienników nawigacji GPS Android, aby Ci pomóc. Chociaż zestaw danych z pewnością byłby interesujący w użyciu, populacja prawdopodobnie byłaby systematycznie stronnicza w stosunku do osób o niskich dochodach, użytkowników transportu publicznego i osób starszych. W takiej sytuacji tradycyjne dzienniki podróży wysyłane do losowej próbki gospodarstwa domowego, choć droższe i mniejsze, wciąż mogą być lepszą metodą gromadzenia danych. Ale to nie jest po prostu kwestia „próbkowania kontra duże zbiory danych”, to „

Jonathan
źródło
22

Chociaż urządzenia mobilne wytwarzają duże ilości Big Data i tak niewiele, w nich jest niewiele przydatnych danych. Jeśli chcesz przewidzieć wzorce podróży w mieście za pomocą foursquare, możesz być wyłączony o rząd wielkości w szacowanych przepływach. Co gorsza, nie będziesz wiedział, czy jesteś przeceniony lub nie doceniasz tych przepływów. Możesz uzyskać niesamowicie dokładny obraz miejskich wzorców podróży maniakalnych użytkowników foursquare, ale chyba że wszyscy są zobowiązani (1) do utrzymania działającego smartfona, (2) do ciągłego uruchamiania aplikacji foursquare i (3) do rejestracji w w dowolnym miejscu, w którym przebywają dłużej niż 10 minut (tj. uzyskać elektroniczny spis ludności; pozwól libertarianom narzekać na Google i Facebook, wiedząc o tobie wszystko), twoje dane będą zawierać nieznane uprzedzenia, a twoje elektroniczne Deweys będą nadal pokonywać prawdziwe słowo Trumans (klikalne):


(źródło: whatisasurvey.info )

Jeśli już, to spodziewałbym się, że ten fragment historii się powtórzy, a niektóre duże prognozy „piwo + pieluchy” opracowane na podstawie Big Data zostałyby obalone przez badaczy stosujących bardziej rygorystyczne metody próbkowania. Zaskakujące jest to, że badania oparte na prawdopodobieństwie pozostają dokładne, nawet pomimo spadku odsetka odpowiedzi.

StasK
źródło
1
(+1) Ale czy stereotypowy użytkownik foursquare nie byłby antytezą paranoi . ;-)
kardynał
1
Tak ... prawdopodobnie zły termin. Pozwól mi zmienić to na maniakalne!
StasK
2
Big data nie jest winowajcą. Tak to jest używane. Gdy zawiera informacje i jest odpowiednio stosowany, może być bardzo pomocny. Eksploracja danych nie jest wcale taka zła.
Michael Chernick,
Świetny punkt na wykorzystanie dużych zbiorów danych do informacji o ruchu drogowym. Ponieważ firmy takie jak Google i Apple już to robią, myślę, że jest to świetny przykład tego, gdzie (obecnie dostępne) duże zbiory danych mogą nie być dostępne dla niektórych odbiorców, i starałem się uwzględnić to również w mojej odpowiedzi.
Jonathan
@Michael, oczywiście masz rację. Dane są tanio tanie, ale sposoby uzyskiwania z nich użytecznych informacji nie maleją - jeśli już, to rosną, ponieważ trzeba teraz przeszukać więcej danych, aby uzyskać przydatne informacje.
StasK
21

Ilekroć stosuje się techniki wnioskowania statystycznego, ważne jest, aby jasno określić populację, na temat której dąży się do wyciągnięcia wniosków. Nawet jeśli zebrane dane są bardzo duże, mogą nadal odnosić się tylko do niewielkiej części populacji i mogą nie być zbyt reprezentatywne dla całości.

Załóżmy na przykład, że firma działająca w określonej branży zgromadziła „duże zbiory danych” na temat swoich klientów w danym kraju. Jeśli chce wykorzystać te dane do wyciągnięcia wniosków na temat swoich obecnych klientów w tym kraju, kontrola wyrywkowa może być mało istotna. Jeśli jednak chce wyciągnąć wnioski na temat większej populacji - potencjalnych, jak również istniejących klientów lub klientów w innym kraju - konieczne staje się rozważenie, w jakim stopniu klienci, o których dane zostały zebrane, są reprezentatywni - być może pod względem dochodów, wieku , płeć, wykształcenie itp. - większej populacji.

Należy również wziąć pod uwagę wymiar czasu. Jeśli celem jest wykorzystanie wnioskowania statystycznego do wspierania prognoz, populację należy rozumieć jako rozszerzającą się w przyszłość. Jeśli tak, to znów konieczne jest rozważenie, czy zbiór danych, jakkolwiek duży, został uzyskany w okolicznościach reprezentatywnych dla tych, które mogą zostać uzyskane w przyszłości.

Adam Bailey
źródło
Witamy na naszej stronie, Adam! (Jeśli
odprawisz się
Świetna uwaga na temat potrzeby uwzględnienia populacji! To jeden z głównych sposobów, w jaki ludzie mogą lenić się na temat dużych zbiorów danych.
Jonathan
„Nawet jeśli zebrane dane są bardzo duże, mogą nadal odnosić się tylko do niewielkiej części populacji i mogą nie być zbyt reprezentatywne dla całości”. Myślę, że samo zdanie odpowiada na wiele pytań.
Bemipefe
13

Z tego, co widziałem w szaleństwie dużych zbiorów danych / ML, myślenie o próbkowaniu i populacji, z której pochodzi twoja próbka, jest tak samo ważne jak zawsze - ale myślałem o jeszcze mniej.

„Audytuję” klasę ML Stanforda i do tej pory omawialiśmy regresję i sieci neuronowe, nie wspominając o wnioskowaniu o populacji. Ponieważ w tej klasie wzięło udział 6 osób, obecnie jest okropnie dużo osób, które wiedzą, jak bardzo dopasować dane, bez pojęcia o próbce.

Ari B. Friedman
źródło
3
Całkowicie się zgadzam. Obserwując obecne szaleństwo związane z uczeniem maszynowym (głównie praktykami i programistami), Big Data i „nauką danych”, wydaje mi się absurdalnie powszechne, że ludzie całkowicie ignorują próbkowanie, wnioskowanie, zrozumienie i znaczenie rozumowania statystycznego oraz poświęcają je za ślepe stosowanie czegokolwiek algorytm jest na topie. Możesz to nawet zobaczyć z pytaniami i niektórymi odpowiedziami tutaj na krzyżowym potwierdzeniu. Dlatego też uważam, że będzie to szum, który wkrótce stanie się przestarzały lub zapożyczony ze statystycznej epistemologii, a tym samym stanie się gałęzią statystyk (i tak to postrzegam).
Momo
2
Jeśli ta klasa ML jest podobna do tej, którą skontrolowałem jakiś czas temu, przed nierównością Hoeffdinga pojawiło się techniczne założenie, że dane treningowe są całkowicie losową próbą z populacji. Niestety, prawie nigdy tak nie jest, przynajmniej z mojego doświadczenia i w przykładach zastosowania technik w trakcie całego kursu. Nadal nie ma to zastosowania w przypadku „dużych zbiorów danych”.
Douglas Zare
12

Tak, pobieranie próbek jest istotne i pozostanie istotne. Najważniejsze jest to, że dokładność oszacowania statystycznego jest generalnie funkcją wielkości próby, a nie populacji, do której chcemy uogólniać. Tak więc średnia lub średnia proporcja obliczona z próby 1000 respondentów da oszacowanie pewnej dokładności (w odniesieniu do całej populacji, z której pobrano próbki), niezależnie od wielkości populacji (lub „jak dużej” „ duże dane ”są).

Powiedziawszy to: Istnieją konkretne kwestie i wyzwania, które są istotne i należy je wymienić:

  1. Pobranie próbki prawdopodobieństwa nie zawsze jest łatwe. Teoretycznie każda osoba w populacji, do której chcemy uogólnić (o której chcemy wnioskować), musi mieć znane prawdopodobieństwo wyboru; idealnie, że prawdopodobieństwo powinno być takie samo (próbka równego prawdopodobieństwa lub EPSEM - równe prawdopodobieństwo wyboru). Jest to ważna kwestia i należy dobrze zrozumieć, w jaki sposób proces próbkowania przypisze prawdopodobieństwa selekcji członkom populacji, do których chce się uogólnić. Czy na przykład można wywnioskować z Twittera dokładne szacunki ogólnych nastrojów w całej populacji, w tym osób bez kont na Twitterze?
  2. Duże zbiory danych mogą zawierać bardzo złożone szczegóły i informacje; Innymi słowy, problemem nie jest próbkowanie, ale (mikro-) segmentacja, wyciągnięcie odpowiednich szczegółów dla niewielkiej części istotnych obserwacji. W tym przypadku wyzwaniem nie jest próbkowanie, ale określenie specyficznej stratyfikacji i segmentacji dużych zbiorów danych, które dają najdokładniejsze informacje możliwe do zastosowania, które można przekształcić w cenne spostrzeżenia.
  3. Inną ogólną zasadą pomiaru opinii jest to, że błędy i błędy w próbkowaniu są zwykle znacznie większe niż błąd i błędy w próbkowaniu. Tylko dlatego, że przetwarzasz 1 setkę rekordów respondentów wyrażających opinie, wyniki nie są bardziej przydatne, jeśli masz tylko dane z 1000 osób z podpróbki, w szczególności jeśli pytania do odpowiedniej ankiety nie zostały dobrze napisane i spowodowały stronniczość.
  4. Czasami wymagane jest pobieranie próbek: na przykład, gdyby zbudować model predykcyjny na podstawie wszystkich danych, w jaki sposób można go zweryfikować? Jak porównać dokładność różnych modeli? Gdy istnieją „duże zbiory danych” (bardzo duże repozytoria danych), wówczas można zbudować wiele modeli i scenariuszy modelowania dla różnych próbek i zweryfikować je (wypróbować) w innych niezależnych próbkach. Gdyby zbudować jeden model dla wszystkich danych - jak można go zweryfikować?

Tutaj możesz sprawdzić naszą „rewolucję Big Data”.

Kyra Matzdorf
źródło
1
Witamy na naszej stronie Kyra!
whuber
3

Wiele metod dużych zbiorów danych jest faktycznie zaprojektowanych wokół próbkowania.

Pytanie powinno raczej brzmieć:

Czy nie powinniśmy również stosować systematycznego próbkowania dużych zbiorów danych?

Wiele „dużych zbiorów danych” jest wciąż całkiem świeżych, a czasem naiwnych. Na przykład K-średnie można trywialnie zrównoleglać, a zatem działa dla „dużych zbiorów danych” (nie zamierzam mówić o wynikach, nie są one bardzo znaczące; i prawdopodobnie nie bardzo różnią się od wyników uzyskanych na próbce!). O ile wiem, to właśnie robi implementacja k-średnich w Mahout.

Jednak badania wykraczają poza naiwną paralelizację (która wciąż może wymagać dużej liczby iteracji) i próbują wykonać K-średnie w ustalonej liczbie iteracji. Przykład tego:

  • Szybkie grupowanie przy użyciu MapReduce
    Ene, A. i Im, S. i Moseley, B.
    Postępowanie podczas 17. międzynarodowej konferencji ACM SIGKDD na temat odkrywania wiedzy i eksploracji danych, 2011

I zgadnij co, ich podejście jest w dużej mierze oparte na próbkowaniu .

Następny przykład: lasy decyzyjne . Zasadniczo: dla kilku próbek ze zbioru danych utwórz drzewo decyzyjne. Można ponownie trywialnie zrównoleglić: umieść każdą próbkę na osobnej maszynie. I znowu jest to podejście oparte na próbkowaniu.

Próbkowanie jest więc jednym z kluczowych składników podejść do dużych zbiorów danych!

I nie ma w tym nic złego.

Anony-Mus
źródło
2

Krzyżowa walidacja jest szczególnym przykładem podpróbkowania, które jest dość ważne w ML / Big Data. Mówiąc bardziej ogólnie, duże zbiory danych są zwykle próbką populacji, jak wspomnieli tu inni ludzie.

Myślę jednak, że OP może odnosić się konkretnie do próbkowania, ponieważ dotyczy kontrolowanych eksperymentów w porównaniu z danymi obserwacyjnymi. Zwykle duże zbiory danych są uważane za te ostatnie, ale dla mnie przynajmniej są wyjątki. Pomyślałbym o randomizowanych próbach, testach A / B i wielorękich bandytach w ustawieniach e-commerce i sieci społecznościowych jako przykłady „próbkowania w ustawieniach dużych danych”.

Dave
źródło
1

W obszarach, w których Big Data zyskuje popularność: wyszukiwanie, reklama, systemy rekomendujące, takie jak Amazon, Netflix, istnieje bardzo duża zachęta do eksploracji całego zestawu danych.

Celem tych systemów jest dostosowanie zaleceń / sugestii do każdego członka populacji. Ponadto liczba badanych atrybutów jest ogromna. Przeciętny system analityki internetowej może mierzyć współczynnik klikalności, „śledzenie termiczne” „gorących obszarów” na stronie, interakcje społecznościowe itp. I porównywać je z dużym zestawem wcześniej ustalonych celów.

Co ważniejsze, większość miejsc, w których Big Data jest obecnie wszechobecna, to strumienie danych „online”, tj. Dane są ciągle dodawane / aktualizowane. Opracowanie schematu próbkowania obejmującego wszystkie te atrybuty bez nieodłącznego uprzedzenia i wciąż zapewniającego obiecujące wyniki (czytaj lepsze marginesy) jest wyzwaniem.

Pobieranie próbek nadal ma duże znaczenie w badaniach, badaniach medycznych, testach A / B, zapewnieniu jakości.

W skrócie, pobieranie próbek jest bardzo przydatne, gdy populacja, która ma być badana, jest bardzo duża i interesują cię makroskopowe właściwości populacji. Kontrola 100% (Big Data) jest niezbędna do wykorzystania mikroskopijnych właściwości systemu

Mam nadzieję że to pomoże :)

szaleństwo
źródło
Czy masz na myśli to, że nie chcą być w stanie uogólniać poza dane, które mają, na dane, których jeszcze nie mają? A może uważają, że ich próbka jest tak duża, że ​​nie muszą się tym martwić? Lub, że podstawowe parametry będą się zmieniać w czasie, więc nie ma znaczenia, dopóki będą się aktualizować wraz z napływem nowych danych?
gung - Przywróć Monikę
@ Gung problemem nie jest wielkość próbki, ale problem generowania obiektywnej próbki dla zestawu danych, który ma ogromną liczbę atrybutów. Uogólnienia są zwykle wykonywane przez algorytmy uczenia maszynowego, wyszkolone na części zestawu danych. Ciągle napływające strumienie danych online sprawiają, że kwestia próbkowania jest drugorzędna, ponieważ do zmiany parametrów można użyć aktualizacji wsadowych.
rrampage