Lub bardziej „czy to będzie”? Big Data sprawia, że statystyki i odpowiednia wiedza stają się tym ważniejsze, ale wydaje się, że nie uwzględniają teorii próbkowania.
Widziałem ten szum wokół „Big Data” i nie mogę się dziwić, że „dlaczego” chciałbym wszystko analizować ? Czy nie było powodu, aby „teorię próbkowania” zaprojektować / wdrożyć / wynaleźć / odkryć? Nie mam sensu analizować całej „populacji” zestawu danych. To, że możesz to zrobić, nie oznacza, że powinieneś (głupota to przywilej, ale nie powinieneś go nadużywać :)
Moje pytanie brzmi więc: czy analiza całego zestawu danych jest statystycznie istotna? Najlepsze, co możesz zrobić, to zminimalizować błąd, jeśli wykonałeś próbkowanie. Ale czy naprawdę warto kosztować minimalizację tego błędu? Czy „wartość informacji” naprawdę jest warta wysiłku, kosztów czasu itp., Które wiążą się z analizą dużych zbiorów danych na masowo równoległych komputerach?
Nawet jeśli przeanalizuje się całą populację, wynik byłby w najlepszym razie domniemaniem z większym prawdopodobieństwem posiadania racji. Prawdopodobnie nieco wyższy niż pobieranie próbek (czy byłoby o wiele więcej?) Czy wgląd uzyskany z analizy populacji w porównaniu z analizą próby różni się znacznie?
A może powinniśmy zaakceptować to jako „czasy się zmieniły”? Próbkowanie jako działanie może stać się mniej ważne, biorąc pod uwagę wystarczającą moc obliczeniową :)
Uwaga: nie próbuję rozpoczynać debaty, ale szukam odpowiedzi, aby zrozumieć, dlaczego duże zbiory danych robią to, co robią (tj. Analizują wszystko) i ignorują teorię próbkowania (czy nie?)
źródło
Odpowiedzi:
Jednym słowem tak . Uważam, że nadal istnieją wyraźne sytuacje, w których próbkowanie jest właściwe, zarówno w świecie „dużych zbiorów danych”, jak i bez niego, ale natura dużych zbiorów danych z pewnością zmieni nasze podejście do próbkowania i użyjemy większej liczby zestawów danych, które są prawie kompletnymi reprezentacjami bazowych danych populacja.
W przypadku pobierania próbek: w zależności od okoliczności prawie zawsze będzie jasne, czy pobieranie próbek jest właściwe. Pobieranie próbek nie jest z natury korzystnym działaniem; jest to po prostu to, co robimy, ponieważ musimy kompromisować koszty wdrożenia gromadzenia danych. Staramy się scharakteryzować populacje i musimy wybrać odpowiednią metodę gromadzenia i analizy danych o populacji. Próbkowanie ma sens, gdy koszt krańcowy metody gromadzenia lub przetwarzania danych jest wysoki. W takim przypadku próba dotarcia do 100% populacji nie jest dobrym wykorzystaniem zasobów, ponieważ często lepiej jest zająć się takimi sprawami, jak brak uprzedzeń, niż drobną poprawą losowego błędu próbkowania.
Czym różni się Big Data? „Duże zbiory danych” odpowiadają na te same pytania, które mieliśmy od wieków, ale „nowością” jest to, że gromadzenie danych odbywa się w ramach istniejącego procesu, w którym pośredniczy komputer, więc krańcowy koszt zbierania danych jest zasadniczo zerowy. To znacznie zmniejsza naszą potrzebę próbkowania.
Kiedy nadal będziemy używać próbkowania? Jeśli populacja „dużych zbiorów danych” jest odpowiednią populacją dla problemu, wówczas próbkowanie zostanie zastosowane tylko w kilku przypadkach: potrzeba uruchomienia oddzielnych grup eksperymentalnych lub jeśli sama ilość danych jest zbyt duża do przechwycenia i przetworzenia (wiele z nas z łatwością poradzi sobie z milionami wierszy danych, więc granica tutaj jest coraz większa). Jeśli wydaje się, że odrzucam twoje pytanie, to prawdopodobnie dlatego, że rzadko napotykałem sytuacje, w których wolumen danych budził obawy na etapie gromadzenia lub przetwarzania, chociaż wiem, że wielu
Sytuacja, która wydaje mi się trudna, polega na tym, że populacja „dużych zbiorów danych” nie idealnie reprezentuje populację docelową, więc kompromisy to więcej jabłek niż pomarańczy. Załóżmy, że jesteś regionalnym planistą transportu, a Google zaoferowało Ci dostęp do swoich dzienników nawigacji GPS Android, aby Ci pomóc. Chociaż zestaw danych z pewnością byłby interesujący w użyciu, populacja prawdopodobnie byłaby systematycznie stronnicza w stosunku do osób o niskich dochodach, użytkowników transportu publicznego i osób starszych. W takiej sytuacji tradycyjne dzienniki podróży wysyłane do losowej próbki gospodarstwa domowego, choć droższe i mniejsze, wciąż mogą być lepszą metodą gromadzenia danych. Ale to nie jest po prostu kwestia „próbkowania kontra duże zbiory danych”, to „
źródło
Chociaż urządzenia mobilne wytwarzają duże ilości Big Data i tak niewiele, w nich jest niewiele przydatnych danych. Jeśli chcesz przewidzieć wzorce podróży w mieście za pomocą foursquare, możesz być wyłączony o rząd wielkości w szacowanych przepływach. Co gorsza, nie będziesz wiedział, czy jesteś przeceniony lub nie doceniasz tych przepływów. Możesz uzyskać niesamowicie dokładny obraz miejskich wzorców podróży maniakalnych użytkowników foursquare, ale chyba że wszyscy są zobowiązani (1) do utrzymania działającego smartfona, (2) do ciągłego uruchamiania aplikacji foursquare i (3) do rejestracji w w dowolnym miejscu, w którym przebywają dłużej niż 10 minut (tj. uzyskać elektroniczny spis ludności; pozwól libertarianom narzekać na Google i Facebook, wiedząc o tobie wszystko), twoje dane będą zawierać nieznane uprzedzenia, a twoje elektroniczne Deweys będą nadal pokonywać prawdziwe słowo Trumans (klikalne):
(źródło: whatisasurvey.info )
Jeśli już, to spodziewałbym się, że ten fragment historii się powtórzy, a niektóre duże prognozy „piwo + pieluchy” opracowane na podstawie Big Data zostałyby obalone przez badaczy stosujących bardziej rygorystyczne metody próbkowania. Zaskakujące jest to, że badania oparte na prawdopodobieństwie pozostają dokładne, nawet pomimo spadku odsetka odpowiedzi.
źródło
Ilekroć stosuje się techniki wnioskowania statystycznego, ważne jest, aby jasno określić populację, na temat której dąży się do wyciągnięcia wniosków. Nawet jeśli zebrane dane są bardzo duże, mogą nadal odnosić się tylko do niewielkiej części populacji i mogą nie być zbyt reprezentatywne dla całości.
Załóżmy na przykład, że firma działająca w określonej branży zgromadziła „duże zbiory danych” na temat swoich klientów w danym kraju. Jeśli chce wykorzystać te dane do wyciągnięcia wniosków na temat swoich obecnych klientów w tym kraju, kontrola wyrywkowa może być mało istotna. Jeśli jednak chce wyciągnąć wnioski na temat większej populacji - potencjalnych, jak również istniejących klientów lub klientów w innym kraju - konieczne staje się rozważenie, w jakim stopniu klienci, o których dane zostały zebrane, są reprezentatywni - być może pod względem dochodów, wieku , płeć, wykształcenie itp. - większej populacji.
Należy również wziąć pod uwagę wymiar czasu. Jeśli celem jest wykorzystanie wnioskowania statystycznego do wspierania prognoz, populację należy rozumieć jako rozszerzającą się w przyszłość. Jeśli tak, to znów konieczne jest rozważenie, czy zbiór danych, jakkolwiek duży, został uzyskany w okolicznościach reprezentatywnych dla tych, które mogą zostać uzyskane w przyszłości.
źródło
Z tego, co widziałem w szaleństwie dużych zbiorów danych / ML, myślenie o próbkowaniu i populacji, z której pochodzi twoja próbka, jest tak samo ważne jak zawsze - ale myślałem o jeszcze mniej.
„Audytuję” klasę ML Stanforda i do tej pory omawialiśmy regresję i sieci neuronowe, nie wspominając o wnioskowaniu o populacji. Ponieważ w tej klasie wzięło udział 6 osób, obecnie jest okropnie dużo osób, które wiedzą, jak bardzo dopasować dane, bez pojęcia o próbce.
źródło
Tak, pobieranie próbek jest istotne i pozostanie istotne. Najważniejsze jest to, że dokładność oszacowania statystycznego jest generalnie funkcją wielkości próby, a nie populacji, do której chcemy uogólniać. Tak więc średnia lub średnia proporcja obliczona z próby 1000 respondentów da oszacowanie pewnej dokładności (w odniesieniu do całej populacji, z której pobrano próbki), niezależnie od wielkości populacji (lub „jak dużej” „ duże dane ”są).
Powiedziawszy to: Istnieją konkretne kwestie i wyzwania, które są istotne i należy je wymienić:
Tutaj możesz sprawdzić naszą „rewolucję Big Data”.
źródło
Wiele metod dużych zbiorów danych jest faktycznie zaprojektowanych wokół próbkowania.
Pytanie powinno raczej brzmieć:
Wiele „dużych zbiorów danych” jest wciąż całkiem świeżych, a czasem naiwnych. Na przykład K-średnie można trywialnie zrównoleglać, a zatem działa dla „dużych zbiorów danych” (nie zamierzam mówić o wynikach, nie są one bardzo znaczące; i prawdopodobnie nie bardzo różnią się od wyników uzyskanych na próbce!). O ile wiem, to właśnie robi implementacja k-średnich w Mahout.
Jednak badania wykraczają poza naiwną paralelizację (która wciąż może wymagać dużej liczby iteracji) i próbują wykonać K-średnie w ustalonej liczbie iteracji. Przykład tego:
Ene, A. i Im, S. i Moseley, B.
Postępowanie podczas 17. międzynarodowej konferencji ACM SIGKDD na temat odkrywania wiedzy i eksploracji danych, 2011
I zgadnij co, ich podejście jest w dużej mierze oparte na próbkowaniu .
Następny przykład: lasy decyzyjne . Zasadniczo: dla kilku próbek ze zbioru danych utwórz drzewo decyzyjne. Można ponownie trywialnie zrównoleglić: umieść każdą próbkę na osobnej maszynie. I znowu jest to podejście oparte na próbkowaniu.
Próbkowanie jest więc jednym z kluczowych składników podejść do dużych zbiorów danych!
I nie ma w tym nic złego.
źródło
Krzyżowa walidacja jest szczególnym przykładem podpróbkowania, które jest dość ważne w ML / Big Data. Mówiąc bardziej ogólnie, duże zbiory danych są zwykle próbką populacji, jak wspomnieli tu inni ludzie.
Myślę jednak, że OP może odnosić się konkretnie do próbkowania, ponieważ dotyczy kontrolowanych eksperymentów w porównaniu z danymi obserwacyjnymi. Zwykle duże zbiory danych są uważane za te ostatnie, ale dla mnie przynajmniej są wyjątki. Pomyślałbym o randomizowanych próbach, testach A / B i wielorękich bandytach w ustawieniach e-commerce i sieci społecznościowych jako przykłady „próbkowania w ustawieniach dużych danych”.
źródło
W obszarach, w których Big Data zyskuje popularność: wyszukiwanie, reklama, systemy rekomendujące, takie jak Amazon, Netflix, istnieje bardzo duża zachęta do eksploracji całego zestawu danych.
Celem tych systemów jest dostosowanie zaleceń / sugestii do każdego członka populacji. Ponadto liczba badanych atrybutów jest ogromna. Przeciętny system analityki internetowej może mierzyć współczynnik klikalności, „śledzenie termiczne” „gorących obszarów” na stronie, interakcje społecznościowe itp. I porównywać je z dużym zestawem wcześniej ustalonych celów.
Co ważniejsze, większość miejsc, w których Big Data jest obecnie wszechobecna, to strumienie danych „online”, tj. Dane są ciągle dodawane / aktualizowane. Opracowanie schematu próbkowania obejmującego wszystkie te atrybuty bez nieodłącznego uprzedzenia i wciąż zapewniającego obiecujące wyniki (czytaj lepsze marginesy) jest wyzwaniem.
Pobieranie próbek nadal ma duże znaczenie w badaniach, badaniach medycznych, testach A / B, zapewnieniu jakości.
W skrócie, pobieranie próbek jest bardzo przydatne, gdy populacja, która ma być badana, jest bardzo duża i interesują cię makroskopowe właściwości populacji. Kontrola 100% (Big Data) jest niezbędna do wykorzystania mikroskopijnych właściwości systemu
Mam nadzieję że to pomoże :)
źródło