Kontekst : Nie mam formalnego szkolenia w zakresie statystyki bayesowskiej (choć bardzo chcę dowiedzieć się więcej), ale wiem wystarczająco dużo - myślę - aby zrozumieć, dlaczego wielu uważa, że są lepsi od statystyk częstych. Nawet studenci studiów wprowadzających (w naukach społecznych), które uczę, uważają podejście Bayesa za atrakcyjne - „Dlaczego jesteśmy zainteresowani obliczeniem prawdopodobieństwa danych, biorąc pod uwagę zero? Dlaczego nie możemy po prostu oszacować prawdopodobieństwa ? hipoteza zerowa albo hipoteza alternatywna I ja również czytać tematy takie jak te , które świadczą o empirycznych zalet Bayesa statystycznych jak dobrze, ale potem natknąłem się na ten cytat Blasco (2001; kursywa dodana).:
Jeśli hodowca zwierząt nie jest zainteresowany filozoficznymi problemami związanymi z indukcją, ale narzędziami do rozwiązywania problemów, zarówno Bayesowskie, jak i częste szkoły wnioskowania są dobrze ugruntowane i nie jest konieczne uzasadnianie, dlaczego preferowana jest jedna lub druga szkoła. Żadna z nich nie ma obecnie trudności operacyjnych, z wyjątkiem niektórych skomplikowanych przypadków ... Wybór jednej lub drugiej szkoły powinien być związany z tym, czy w jednej szkole istnieją rozwiązania, których druga nie oferuje , z łatwością rozwiązywania problemów oraz o tym, jak komfortowo czuje się naukowiec dzięki konkretnemu sposobowi wyrażania.
Pytanie : Cytat Blasco zdaje się sugerować, że może się zdarzyć, że podejście częstokroć jest rzeczywiście lepsze niż podejście bayesowskie. Jestem więc ciekawy: kiedy podejście częstokierunkowe byłoby lepsze niż podejście bayesowskie? Interesują mnie odpowiedzi, które dotyczą tego pytania zarówno koncepcyjnie (tj. Kiedy znajomość prawdopodobieństwa danych uwarunkowanych hipotezą zerową jest szczególnie przydatna?) I empirycznie (tj. Pod jakimi warunkami metody częstokroć przodują w porównaniu z bayesowskim?).
Byłoby również lepiej, gdyby odpowiedzi były przekazywane tak łatwo, jak to możliwe - byłoby miło wziąć kilka odpowiedzi z powrotem do mojej klasy i podzielić się nimi z moimi uczniami (choć rozumiem, że wymagany jest pewien poziom techniki).
Wreszcie, mimo że regularnie korzystam ze statystyk Frequentist, jestem otwarty na możliwość, że Bayesian po prostu wygra.
źródło
Odpowiedzi:
Oto pięć powodów, dla których preferowane mogą być metody częste:
Szybciej. Biorąc pod uwagę, że statystyki bayesowskie często udzielają prawie identycznych odpowiedzi na odpowiedzi częstokroć (a jeśli nie, to nie jest w 100% jasne, że Bayesian jest zawsze właściwą drogą), fakt, że statystyki częstokrzyskie można uzyskać często o kilka rzędów wielkości szybciej silny argument. Podobnie częste metody nie wymagają tyle pamięci do przechowywania wyników. Chociaż te rzeczy mogą wydawać się nieco trywialne, szczególnie w przypadku mniejszych zestawów danych, fakt, że Bayesian i Frequentist zwykle zgadzają się w wynikach (szczególnie jeśli masz dużo danych informacyjnych) oznacza, że jeśli masz zamiar się przejmować, możesz zacząć dbać o mniej ważne rzeczy I oczywiście, jeśli żyjesz w świecie dużych zbiorów danych, wcale nie są one trywialne.
Statystyka nieparametryczna. Zdaję sobie sprawę, że statystyki bayesowskie mają statystyki nieparametryczne, ale argumentowałbym, że strona częstokrzyska ma pewne naprawdę niezaprzeczalnie praktyczne narzędzia, takie jak funkcja rozkładu empirycznego. Żadna metoda na świecie nigdy nie zastąpi EDF, ani krzywych Kaplana Meiera itp. (Chociaż oczywiście nie oznacza to, że metody te są końcem analizy).
Mniej diagnostyki. Metody MCMC, najczęstsza metoda dopasowania modeli bayesowskich, zazwyczaj wymagają więcej pracy przez użytkownika niż ich częsty odpowiednik. Zwykle diagnostyka oszacowania MLE jest tak prosta, że każda dobra implementacja algorytmu zrobi to automatycznie (chociaż nie oznacza to, że każda dostępna implementacja jest dobra ...). Jako taka, częstokroć diagnostyka algorytmiczna zazwyczaj „upewnia się, że nie ma czerwonego tekstu podczas dopasowywania modelu”. Biorąc pod uwagę, że wszyscy statystycy mają ograniczoną przepustowość, zwalnia to więcej czasu na zadawanie pytań typu „czy moje dane są w przybliżeniu normalne?” lub „czy te zagrożenia są naprawdę proporcjonalne?” itp.
Prawidłowe wnioskowanie na podstawie błędnej specyfikacji modelu. Wszyscy słyszeliśmy, że „Wszystkie modele są złe, ale niektóre są przydatne”, ale różne obszary badań traktują to mniej więcej poważnie. Literatura Frequentist jest pełna metod ustalania wnioskowania, gdy model jest błędnie określony: estymator ładowania początkowego, walidacja krzyżowa, estymator wielowarstwowy (link omawia również ogólne wnioskowanie MLE w przypadku błędnej specyfikacji modelu), uogólnione równania estymacyjne (GEE), metody quasi-wiarygodności, itd. O ile mi wiadomo, w literaturze bayesowskiej jest bardzo mało informacji na temat wnioskowania na podstawie błędnej specyfikacji modelu (chociaż wiele dyskusji na temat sprawdzania modelu, tj. późniejszych kontroli predykcyjnych). Nie sądzę, że to przypadek: ocena zachowania estymatora w przypadku powtarzanych prób nie wymaga, aby estymator opierał się na „prawdziwym” modelu, ale używa twierdzenia Bayesa!
Wolność od uprzedniej (jest to prawdopodobnie najczęstszy powód, dla którego ludzie nie używają metod bayesowskich do wszystkiego). Siła bayesowskiego punktu widzenia jest często reklamowana jako wykorzystanie priorów. Jednak we wszystkich zastosowanych obszarach, w których pracowałem, pomysł informacyjny wcześniej w analizie nie jest brany pod uwagę. Czytanie literatury na temat pozyskiwania aury od ekspertów niebędących ekspertami statystycznymi jest tego dobrym uzasadnieniem; Czytałem artykuły, które mówią takie rzeczy (okrutny słomianin jak parafrazowanie własnego) „Zapytaj badacza, który cię zatrudnił, ponieważ mają problemy ze zrozumieniem statystyk, aby dał zakres, w którym są w 90% pewni, że rozmiar efektu, z którym trudno sobie wyobrazić, będzie być w tym zakresie. Zazwyczaj zakres ten jest zbyt wąski, więc arbitralnie postaraj się, aby nieco go poszerzył. Zapytaj ich, czy ich wiara wygląda jak rozkład gamma. Prawdopodobnie będziesz musiał narysować dla nich rozkład gamma i pokazać, jak może mieć ciężkie ogony, jeśli parametr kształtu jest mały. Będzie to również wymagało wyjaśnienia, czym jest dla nich plik PDF. ”(Uwaga: nie sądzę, aby nawet statystycy byli w stanie dokładnie powiedzieća priori, czy są one w 90%, czy w 95% pewne, czy wielkość efektu mieści się w zakresie, a ta różnica może mieć znaczący wpływ na analizę!). Prawdę mówiąc, jestem dość nieuprzejmy i mogą zdarzyć się sytuacje, w których uzyskanie przeora może być nieco prostsze. Ale możesz zobaczyć, jak to jest puszka robaków. Nawet jeśli przejdziesz na nieinformacyjne priory, nadal może to stanowić problem; podczas przekształcania parametrów to, co łatwo pomylić z nieinformacyjnymi aurorzy, nagle można uznać za bardzo pouczające! Innym przykładem tego jest to, że rozmawiałem z kilkoma badaczami, którzy zdecydowanie tego nie robiąchcę usłyszeć, jaka jest interpretacja danych innego eksperta, ponieważ empirycznie inni eksperci są zbyt pewni siebie. Wolą po prostu wiedzieć, co można wywnioskować z danych drugiego eksperta, a następnie dojść do własnych wniosków. Nie pamiętam, gdzie to usłyszałem, ale gdzieś przeczytałem wyrażenie „jeśli jesteś Bayesianinem, chcesz, aby wszyscy byli częstymi”. Rozumiem, że to znaczy, że teoretycznie, jeśli jesteś Bayesianinem i ktoś opisuje wyniki ich analizy, powinieneś najpierw spróbować usunąć wpływ ich wcześniejszych, a następnie dowiedzieć się, jaki byłby wpływ, gdybyś użył własnego. To małe ćwiczenie byłoby uproszczone, gdyby dali ci przedział ufności niż wiarygodny!
Oczywiście, jeśli zrezygnujesz z pouczających priorów, nadal będzie przydatna w analizach bayesowskich. Osobiście to, gdzie moim zdaniem leży ich najwyższa użyteczność; istnieją pewne problemy, z których bardzo trudno uzyskać odpowiedź przy użyciu metod MLE, ale można je dość łatwo rozwiązać za pomocą MCMC. Ale mój pogląd na to, że jest to najwyższa użyteczność Bayesian, wynika z moich mocnych priorytetów, więc weź to z odrobiną soli.
źródło
Kilka konkretnych zalet statystyk częstych:
źródło
Najważniejszym powodem korzystania z metod częstych, o których zaskakująco nie wspomniano, jest kontrola błędów. Bardzo często badania prowadzą do dychotomicznych interpretacji (czy powinienem zrobić badanie oparte na tym, czy nie? Powinienem wdrożyć interwencję, czy nie?). Podejścia częstych pozwalają ci ściśle kontrolować poziom błędu Typu 1. Podejścia bayesowskie nie (chociaż niektóre dziedziczą uniwersalną granicę od podejrzeń prawdopodobieństwa, ale nawet wtedy wskaźniki błędów mogą być dość wysokie w małych próbkach i przy stosunkowo niskich progach dowodów (np. BF> 3). Czynniki Bayesa (patrz na przykład http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2604513), ale wciąż jest to podejście częste. Myślę, że bardzo często badaczom bardziej zależy na kontroli błędów niż na kwantyfikowaniu dowodów per se (w odniesieniu do pewnej konkretnej hipotezy), i myślę, że przynajmniej wszyscy dbają o kontrolę błędów do pewnego stopnia, dlatego należy zastosować oba podejścia uzupełniająco.
źródło
Myślę, że jednym z największych pytań, jako statystyczny, który musisz sobie zadać, jest to, czy wierzysz lub nie chcesz przestrzegać zasady prawdopodobieństwa. Jeśli nie wierzysz w zasadę prawdopodobieństwa, to myślę, że częsty paradygmat statystyki może być niezwykle potężny, jednak jeśli wierzysz w zasadę prawdopodobieństwa, to (jak sądzę) z pewnością musisz popierać paradygmat bayesowski w nie naruszać tego.
Jeśli nie jesteś zaznajomiony z tym, zasada prawdopodobieństwa mówi nam:
Jednym z rysunków statystyki bayesowskiej jest to, że zgodnie z właściwymi priory paradygmat bayesowski nigdy nie narusza zasady prawdopodobieństwa. Istnieją jednak bardzo proste scenariusze, w których częsty paradygmat naruszy zasadę prawdopodobieństwa.
Oto bardzo prosty przykład oparty na testowaniu hipotez. Rozważ następujące:
Rozważ eksperyment, w którym przeprowadzono 12 prób Bernoulliego i zaobserwowano 3 sukcesy. W zależności od reguły zatrzymywania dane można scharakteryzować następująco:
I tak uzyskalibyśmy następujące funkcje prawdopodobieństwa: co oznacza, że a zatem zgodnie z zasadą prawdopodobieństwa powinniśmy uzyskać takie same wnioski na temat z obu prawdopodobieństw.
Teraz wyobraź sobie testowanie następujących hipotez z paradygmatu częstych
Dla modelu dwumianowego mamy:
Zauważ, że ale pozostałe warunki nie spełniają zasady prawdopodobieństwa.(123)(12)12=ℓ1(12;x=3)
W przypadku ujemnego modelu dwumianowego mamy:
Z powyższych obliczeń wartości p widzimy, że w modelu dwumianowym nie odrzucilibyśmy ale używając ujemnego modelu dwumianowego odrzucilibyśmy . Tak więc, mimo że istnieją wartości p i decyzje oparte na tych wartościach p, nie pokrywają się. Ten argument wartości p jest często używany przez Bayesianów przeciwko częstym wartościom p.Ho Ho ℓ1(θ;x)∝ℓ2(θ;y)
Teraz rozważ ponownie przetestowanie następujących hipotez, ale z bayesowskiego paradygmatu
Dla modelu dwumianowego mamy:
Podobnie w przypadku ujemnego modelu dwumianowego mamy:
Korzystając teraz z bayesowskich reguł decyzyjnych, wybierz jeśli (lub jakiś inny próg) i powtórz podobnie dla .Ho rP(θ≥12|x)>12 y
Jednak i doszliśmy do ten sam wniosek, a zatem to podejście spełnia zasadę prawdopodobieństwa.P(θ≥12|x)=P(θ≥12|y)
Podsumowując moje wędrówki, jeśli nie obchodzi cię zasada prawdopodobieństwa, bycie częstym jest świetne! (Jeśli nie możesz powiedzieć, jestem Bayesianinem :))
źródło
Oboje jesteśmy naukowcami i jako naukowcy interesujemy się głównie kwestiami dowodowymi. Z tego powodu uważam, że preferowane są podejścia bayesowskie, jeśli są wykonalne.
Podejścia bayesowskie odpowiadają na nasze pytanie: Jaka jest siła dowodów dla jednej hipotezy nad drugą? Z drugiej strony podejścia częstokroć nie zgłaszają: zgłaszają tylko to, czy dane są dziwne, biorąc pod uwagę jedną hipotezę.
To powiedziawszy, Andrew Gelman, znany Bayesian, wydaje się popierać stosowanie wartości p (lub kontroli graficznych podobnych do wartości p) jako kontroli błędów w specyfikacji modelu. Aluzję do tego podejścia można zobaczyć w tym poście na blogu .
Jego podejście, jak rozumiem, jest czymś w rodzaju dwuetapowego procesu: po pierwsze, zadaje on pytanie bayesowskie o to, co jest dowodem na jeden model nad drugim. Po drugie, zadaje on częstemu pytaniu pytanie, czy preferowany model rzeczywiście wygląda na wiarygodny, biorąc pod uwagę dane. Wydaje mi się to rozsądnym podejściem hybrydowym.
źródło
Osobiście mam trudności z myśleniem o sytuacji, w której częste odpowiedzi byłyby lepsze niż odpowiedzi bayesowskie. Moje myślenie zostało szczegółowo opisane tutaj oraz w innych artykułach na blogu na stronie fharrell.com o problemach z wartościami p i testowaniem hipotez zerowych. Częstokroć ignorują kilka podstawowych problemów. Oto tylko przykład:
Jeśli chodzi o pierwszy punkt, jednym z najczęściej używanych modeli jest binarny model logistyczny. Jego prawdopodobieństwo dziennika jest bardzo niekwadratowe, a zdecydowana większość granic ufności i wartości p obliczonych dla takich modeli nie jest bardzo dokładna. Porównaj to z bayesowskim modelem logistycznym, który zapewnia dokładne wnioskowanie.
Inni wspominali o kontroli błędów jako przyczynie stosowania wnioskowania częstych. Nie sądzę, aby było to logiczne, ponieważ błąd, do którego się odnoszą, to błąd długoterminowy, przewidujący proces, w którym przeprowadzane są tysiące testów statystycznych. Sędzia, który stwierdził, że „prawdopodobieństwo fałszywego skazania w długim okresie w mojej sali sądowej wynosi zaledwie 0,03”, powinno zostać zniesione. Jest ona oskarżona o najwyższe prawdopodobieństwo podjęcia właściwej decyzji dla obecnego oskarżonego . Z drugiej strony jeden minus prawdopodobieństwo tylnego efektu to prawdopodobieństwo zerowego lub wstecznego efektu i prawdopodobieństwo błędu, którego faktycznie potrzebujemy.
źródło
Wiele osób nie zdaje sobie sprawy z trzeciej szkoły filozoficznej: prawdopodobieństwa. Książka AWF Edwards, Prawdopodobieństwo, jest prawdopodobnie najlepszym miejscem do przeczytania o niej. Oto krótki artykuł, który napisał.
Prawdopodobieństwo unika wartości p, takich jak bayesianizm, ale także unika często wątpliwego przeora Bayesian. Jest to leczenie wstęp tutaj również.
źródło
Jedną z największych wad częstych podejść do budowania modeli zawsze było, jak zauważa TrynnaDoStats w swoim pierwszym punkcie, wyzwania związane z odwracaniem dużych rozwiązań w formie zamkniętej. Inwersja macierzy w postaci zamkniętej wymaga, aby cała matryca była rezydentna w pamięci RAM, co stanowi znaczne ograniczenie na platformach jednoprocesorowych z dużymi ilościami danych lub cechami masowo kategorycznymi. Metody bayesowskie były w stanie obejść to wyzwanie, symulując losowe losowania z określonego wcześniej. Zawsze był to jeden z największych punktów sprzedaży rozwiązań bayesowskich, chociaż odpowiedzi są uzyskiwane jedynie przy znacznych kosztach procesora.
Andrew Ainslie i Ken Train, w artykule z około 10 lat temu, do którego straciłem odniesienie, porównałem skończoną mieszankę (która jest częstą lub zamkniętą formą) z Bayesowskim podejściem do budowania modeli i znalazłem to w szerokim zakresie form funkcjonalnych oraz wskaźniki wydajności, obie metody dały zasadniczo równoważne wyniki. Rozwiązania bayesowskie miały przewagę lub posiadały większą elastyczność w tych przypadkach, w których informacje były zarówno rzadkie, jak i bardzo duże.
Jednak ten dokument został napisany przed opracowaniem algorytmów „dziel i rządź”, które wykorzystują masowo równoległe platformy, np. Zobacz artykuł Chen i Minge'a, aby uzyskać więcej informacji na temat tego http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012- 01.pdf
Pojawienie się podejść D&C oznaczało, że nawet w przypadku najbardziej włochatych, rzadkich, najbardziej wymiarowych problemów podejścia bayesowskie nie mają już przewagi nad metodami częstymi. Dwie metody są na równi.
Ten stosunkowo niedawny rozwój wart jest odnotowania w każdej debacie na temat praktycznych zalet lub ograniczeń każdej z metod.
źródło
Częste testy koncentrują się na fałszowaniu hipotezy zerowej. Jednak testowanie istotności hipotezy zerowej (NHST) można również wykonać z perspektywy bayesowskiej, ponieważ we wszystkich przypadkach NHST jest po prostu obliczeniem P (efekt obserwowany | efekt = 0). Trudno jest więc określić czas, w którym konieczne byłoby przeprowadzenie NHST z częstej perspektywy.
Biorąc to pod uwagę, najlepszym argumentem za przeprowadzeniem NHST przy użyciu częstego podejścia jest łatwość i dostępność. Ludzie uczą się statystyki częstokroć. Tak więc łatwiej jest prowadzić częsty NHST, ponieważ istnieje wiele innych pakietów statystycznych, które ułatwiają to zrobić. Podobnie łatwiej jest przekazać wyniki częstego NHST, ponieważ ludzie znają tę formę NHST. Widzę więc, że jest to najlepszy argument za podejściem częstych: dostępność do programów statystycznych, które je uruchomią, i łatwość przekazywania wyników kolegom. Jest to jednak tylko kwestia kulturowa, więc ten argument może się zmienić, jeśli osoby często podejmujące decyzje straciły hegemonię.
źródło
Kilka komentarzy:
Fundamentalna różnica między statystyki bayesowskiej i częstokrzyskiej polega na tym, że bayesian chętnie rozszerza narzędzia prawdopodobieństwa na sytuacje, w których nie byłby częsty.
W statystyce bayesowskiej istnieje nadzieja, że po obserwacji danych a posterior przytłacza przeora, że przeor nie ma znaczenia. Ale często tak nie jest: wyniki mogą być wrażliwe na wybór wcześniejszego! Różni Bayesianie z różnymi priorytetami nie muszą zgadzać się co do przyszłości.
Kluczową kwestią, o której należy pamiętać, jest to, że oświadczenia częstych statystyk są stwierdzeniami, na które zgadzają się dwaj Bayesianie, niezależnie od ich wcześniejszych przekonań!
Częstotliwość nie komentuje przeorów ani osób postronnych, a jedynie prawdopodobieństwo.
Wypowiedzi częstych statystyk w pewnym sensie są mniej ambitne, ale odważniejsze wypowiedzi Bayesian mogą znacznie polegać na przypisaniu przeorowi. W sytuacjach, w których ważne są priorytety i gdy nie ma zgody co do priorytetów, bardziej ograniczone, warunkowe oświadczenia częstych statystyk mogą stać na mocniejszym gruncie.
źródło
Celem wielu badań nie jest dojście do ostatecznego wniosku, ale po prostu uzyskanie trochę więcej dowodów, aby stopniowo popychać wspólnotowe poczucie pytania w jednym kierunku .
Statystyki bayesowskie są niezbędne, gdy potrzebna jest ocena decyzji lub wniosku w świetle dostępnych dowodów. Kontrola jakości byłaby niemożliwa bez statystyk bayesowskich. Każda procedura, w której musisz pobrać pewne dane, a następnie wykonać na nich działania (robotyka, uczenie maszynowe, podejmowanie decyzji biznesowych) korzysta ze statystyk bayesowskich.
Ale wielu naukowców tego nie robi. Przeprowadzają eksperymenty, zbierają dane, a następnie mówią „Dane wskazują w ten sposób”, nie martwiąc się zbytnio o to, czy jest to najlepszy wniosek, biorąc pod uwagę wszystkie dowody zebrane do tej pory przez innych. Nauka może być procesem powolnym, a stwierdzenie typu „Prawdopodobieństwo, że ten model jest poprawny, wynosi 72%!” jest często przedwczesny lub niepotrzebny.
Jest to również właściwe w prosty sposób matematyczny, ponieważ statystyki często okazują się matematycznie takie same, jak etap aktualizacji statystyki bayesowskiej. Innymi słowy, podczas gdy statystyki bayesowskie to (wcześniejszy model, dowody) → nowy model, statystyki częstokroć są tylko dowodami i pozostawiają innym wypełnienie pozostałych dwóch części.
źródło
Rzeczywiste wykonanie metody bayesowskiej jest bardziej techniczne niż częste. Przez „bardziej techniczny” rozumiem takie rzeczy jak: 1) wybór priorytetów, 2) programowanie modelu w BŁĘDACH / JAGS / STAN oraz 3) myślenie o próbkowaniu i zbieżności.
Oczywiście nr 1 nie jest z definicji opcjonalny, z definicji Bayesian. Mimo pewnych problemów i procedur mogą istnieć rozsądne wartości domyślne, w pewien sposób ukrywające problem przed użytkownikiem. (Chociaż może to również powodować problemy!)
To, czy problem stanowi nr 2, zależy od używanego oprogramowania. Statystyka bayesowska ma skłonność do bardziej ogólnych rozwiązań niż częste metody statystyczne, a narzędzia takie jak BŁĘDY, JAGS i STAN są tego naturalnym wyrazem. Istnieją jednak funkcje bayesowskie w różnych pakietach oprogramowania, które wydają się działać jak typowa procedura częstokroć, więc nie zawsze jest to problem. (I najnowsze rozwiązania, takie jak pakiety R
rstanarm
ibrms
wypełniają tę lukę.) Mimo to używanie tych narzędzi jest bardzo podobne do programowania w nowym języku.Punkt 3 ma zwykle zastosowanie, ponieważ większość rzeczywistych aplikacji Bayesian będzie korzystać z próbkowania MCMC. (Z drugiej strony, częste procedury oparte na MLE wykorzystują optymalizację, która może zbiegać się do lokalnych minimów lub wcale nie zbiegać się, i zastanawiam się ilu użytkowników powinno to sprawdzać, a nie?)
Jak powiedziałem w komentarzu, nie jestem pewien, czy wolność od priors jest w rzeczywistości korzyścią naukową. Jest to z pewnością wygodne na kilka sposobów i na kilku etapach procesu publikacji, ale nie jestem pewien, czy rzeczywiście poprawia naukę. (I na szerokim obrazie wszyscy musimy być świadomi naszych priorytetów jako naukowców, w przeciwnym razie będziemy cierpieć na wszelkiego rodzaju uprzedzenia w naszych badaniach, niezależnie od stosowanych przez nas metod statystycznych).
źródło
Koncepcyjnie : nie wiem. Uważam, że statystyki bayesowskie są najbardziej logicznym sposobem myślenia, ale nie mogę uzasadnić, dlaczego.
Zaletą osoby często odwiedzającej jest to, że jest łatwiejsza dla większości ludzi na poziomie podstawowym. Ale dla mnie to było dziwne. Minęły lata, zanim naprawdę mogłem intelektualnie wyjaśnić, co to jest przedział ufności. Ale kiedy zacząłem stawiać czoła sytuacjom praktycznym, pomysły częstych wydawały się proste i bardzo istotne.
Empirycznie
Najważniejsze pytanie, na którym staram się dziś skupić, dotyczy bardziej praktycznej wydajności: osobistego czasu pracy, precyzji i szybkości obliczeń.
Osobisty czas pracy: w przypadku podstawowych pytań właściwie nigdy prawie nie stosuję metod bayesowskich: używam podstawowych narzędzi częstych i zawsze wolę test t od równoważnika bayesowskiego, który po prostu sprawiłby mi ból głowy. Kiedy chcę wiedzieć, czy jestem znacznie lepszy w tictactoe niż moja dziewczyna, robię chi-kwadrat :-). W rzeczywistości nawet w poważnej pracy jako informatyk podstawowe narzędzia często odwiedzające są nieocenione do badania problemów i unikania fałszywych wniosków z powodu losowości.
Precyzja: W uczeniu maszynowym, w którym przewidywanie jest ważniejsze niż analiza, nie ma absolutnej granicy między bayesowskim a częstym. MLE jest częstym approcah: tylko estymatorem. Ale uregulowane MLE (MAP) jest częściowo bayesowskim podejściem : znajdujesz tryb tylnej części ciała i nie zależy ci na pozostałej części tylnej części ciała. Nie znam częstego uzasadnienia, dlaczego warto stosować regularyzację. W praktyce regularyzacja jest czasem po prostu nieunikniona, ponieważ surowe oszacowanie MLE jest tak przeładowane, że 0 byłoby lepszym predyktorem. Jeśli uzgodniono, że regularyzacja jest prawdziwie metodą bayesowską, to samo to uzasadnia, że Bayes może uczyć się z mniejszą ilością danych.
Szybkość obliczeń: metody częste są najczęściej obliczeniowo szybsze i prostsze do wdrożenia. I w jakiś sposób uregulowanie zapewnia tani sposób na wprowadzenie do nich trochę Bayesa. Być może dlatego, że metody bayesowskie wciąż nie są tak zoptymalizowane, jak mogłyby. Na przykład niektóre implementacje LDA są obecnie szybkie. Ale wymagali bardzo ciężkiej pracy. Do oceny entropii pierwszymi zaawansowanymi metodami były metody bayesowskie. Świetnie się sprawdziły, ale wkrótce odkryto metody częste i zajmują znacznie mniej czasu obliczeniowego ... W przypadku czasu obliczeniowego częste metody są na ogół wyraźnie lepsze. Nie jest absurdem, jeśli jesteś Bayesianem, myśleć o metodach częstokroć jako o przybliżeniu metod bayesowskich.
źródło
Jednym z rodzajów problemów, w których określone podejście oparte na częstościach zdominowało jakikolwiek Bayesian, jest przewidywanie w przypadku M-open.
Co oznacza M-open?
M-open oznacza, że prawdziwy model, który generuje dane, nie pojawia się w zbiorze rozważanych modeli. Na przykład, jeśli prawdziwa średnia jest kwadratowa jako funkcja , ale rozważamy tylko modele ze średnią funkcją liniową , to mamy przypadek M-open. Innymi słowy, brak specyfikacji modelu skutkuje przypadkiem M-open.y x x
W większości przypadków jest to ogromny problem dla analiz bayesowskich; właściwie cała teoria, o której wiem, opiera się na poprawnym określeniu modelu. Oczywiście, jako krytyczni statystycy powinniśmy myśleć, że nasz model jest zawsze źle określony. To dość poważny problem; większość naszej teorii opiera się na poprawności modelu, ale wiemy, że nigdy nie jest. Zasadniczo trzymamy kciuki, mając nadzieję, że nasz model nie jest zbyt niepoprawny.
Dlaczego metody Frequentist radzą sobie z tym lepiej?
Nie wszyscy tak. Na przykład, jeśli używamy standardowych narzędzi MLE do tworzenia standardowych błędów lub budowania interwałów prognozowania, nie będziemy w lepszej sytuacji niż stosowanie metod bayesowskich.
Istnieje jednak jedno narzędzie Frequentist, które jest specjalnie przeznaczone właśnie do tego celu: walidacja krzyżowa. Tutaj, aby oszacować, jak dobrze nasz model będzie przewidywał nowe dane, po prostu zostawiamy część danych podczas dopasowywania modelu i mierzymy, jak dobrze nasz model przewiduje niewidoczne dane.
Zauważ, że ta metoda jest całkowicie ambiwalentna w stosunku do braku specyfikacji modelu, jedynie zapewnia nam metodę oceny, jak dobrze model będzie przewidywał nowe dane, niezależnie od tego, czy model jest „poprawny”, czy nie.
Nie sądzę, że jest to zbyt trudne, aby twierdzić, że to naprawdę zmienia podejście do predykcyjnego modelowania, które jest trudne do uzasadnienia z Bayesa perspektywy (przed ma reprezentować wcześniejszej wiedzy przed widząc danych, funkcja prawdopodobieństwa jest modelu, itd.) Do jednego bardzo łatwo to uzasadnić z perspektywy Frequentist (wybraliśmy model + parametry regularyzacji, które przy wielokrotnym próbkowaniu prowadzą do najlepszych błędów z próby).
To całkowicie zrewolucjonizowało sposób wnioskowania predykcyjnego. Nie sądzę, aby jakikolwiek statystyka statystyczny (lub przynajmniej powinien) poważnie rozważyłby model predykcyjny, który nie został zbudowany ani sprawdzony za pomocą weryfikacji krzyżowej, gdy jest on dostępny (tzn. Możemy rozsądnie założyć, że obserwacje są niezależne, nie próbując rozliczać do stronniczości próbkowania itp.).
źródło