Kiedy (jeśli w ogóle) podejście częstokroć jest istotnie lepsze od bayesowskiego?

72

Kontekst : Nie mam formalnego szkolenia w zakresie statystyki bayesowskiej (choć bardzo chcę dowiedzieć się więcej), ale wiem wystarczająco dużo - myślę - aby zrozumieć, dlaczego wielu uważa, że ​​są lepsi od statystyk częstych. Nawet studenci studiów wprowadzających (w naukach społecznych), które uczę, uważają podejście Bayesa za atrakcyjne - „Dlaczego jesteśmy zainteresowani obliczeniem prawdopodobieństwa danych, biorąc pod uwagę zero? Dlaczego nie możemy po prostu oszacować prawdopodobieństwa ? hipoteza zerowa albo hipoteza alternatywna I ja również czytać tematy takie jak te , które świadczą o empirycznych zalet Bayesa statystycznych jak dobrze, ale potem natknąłem się na ten cytat Blasco (2001; kursywa dodana).:

Jeśli hodowca zwierząt nie jest zainteresowany filozoficznymi problemami związanymi z indukcją, ale narzędziami do rozwiązywania problemów, zarówno Bayesowskie, jak i częste szkoły wnioskowania są dobrze ugruntowane i nie jest konieczne uzasadnianie, dlaczego preferowana jest jedna lub druga szkoła. Żadna z nich nie ma obecnie trudności operacyjnych, z wyjątkiem niektórych skomplikowanych przypadków ... Wybór jednej lub drugiej szkoły powinien być związany z tym, czy w jednej szkole istnieją rozwiązania, których druga nie oferuje , z łatwością rozwiązywania problemów oraz o tym, jak komfortowo czuje się naukowiec dzięki konkretnemu sposobowi wyrażania.

Pytanie : Cytat Blasco zdaje się sugerować, że może się zdarzyć, że podejście częstokroć jest rzeczywiście lepsze niż podejście bayesowskie. Jestem więc ciekawy: kiedy podejście częstokierunkowe byłoby lepsze niż podejście bayesowskie? Interesują mnie odpowiedzi, które dotyczą tego pytania zarówno koncepcyjnie (tj. Kiedy znajomość prawdopodobieństwa danych uwarunkowanych hipotezą zerową jest szczególnie przydatna?) I empirycznie (tj. Pod jakimi warunkami metody częstokroć przodują w porównaniu z bayesowskim?).

Byłoby również lepiej, gdyby odpowiedzi były przekazywane tak łatwo, jak to możliwe - byłoby miło wziąć kilka odpowiedzi z powrotem do mojej klasy i podzielić się nimi z moimi uczniami (choć rozumiem, że wymagany jest pewien poziom techniki).

Wreszcie, mimo że regularnie korzystam ze statystyk Frequentist, jestem otwarty na możliwość, że Bayesian po prostu wygra.

jsakaluk
źródło
10
Kiedy masz do czynienia z obiektywnymi prawdopodobieństwami, tj. Naturalnie procesami stochastycznymi. Na przykład rozpad radioaktywny nie ma nic wspólnego z twoimi subiektywnymi przekonaniami lub nieznanymi informacjami, ani z niczym więcej. Po prostu idzie własnym tempem, a atomy naprawdę przypadkowo się rozpadają.
Aksakal
6
Zobacz to ostatnie pytanie, które niestety zakończyło się jako zbyt szerokie (głosowałem na ponowne otwarcie, ale nigdy nie było): stats.stackexchange.com/questions/192572 . Pytasz prawie dokładnie to samo. Sprawdź tam odpowiedź.
ameba
5
@Aksakal: Chciałbym mieć tę dyskusję, ale jest ona nie na temat i zostaniemy przekreśleni, więc się zamknę (i obliczyć).
ameba
12
„Bayesianie odpowiadają na pytanie, na którym wszyscy są zainteresowani, używając założeń, w które nikt nie wierzy, podczas gdy osoby często korzystające z nienagannej logiki radzą sobie z problemem, który nikogo nie interesuje” - Louis Lyons
Ruggero Turra
4
@ jsakaluk, zwróć uwagę, że twierdze Bayesian to obszary, w których nie ma wystarczającej ilości danych lub gdy procesy są niestabilne, tj. nauki społeczne, nauki psudo, nauki przyrodnicze itp. Nie ma potrzeby być Bayesianem w mechanice kwantowej lub w większości fizyki. To prawda, że ​​możesz być tam również Bayesianem, to tylko twoje wnioski nie będą się różnić od częstych
Aksakal

Odpowiedzi:

54

Oto pięć powodów, dla których preferowane mogą być metody częste:

  • Szybciej. Biorąc pod uwagę, że statystyki bayesowskie często udzielają prawie identycznych odpowiedzi na odpowiedzi częstokroć (a jeśli nie, to nie jest w 100% jasne, że Bayesian jest zawsze właściwą drogą), fakt, że statystyki częstokrzyskie można uzyskać często o kilka rzędów wielkości szybciej silny argument. Podobnie częste metody nie wymagają tyle pamięci do przechowywania wyników. Chociaż te rzeczy mogą wydawać się nieco trywialne, szczególnie w przypadku mniejszych zestawów danych, fakt, że Bayesian i Frequentist zwykle zgadzają się w wynikach (szczególnie jeśli masz dużo danych informacyjnych) oznacza, że ​​jeśli masz zamiar się przejmować, możesz zacząć dbać o mniej ważne rzeczy I oczywiście, jeśli żyjesz w świecie dużych zbiorów danych, wcale nie są one trywialne.

  • Statystyka nieparametryczna. Zdaję sobie sprawę, że statystyki bayesowskie mają statystyki nieparametryczne, ale argumentowałbym, że strona częstokrzyska ma pewne naprawdę niezaprzeczalnie praktyczne narzędzia, takie jak funkcja rozkładu empirycznego. Żadna metoda na świecie nigdy nie zastąpi EDF, ani krzywych Kaplana Meiera itp. (Chociaż oczywiście nie oznacza to, że metody te są końcem analizy).

  • Mniej diagnostyki. Metody MCMC, najczęstsza metoda dopasowania modeli bayesowskich, zazwyczaj wymagają więcej pracy przez użytkownika niż ich częsty odpowiednik. Zwykle diagnostyka oszacowania MLE jest tak prosta, że ​​każda dobra implementacja algorytmu zrobi to automatycznie (chociaż nie oznacza to, że każda dostępna implementacja jest dobra ...). Jako taka, częstokroć diagnostyka algorytmiczna zazwyczaj „upewnia się, że nie ma czerwonego tekstu podczas dopasowywania modelu”. Biorąc pod uwagę, że wszyscy statystycy mają ograniczoną przepustowość, zwalnia to więcej czasu na zadawanie pytań typu „czy moje dane są w przybliżeniu normalne?” lub „czy te zagrożenia są naprawdę proporcjonalne?” itp.

  • Prawidłowe wnioskowanie na podstawie błędnej specyfikacji modelu. Wszyscy słyszeliśmy, że „Wszystkie modele są złe, ale niektóre są przydatne”, ale różne obszary badań traktują to mniej więcej poważnie. Literatura Frequentist jest pełna metod ustalania wnioskowania, gdy model jest błędnie określony: estymator ładowania początkowego, walidacja krzyżowa, estymator wielowarstwowy (link omawia również ogólne wnioskowanie MLE w przypadku błędnej specyfikacji modelu), uogólnione równania estymacyjne (GEE), metody quasi-wiarygodności, itd. O ile mi wiadomo, w literaturze bayesowskiej jest bardzo mało informacji na temat wnioskowania na podstawie błędnej specyfikacji modelu (chociaż wiele dyskusji na temat sprawdzania modelu, tj. późniejszych kontroli predykcyjnych). Nie sądzę, że to przypadek: ocena zachowania estymatora w przypadku powtarzanych prób nie wymaga, aby estymator opierał się na „prawdziwym” modelu, ale używa twierdzenia Bayesa!

  • Wolność od uprzedniej (jest to prawdopodobnie najczęstszy powód, dla którego ludzie nie używają metod bayesowskich do wszystkiego). Siła bayesowskiego punktu widzenia jest często reklamowana jako wykorzystanie priorów. Jednak we wszystkich zastosowanych obszarach, w których pracowałem, pomysł informacyjny wcześniej w analizie nie jest brany pod uwagę. Czytanie literatury na temat pozyskiwania aury od ekspertów niebędących ekspertami statystycznymi jest tego dobrym uzasadnieniem; Czytałem artykuły, które mówią takie rzeczy (okrutny słomianin jak parafrazowanie własnego) „Zapytaj badacza, który cię zatrudnił, ponieważ mają problemy ze zrozumieniem statystyk, aby dał zakres, w którym są w 90% pewni, że rozmiar efektu, z którym trudno sobie wyobrazić, będzie być w tym zakresie. Zazwyczaj zakres ten jest zbyt wąski, więc arbitralnie postaraj się, aby nieco go poszerzył. Zapytaj ich, czy ich wiara wygląda jak rozkład gamma. Prawdopodobnie będziesz musiał narysować dla nich rozkład gamma i pokazać, jak może mieć ciężkie ogony, jeśli parametr kształtu jest mały. Będzie to również wymagało wyjaśnienia, czym jest dla nich plik PDF. ”(Uwaga: nie sądzę, aby nawet statystycy byli w stanie dokładnie powiedzieća priori, czy są one w 90%, czy w 95% pewne, czy wielkość efektu mieści się w zakresie, a ta różnica może mieć znaczący wpływ na analizę!). Prawdę mówiąc, jestem dość nieuprzejmy i mogą zdarzyć się sytuacje, w których uzyskanie przeora może być nieco prostsze. Ale możesz zobaczyć, jak to jest puszka robaków. Nawet jeśli przejdziesz na nieinformacyjne priory, nadal może to stanowić problem; podczas przekształcania parametrów to, co łatwo pomylić z nieinformacyjnymi aurorzy, nagle można uznać za bardzo pouczające! Innym przykładem tego jest to, że rozmawiałem z kilkoma badaczami, którzy zdecydowanie tego nie robiąchcę usłyszeć, jaka jest interpretacja danych innego eksperta, ponieważ empirycznie inni eksperci są zbyt pewni siebie. Wolą po prostu wiedzieć, co można wywnioskować z danych drugiego eksperta, a następnie dojść do własnych wniosków. Nie pamiętam, gdzie to usłyszałem, ale gdzieś przeczytałem wyrażenie „jeśli jesteś Bayesianinem, chcesz, aby wszyscy byli częstymi”. Rozumiem, że to znaczy, że teoretycznie, jeśli jesteś Bayesianinem i ktoś opisuje wyniki ich analizy, powinieneś najpierw spróbować usunąć wpływ ich wcześniejszych, a następnie dowiedzieć się, jaki byłby wpływ, gdybyś użył własnego. To małe ćwiczenie byłoby uproszczone, gdyby dali ci przedział ufności niż wiarygodny!

Oczywiście, jeśli zrezygnujesz z pouczających priorów, nadal będzie przydatna w analizach bayesowskich. Osobiście to, gdzie moim zdaniem leży ich najwyższa użyteczność; istnieją pewne problemy, z których bardzo trudno uzyskać odpowiedź przy użyciu metod MLE, ale można je dość łatwo rozwiązać za pomocą MCMC. Ale mój pogląd na to, że jest to najwyższa użyteczność Bayesian, wynika z moich mocnych priorytetów, więc weź to z odrobiną soli.

Cliff AB
źródło
1
(+1) Dobra odpowiedź, ale zakładam, że miałeś na myśli, że nie potrzebujesz tyle pamięci do przechowywania wyników?
jsakaluk
1
Jeśli chodzi o wolność od priorów: czy mówisz, że im mniej musisz myśleć i rozumieć swój problem, tym lepiej? Znam kilku dostawców oprogramowania, którzy chcieliby z tobą porozmawiać, więc możesz wskazać i kliknąć - lub jeszcze lepiej, jednym kliknięciem - i uzyskać odpowiedź na każdy problem, jaki możesz sobie wyobrazić! Cholera, nawet nie potrzebujesz problemu, po prostu podaj swoje dane na ich stronę internetową, a oni znajdą wszystkie możliwe problemy i je rozwiążą, toot sweet! (Przepraszam, nie mogłem się oprzeć odpowiedzi okrutnym komentarzem podobnym do człowieka ze słomy.)
Wayne
1
@Wayne: Wiem, że żartujesz, ale to w 100% poprawne. Statystyki to narzędzie do rozwiązywania rzeczywistych problemów. Naprawdę chcę podkreślić, że jest to narzędzie, a nie produkt końcowy. Niezależnie od tego, po której stronie przemyślanego argumentu „Frequentist vs. Bayesian” (siedzę po „którejkolwiek z nich daje mi najlepszą odpowiedź na moje pytanie”, co oznacza, że ​​lubię obie z różnych problemów), nie ma wątpliwości, że łatwość użycia jest bardzo realne narzędzie do każdego narzędzia.
Cliff AB
Oczywiście, jeśli twoje narzędzie często wytwarza okropny produkt, jest to problem. I gdybym był przekonany, że robi to metoda częstokroć, ale nie była to metoda bayesowska, szybko poparłbym metodę bayesowską.
Cliff AB
1
@CliffAB: Łatwość użycia jest ważna, a jak mówisz, jeśli wyniki są równej jakości, dlaczego wybrać trudniejsze w użyciu? Jednocześnie myślenie o priorytetach, sprecyzowanie ich i zrozumienie (nie bayesowskie, mam na myśli dosłownie priorytety, które ma każdy naukowiec, każda dziedzina i każde badanie) jest kluczowe dla dobrej nauki. Statystyka bayesowska jest wyraźna i zmusza do myślenia i zrozumienia niektórych z tych problemów. W zakresie, w jakim nie jest to jedynie pedantyczna niedogodność, jest ona prawdopodobnie dobra, a więc jej przeciwieństwo również nie jest dobre.
Wayne
23

Kilka konkretnych zalet statystyk częstych:

  • Często istnieją rozwiązania w formie zamkniętej dla częstych problemów, podczas gdy potrzebujesz koniugatu, aby mieć rozwiązanie w formie zamkniętej w analogii bayesowskiej. Jest to przydatne z wielu powodów - jednym z nich jest czas obliczeń.
  • Powód, który, miejmy nadzieję, w końcu zniknie: laików uczy się statystyki częstych. Jeśli chcesz być zrozumiany przez wielu, musisz mówić często.
  • Metoda „niewinnego aż do udowodnienia winy” - testowanie istotności hipotezy zerowej (NHST) jest przydatna, gdy celem jest udowodnienie komuś, że się myli (zakładam, że masz rację i pokażę przytłaczające dane, które sugerują, że się mylisz). Tak, w języku bayesowskim istnieją analogi NHST, ale uważam, że wersje dla częstych są znacznie prostsze i zrozumiałe.
  • Nie ma czegoś takiego jak naprawdę nieinformacyjny przeor, który sprawia, że ​​niektórzy ludzie czują się niekomfortowo.
TrynnaDoStat
źródło
1
(+1) Dzięki - czy mógłbyś trochę wyjaśnić pierwszy punkt? Jako ktoś, kto nie zna się dobrze na Bayesian, to, co mówisz o potrzebie „sprzężenia przeora” (?), Jest dla mnie nieco
stracone
5
Nie sądzę, że poprawnie interpretujesz test hipotezy częstokroć. Właśnie dałeś , ale wartość p to tak naprawdę . Prawidłowa interpretacja wartości p: biorąc pod uwagę wartość zerową, istnieje tylko % szansa na uzyskanie wyniku tak ekstremalnego lub bardziej ekstremalnego niż obserwowany. Ta błędna interpretacja jest często podnoszona, gdy argumentuje się za podejściem bayesowskim. Poza tym podoba mi się twoja odpowiedź. P ( D a t aP(H0|Data)αP(Data|H0)α
Zachary Blumenfeld
@ZacharyBlumenfeld Dzięki za zwrócenie uwagi, miałem na myśli Bayesian. Naprawię to teraz.
TrynnaDoStat
1
@ jsakaluk Jeśli tylny i przedni mają taki sam rozkład, to znaczy, że przeor jest sprzężony - co gwarantuje zamkniętą formę tylną. Na przykład, jeśli nasze dane to Bernoulli i wcześniej wybraliśmy Beta ( , ), to wiemy, że tylnym jest Beta ( , )) bez konieczności przeprowadzania jakiejkolwiek symulacji, próbkowania lub intensywnych obliczeń. β α + n i = 1 x i β + n - n i = 1 x iαβα+i=1nxiβ+ni=1nxi
TrynnaDoStat
16

Najważniejszym powodem korzystania z metod częstych, o których zaskakująco nie wspomniano, jest kontrola błędów. Bardzo często badania prowadzą do dychotomicznych interpretacji (czy powinienem zrobić badanie oparte na tym, czy nie? Powinienem wdrożyć interwencję, czy nie?). Podejścia częstych pozwalają ci ściśle kontrolować poziom błędu Typu 1. Podejścia bayesowskie nie (chociaż niektóre dziedziczą uniwersalną granicę od podejrzeń prawdopodobieństwa, ale nawet wtedy wskaźniki błędów mogą być dość wysokie w małych próbkach i przy stosunkowo niskich progach dowodów (np. BF> 3). Czynniki Bayesa (patrz na przykład http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2604513), ale wciąż jest to podejście częste. Myślę, że bardzo często badaczom bardziej zależy na kontroli błędów niż na kwantyfikowaniu dowodów per se (w odniesieniu do pewnej konkretnej hipotezy), i myślę, że przynajmniej wszyscy dbają o kontrolę błędów do pewnego stopnia, dlatego należy zastosować oba podejścia uzupełniająco.

Daniel Lakens
źródło
Słuszna uwaga. Myślę też o metodach grupowania sekwencyjnego i innych formach wielokrotnego testowania, w których wydaje się (z mojego wąskiego punktu widzenia, który mógł przeoczyć znaczną część literatury) brak zainteresowania ze strony bayesowskiej (więc daleko) pod względem uzyskania pewnego rodzaju kontroli błędów. Oczywiście w wielu okolicznościach metody bayesowskie - szczególnie z nieco sceptycznymi priorytetami lub z pewnym skurczeniem się w modelu hierarchicznym, kontrolują błędy w pewnym stopniu nie do kwantyfikacji, ale o wiele częściej zastanawiano się po stronie częstych.
Björn
3
(+1) Naprawdę podoba mi się ten punkt ... ponieważ z tego powodu jestem filozoficznie częstym ... kiedy robimy statystyki, aby pomóc w wnioskowaniu, wtedy chcemy, aby nasze wnioski były dokładniejsze (tj. Mniej błędów) niż ślepe zgadywanie. W rzeczywistości, jeśli w ogóle zależy mi na tym, aby moje wnioski były prawdziwe lub fałszywe (w sensie potwierdzenia przez dalsze badania), wówczas poziomy błędu są bardzo ważne. Po prostu nie czuję się komfortowo z prawdopodobieństwem Bayesa (jednak same metody są bardzo przydatne jako sensowne „regularne estymatory” dla pewnej ilości, gdy wielkość próby jest niewielka ... pomyśl Agresit-Coull)
To brzmi bardziej jak teoria decyzji niż porównanie bayesa / częstych. Ponadto dzięki podejściu bayesowskiemu nie musisz martwić się o zatrzymanie zasad .... Rozumiem również, że bayes może osiągnąć lepszą „równowagę” między wskaźnikami błędów typu 1 i typu 2…
prawdopodobieństwo
8

Myślę, że jednym z największych pytań, jako statystyczny, który musisz sobie zadać, jest to, czy wierzysz lub nie chcesz przestrzegać zasady prawdopodobieństwa. Jeśli nie wierzysz w zasadę prawdopodobieństwa, to myślę, że częsty paradygmat statystyki może być niezwykle potężny, jednak jeśli wierzysz w zasadę prawdopodobieństwa, to (jak sądzę) z pewnością musisz popierać paradygmat bayesowski w nie naruszać tego.


Jeśli nie jesteś zaznajomiony z tym, zasada prawdopodobieństwa mówi nam:

θx

(θ;x)=p(x|θ)
x

xy(θ;x)(θ;y)C(x,y)

(θ;x)=C(x,y)(θ;y)for all θ,

xy

C(x,y)(x,y)C(x,y)θ

C(x,y)=1θθ


Jednym z rysunków statystyki bayesowskiej jest to, że zgodnie z właściwymi priory paradygmat bayesowski nigdy nie narusza zasady prawdopodobieństwa. Istnieją jednak bardzo proste scenariusze, w których częsty paradygmat naruszy zasadę prawdopodobieństwa.

Oto bardzo prosty przykład oparty na testowaniu hipotez. Rozważ następujące:

Rozważ eksperyment, w którym przeprowadzono 12 prób Bernoulliego i zaobserwowano 3 sukcesy. W zależności od reguły zatrzymywania dane można scharakteryzować następująco:

  • X|θBin(n=12,θ)x=3
  • Y|θNegBin(k=3,θ)y=12

I tak uzyskalibyśmy następujące funkcje prawdopodobieństwa: co oznacza, że a zatem zgodnie z zasadą prawdopodobieństwa powinniśmy uzyskać takie same wnioski na temat z obu prawdopodobieństw.

1(θ;x=3)=(123)θ3(1θ)92(θ;y=12)=(112)θ3(1θ)9
1(θ;x)=C(x,y)2(θ,y)
θ

Teraz wyobraź sobie testowanie następujących hipotez z paradygmatu częstych

Ho:θ12versusHa:θ<12

Dla modelu dwumianowego mamy:

p-value=P(X3|θ=12)=(120)(12)12+(121)(12)12+(122)(12)12+(123)(12)12=0.0723

Zauważ, że ale pozostałe warunki nie spełniają zasady prawdopodobieństwa.(123)(12)12=1(12;x=3)

W przypadku ujemnego modelu dwumianowego mamy:

p-value=P(Y12|θ12)=(112)(12)12+(122)(12)12+(132)(12)12+...=0.0375

Z powyższych obliczeń wartości p widzimy, że w modelu dwumianowym nie odrzucilibyśmy ale używając ujemnego modelu dwumianowego odrzucilibyśmy . Tak więc, mimo że istnieją wartości p i decyzje oparte na tych wartościach p, nie pokrywają się. Ten argument wartości p jest często używany przez Bayesianów przeciwko częstym wartościom p.HoHo1(θ;x)2(θ;y)

Teraz rozważ ponownie przetestowanie następujących hipotez, ale z bayesowskiego paradygmatu

Ho:θ12versusHa:θ<12

Dla modelu dwumianowego mamy:

P(θ12|x)=1/21π(θ|x)dx=1/21θ3(1θ)9π(θ)dθ/01θ3(1θ)9π(θ)dθ

Podobnie w przypadku ujemnego modelu dwumianowego mamy:

P(θ12|y)=1/21π(θ|x)dx=1/21θ3(1θ)9π(θ)dθ/01θ3(1θ)9π(θ)dθ

Korzystając teraz z bayesowskich reguł decyzyjnych, wybierz jeśli (lub jakiś inny próg) i powtórz podobnie dla .Ho rP(θ12|x)>12y

Jednak i doszliśmy do ten sam wniosek, a zatem to podejście spełnia zasadę prawdopodobieństwa.P(θ12|x)=P(θ12|y)


Podsumowując moje wędrówki, jeśli nie obchodzi cię zasada prawdopodobieństwa, bycie częstym jest świetne! (Jeśli nie możesz powiedzieć, jestem Bayesianinem :))

RustyStatistician
źródło
1
Doceniam wyraźnie przemyślaną (i prawdopodobnie czasochłonną) odpowiedź, ale wydaje mi się, że ta odpowiedź jest nieco odbiegająca od „odpowiedzi… przekazanych tak łatwo, jak to możliwe ...” pytania.
jsakaluk
1
@ jsakaluk Wydaje mi się, że do czego dążyłem, i chciałem mieć pewność, że poprę argument, jest to, że jeśli jesteś skłonny przeoczyć pewne rzeczy, które wielu stosowanych statystyk przez cały czas przyjmuje za pewnik, tj. zasadę prawdopodobieństwa, to używając paradygmat częstych może być znacznie prostszą alternatywą dla paradygmatu bayesowskiego. Jeśli jednak nie możesz, najprawdopodobniej będziesz musiał znaleźć alternatywy.
RustyStatistician
4
@RustyStatistician Zasada wiarygodności jest podstawową zasadą dla wierzących. Likelihoodists Bayesa nie są w ogóle . W odpowiedzi umieściłem linki. Twoje twierdzenie „jeśli wierzysz w zasadę prawdopodobieństwa, to (jak sądzę) z pewnością musisz popierać paradygmat bayesowski” jest fałszywe.
stan
@Stan Zgadzam się z tobą, że tak, prawdopodobieństwo, że wiarygodni wierzą w zasadę prawdopodobieństwa, jest pewne. Ale bardzo trudno byłoby mi uwierzyć, że jeśli zapytasz któregoś z Bayesian, czy wierzą oni w przestrzeganie zasady prawdopodobieństwa, że ​​powiedzieliby „nie”, nie wierzą (to tylko moja opinia, że ​​nie musisz się zgodzić).
RustyStatistician
2
Role wnioskowania (LP), zasady warunkowości (CP) i zasady wystarczalności (SP) wnioskowania nie są proste. Dzieje się tak, ponieważ zasady te odnoszą się do dowodów (przedstawionych przez dane), podczas gdy wnioskowanie wymaga wykraczania poza dowody . Jest to zawsze ryzykowne, ale konieczne do osiągnięcia postępu. Zobacz Birnbaums Twierdzenie (omówione tutaj ... I niekoniecznie zgadzają się z resztą papieru): arxiv.org/abs/1302.5468
6

Oboje jesteśmy naukowcami i jako naukowcy interesujemy się głównie kwestiami dowodowymi. Z tego powodu uważam, że preferowane są podejścia bayesowskie, jeśli są wykonalne.

Podejścia bayesowskie odpowiadają na nasze pytanie: Jaka jest siła dowodów dla jednej hipotezy nad drugą? Z drugiej strony podejścia częstokroć nie zgłaszają: zgłaszają tylko to, czy dane są dziwne, biorąc pod uwagę jedną hipotezę.

To powiedziawszy, Andrew Gelman, znany Bayesian, wydaje się popierać stosowanie wartości p (lub kontroli graficznych podobnych do wartości p) jako kontroli błędów w specyfikacji modelu. Aluzję do tego podejścia można zobaczyć w tym poście na blogu .

Jego podejście, jak rozumiem, jest czymś w rodzaju dwuetapowego procesu: po pierwsze, zadaje on pytanie bayesowskie o to, co jest dowodem na jeden model nad drugim. Po drugie, zadaje on częstemu pytaniu pytanie, czy preferowany model rzeczywiście wygląda na wiarygodny, biorąc pod uwagę dane. Wydaje mi się to rozsądnym podejściem hybrydowym.

CoolBuffScienceDude
źródło
1
Chociaż link do bloga Gelman powinien pozostać aktualny, nie będzie „dzisiejszy” po północy. Odpowiednio zredagowane.
Nick Cox
8
Zdecydowanie nie zgadzam się z twierdzeniem, że częste podejścia nie mierzą dowodów, i że dzieje się tak wyłącznie w świecie bayesowskim. Pomijasz genezę testowania hipotez, takich jak test LR, mierzy dowody jednej hipotezy względem dowodów dla drugiej.
Cliff AB
1
(+1) do @CliffAB - dla wszystkich, którzy myślą o „częstych” statystykach, proszę spójrz na „iloraz wiarygodności”, „twierdzenie Birnbauma”, a być może przeczytaj trochę Royalla ... nie przeskakuj argumenty człowieka dotyczące NHST - które, nawiasem mówiąc, nie wydawały się tłumić postępu naukowego pomimo jego rzekomo katastrofalnych wad ... to dlatego, że statystycy nie są programami MINITAB opartymi na węglu ... MYŚLĄ [tak, robienie statystyk jest właściwie zawód, tak jak medycyna, ekonomia czy mechanika samochodowa ... nie możesz po prostu przeczytać książki, wypróbować formułę i oczekiwać, że prawda wyląduje ci na kolanach].
2
@Bey: Osobiście uważam, że wartości p nieco osłabiły proces naukowy (w tym, że biolodzy są zmuszeni do zostania statystykami w niepełnym wymiarze czasu, aby publikować artykuły, skracając czas, jaki stają się biologami), ale ja nie nie myśl, że alternatywy dla wartości p w żaden sposób zmniejszają ten problem! Wydaje mi się, że kwestią wartości p nie jest ich teoretyczne tło, ale łatwość użycia przez osoby niepaństwowe. Prawdopodobieństwa a posteriori (na przykład) Myślę, że pogorszy ten konkretny problem, a nie będzie lepszy.
Cliff AB
2
@CliffAB nie mógł zgodzić się więcej ... nie myślałem o tym z tej strony ... ale taka jest natura publikacji, jak sądzę ... chyba że działy badawcze mogą sobie pozwolić na posiadanie statystyk pracowników. Każde narzędzie statystyczne mogą być nadużywane przez nie wiedzę w jego wykorzystania ... szkoda narzędzia statystyczne wydają się tak łatwe w obsłudze ...
6

Osobiście mam trudności z myśleniem o sytuacji, w której częste odpowiedzi byłyby lepsze niż odpowiedzi bayesowskie. Moje myślenie zostało szczegółowo opisane tutaj oraz w innych artykułach na blogu na stronie fharrell.com o problemach z wartościami p i testowaniem hipotez zerowych. Częstokroć ignorują kilka podstawowych problemów. Oto tylko przykład:

  • Poza Gaussowskim modelem liniowym o stałej wariancji i kilkoma innymi przypadkami obliczane wartości p mają nieznaną dokładność dla zestawu danych i modelu
  • Gdy eksperyment jest sekwencyjny lub adaptacyjny, często zdarza się, że nie można nawet obliczyć wartości p, a można osiągnąć jedynie ogólny poziomα
  • Częstokroć wydaje się szczęśliwy, że nie dopuszcza, aby błąd typu I spadł poniżej, powiedzmy, 0,05 bez względu na to, że teraz rośnie wielkość próbki
  • Nie ma częstych zaleceń dotyczących tego, jak tworzone są korekty mnogości, co prowadzi do tworzenia metod ad hoc

Jeśli chodzi o pierwszy punkt, jednym z najczęściej używanych modeli jest binarny model logistyczny. Jego prawdopodobieństwo dziennika jest bardzo niekwadratowe, a zdecydowana większość granic ufności i wartości p obliczonych dla takich modeli nie jest bardzo dokładna. Porównaj to z bayesowskim modelem logistycznym, który zapewnia dokładne wnioskowanie.

Inni wspominali o kontroli błędów jako przyczynie stosowania wnioskowania częstych. Nie sądzę, aby było to logiczne, ponieważ błąd, do którego się odnoszą, to błąd długoterminowy, przewidujący proces, w którym przeprowadzane są tysiące testów statystycznych. Sędzia, który stwierdził, że „prawdopodobieństwo fałszywego skazania w długim okresie w mojej sali sądowej wynosi zaledwie 0,03”, powinno zostać zniesione. Jest ona oskarżona o najwyższe prawdopodobieństwo podjęcia właściwej decyzji dla obecnego oskarżonego . Z drugiej strony jeden minus prawdopodobieństwo tylnego efektu to prawdopodobieństwo zerowego lub wstecznego efektu i prawdopodobieństwo błędu, którego faktycznie potrzebujemy.

Frank Harrell
źródło
2
„Nie ma częstych zaleceń dotyczących tego, jak tworzone są korekty mnogości, co prowadzi do tworzenia metod ad hoc”. Z drugiej strony, nigdy nie widziałem, żeby Bayesian w ogóle dokonywał korekt wielokrotności. Andrew Gelman nawet z dumą deklaruje, że nigdy ich nie używa. Na przykład widziałem ludzi zgłaszających marginalne 95% wiarygodne przedziały dla , ale łączna wiarygodność tych przedziałów nie wynosi 95%. Nie jest też oczywiste, jak najlepiej rozwiązać ten problem. Czy masz jakieś porady lub przykłady? kθ1,,θkk
civilstat
5

Wiele osób nie zdaje sobie sprawy z trzeciej szkoły filozoficznej: prawdopodobieństwa. Książka AWF Edwards, Prawdopodobieństwo, jest prawdopodobnie najlepszym miejscem do przeczytania o niej. Oto krótki artykuł, który napisał.
Prawdopodobieństwo unika wartości p, takich jak bayesianizm, ale także unika często wątpliwego przeora Bayesian. Jest to leczenie wstęp tutaj również.

stan
źródło
5
Istnieje algorytmiczne podejście prawdopodobieństwa Vovka, opracowane na podstawie pomysłów Kołmogorowa.
Aksakal
2
„Wiele osób nie zdaje sobie sprawy z trzeciej szkoły filozoficznej: prawdopodobieństwa” Nie sądzę, aby to zdanie było prawdziwe w 2016 r.
Tim
4
@ Tim, chociaż wszyscy, których znam, znają częstotliwość i bayesianizm, nigdy nie spotkałem nikogo, kto słyszałby o prawdopodobieństwie. Pierwotny pytający wydaje się być jak moi koledzy, którzy zostali przeszkoleni w częstości i coraz bardziej interesują się bayesianizmem. Być może większość ludzi, którzy czytają moją odpowiedź powyżej, myślą, że mam na myśli oszacowanie maksymalnego prawdopodobieństwa lub testowanie hipotez przy użyciu współczynników prawdopodobieństwa. Nie! Sugeruję Yudi Pawitan i ten wykład
stan
7
Żadne z tych podejść nie jest religią, więc nie ma wiele do uwierzenia, są po prostu pomocne w przypadku niektórych rodzajów problemów, a niektóre z nich lepiej nadają się do niektórych problemów, a inne do innych :)
Tim
1
(+1) za wzmiankę o szkole prawdopodobieństwa i komentarz dotyczący Pawitana. Książka Pawitana „In All Likelihood” dramatycznie się poszerzyła i wzmocniła dzięki praktyce statystycznej ... Miałem również świadomość Bayesa vs. Zajmuje się wieloma filozoficznymi i metodologicznymi aspektami Bayesa, „klasycznym” częstym występowaniem i, oczywiście, obejmuje szkołę czystego prawdopodobieństwa. Po prostu świetna książka, aby stać się bardziej wyrafinowanym użytkownikiem statystyk ... niezależnie od twoich filozoficznych skłonności.
4

Jedną z największych wad częstych podejść do budowania modeli zawsze było, jak zauważa TrynnaDoStats w swoim pierwszym punkcie, wyzwania związane z odwracaniem dużych rozwiązań w formie zamkniętej. Inwersja macierzy w postaci zamkniętej wymaga, aby cała matryca była rezydentna w pamięci RAM, co stanowi znaczne ograniczenie na platformach jednoprocesorowych z dużymi ilościami danych lub cechami masowo kategorycznymi. Metody bayesowskie były w stanie obejść to wyzwanie, symulując losowe losowania z określonego wcześniej. Zawsze był to jeden z największych punktów sprzedaży rozwiązań bayesowskich, chociaż odpowiedzi są uzyskiwane jedynie przy znacznych kosztach procesora.

Andrew Ainslie i Ken Train, w artykule z około 10 lat temu, do którego straciłem odniesienie, porównałem skończoną mieszankę (która jest częstą lub zamkniętą formą) z Bayesowskim podejściem do budowania modeli i znalazłem to w szerokim zakresie form funkcjonalnych oraz wskaźniki wydajności, obie metody dały zasadniczo równoważne wyniki. Rozwiązania bayesowskie miały przewagę lub posiadały większą elastyczność w tych przypadkach, w których informacje były zarówno rzadkie, jak i bardzo duże.

Jednak ten dokument został napisany przed opracowaniem algorytmów „dziel i rządź”, które wykorzystują masowo równoległe platformy, np. Zobacz artykuł Chen i Minge'a, aby uzyskać więcej informacji na temat tego http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012- 01.pdf

Pojawienie się podejść D&C oznaczało, że nawet w przypadku najbardziej włochatych, rzadkich, najbardziej wymiarowych problemów podejścia bayesowskie nie mają już przewagi nad metodami częstymi. Dwie metody są na równi.

Ten stosunkowo niedawny rozwój wart jest odnotowania w każdej debacie na temat praktycznych zalet lub ograniczeń każdej z metod.

Mike Hunter
źródło
Myślę, że jest to miły dodatek do dyskusji (+1), ale trudno mi się naśladować. Naprawdę, naprawdę, naprawdę odkłada linię czasu ... Może mógłbyś to trochę przeorganizować? :)
usεr11852
@ user11852 Nie twierdzisz, że post nie komunikuje czegoś użytecznego, podczas gdy rozwój logiki nie spełnia standardów dziennikarskich. Ponieważ ten wątek stał się „społecznością”, nie jestem zbyt skłonny (zmotywowany?) Do pracy nad reorganizacją wokół Twojej sugestii. Może stać tak, jak jest. Ale i tak dziękuję za opinię i komentarz.
Mike Hunter,
1.) Inwersja macierzy jest często używana do oszacowania MLE (która jest tylko jedną z wielu metod częstych), ale nie zawsze. Moja praca w estymacji MLE obejmuje optymalizację często do parametrów (tj. Przestrzeń parametrów może rosnąć liniowo wraz z rozmiarem próbki), a odwrócenie macierzy absolutnie nie jest opcją ... ale nadal optymalizuję prawdopodobieństwo! 2.) Inwersja macierzy ciągle występuje w statystykach bayesowskich, takich jak sampler aktualizujący blok. n
Cliff AB
@CliffAB Myślałem o odwróceniu matrycy produktów krzyżowych typu ANOVA.
Mike Hunter
@DJohnson: Rozumiem. Chodzi mi jednak o to, że odwrócenie macierzy jest ortogonalne w stosunku do metod częstych kontra metody bayesowskie; oba obozy używają narzędzi, które robią coś bardzo podobnego (przynajmniej pod względem kosztów obliczeniowych) w wielu swoich metodach.
Cliff AB
3

Częste testy koncentrują się na fałszowaniu hipotezy zerowej. Jednak testowanie istotności hipotezy zerowej (NHST) można również wykonać z perspektywy bayesowskiej, ponieważ we wszystkich przypadkach NHST jest po prostu obliczeniem P (efekt obserwowany | efekt = 0). Trudno jest więc określić czas, w którym konieczne byłoby przeprowadzenie NHST z częstej perspektywy.

Biorąc to pod uwagę, najlepszym argumentem za przeprowadzeniem NHST przy użyciu częstego podejścia jest łatwość i dostępność. Ludzie uczą się statystyki częstokroć. Tak więc łatwiej jest prowadzić częsty NHST, ponieważ istnieje wiele innych pakietów statystycznych, które ułatwiają to zrobić. Podobnie łatwiej jest przekazać wyniki częstego NHST, ponieważ ludzie znają tę formę NHST. Widzę więc, że jest to najlepszy argument za podejściem częstych: dostępność do programów statystycznych, które je uruchomią, i łatwość przekazywania wyników kolegom. Jest to jednak tylko kwestia kulturowa, więc ten argument może się zmienić, jeśli osoby często podejmujące decyzje straciły hegemonię.

Liz Page-Gould
źródło
5
Komentarze na temat tego, co według Fishera wydają się tutaj przytłaczające, chyba że możesz podać dokładne cytaty. Hipoteza zerowa jest urządzeniem stanowiącym część testu istotności, mającym na celu zniechęcenie naukowców do nadmiernej interpretacji wyników z małych próbek. Fisher był tak samo chętny jak wszyscy inni, że naukowcy powinni wykorzystywać statystyki do robienia dobrej nauki; sam był bardzo poważnym współtwórcą genetyki.
Nick Cox
4
Zgadzam się całkowicie, więc zredagowałem odpowiedź, aby usunąć spekulacje na temat stanu psychicznego Fishera.
Liz Page-Gould
3

Kilka komentarzy:

  • Fundamentalna różnica między statystyki bayesowskiej i częstokrzyskiej polega na tym, że bayesian chętnie rozszerza narzędzia prawdopodobieństwa na sytuacje, w których nie byłby częsty.

    • Mówiąc dokładniej, bayesian chce wykorzystać prawdopodobieństwo do modelowania niepewności we własnym umyśle w odniesieniu do różnych parametrów. Dla częstego użytkownika tymi parametrami są skalary (aczkolwiek skalary, w których statystyk nie zna prawdziwej wartości). Dla Bayesian różne parametry są reprezentowane jako zmienne losowe! To jest zupełnie inne. Niepewność Bayesian względem valeus parametrów reprezentuje przeor .
  • W statystyce bayesowskiej istnieje nadzieja, że ​​po obserwacji danych a posterior przytłacza przeora, że ​​przeor nie ma znaczenia. Ale często tak nie jest: wyniki mogą być wrażliwe na wybór wcześniejszego! Różni Bayesianie z różnymi priorytetami nie muszą zgadzać się co do przyszłości.

Kluczową kwestią, o której należy pamiętać, jest to, że oświadczenia częstych statystyk są stwierdzeniami, na które zgadzają się dwaj Bayesianie, niezależnie od ich wcześniejszych przekonań!

Częstotliwość nie komentuje przeorów ani osób postronnych, a jedynie prawdopodobieństwo.

Wypowiedzi częstych statystyk w pewnym sensie są mniej ambitne, ale odważniejsze wypowiedzi Bayesian mogą znacznie polegać na przypisaniu przeorowi. W sytuacjach, w których ważne są priorytety i gdy nie ma zgody co do priorytetów, bardziej ograniczone, warunkowe oświadczenia częstych statystyk mogą stać na mocniejszym gruncie.

Matthew Gunn
źródło
2

Celem wielu badań nie jest dojście do ostatecznego wniosku, ale po prostu uzyskanie trochę więcej dowodów, aby stopniowo popychać wspólnotowe poczucie pytania w jednym kierunku .

Statystyki bayesowskie są niezbędne, gdy potrzebna jest ocena decyzji lub wniosku w świetle dostępnych dowodów. Kontrola jakości byłaby niemożliwa bez statystyk bayesowskich. Każda procedura, w której musisz pobrać pewne dane, a następnie wykonać na nich działania (robotyka, uczenie maszynowe, podejmowanie decyzji biznesowych) korzysta ze statystyk bayesowskich.

Ale wielu naukowców tego nie robi. Przeprowadzają eksperymenty, zbierają dane, a następnie mówią „Dane wskazują w ten sposób”, nie martwiąc się zbytnio o to, czy jest to najlepszy wniosek, biorąc pod uwagę wszystkie dowody zebrane do tej pory przez innych. Nauka może być procesem powolnym, a stwierdzenie typu „Prawdopodobieństwo, że ten model jest poprawny, wynosi 72%!” jest często przedwczesny lub niepotrzebny.

Jest to również właściwe w prosty sposób matematyczny, ponieważ statystyki często okazują się matematycznie takie same, jak etap aktualizacji statystyki bayesowskiej. Innymi słowy, podczas gdy statystyki bayesowskie to (wcześniejszy model, dowody) → nowy model, statystyki częstokroć są tylko dowodami i pozostawiają innym wypełnienie pozostałych dwóch części.

Owen
źródło
Chociaż większość tego postu jest interesująca, składa się z wielu niepotwierdzonych opinii. Proszę skonsultować się z naszym centrum pomocy, aby dowiedzieć się, jakiego rodzaju odpowiedzi można się spodziewać na tej stronie.
whuber
@ whuber Rozumiem. Dodałem jeden cytat, który pamiętam z góry głowy, ale reszta nie ma cytatów, więc jeśli wydaje się to zbyt mało wspierane, mogę je usunąć.
Owen,
5
Dziwię się, że wspomniałeś o kontroli jakości, ponieważ wydaje się, że jest to obszar, w którym częstokształtna interpretacja prawdopodobieństwa (częstość względna w wielu próbach) byłaby bardzo naturalna: biorąc pod uwagę, że fabryka działa poprawnie, jak prawdopodobne jest to, że zobaczymy tak wiele (lub więcej) zepsute widżety? Czy mogę zachęcić cię do rozwinięcia tego, co sprawia, że ​​statystyki bayesowskie są szczególnie przydatne do kontroli jakości?
Matt Krause,
@MattKrause Załóżmy, że naszym celem jest wysyłanie uszkodzonych widżetów w tempie <1%. Wiemy, że fabryka produkuje wadliwe widżety w tempie 10%, i mamy test, którego współczynniki błędów Typu I i Typu II to s i 1 / (sqrt (4 - 1 / s ^ 2)), gdzie s jest parametr ścisłości. Czego powinniśmy użyć dla surowości?
Owen,
2
Idea, że ​​statystyki często nie mogą łączyć informacji z kolejnych badań, wydaje się ignorować dziedzinę metaanaliz.
Cliff AB
2

Rzeczywiste wykonanie metody bayesowskiej jest bardziej techniczne niż częste. Przez „bardziej techniczny” rozumiem takie rzeczy jak: 1) wybór priorytetów, 2) programowanie modelu w BŁĘDACH / JAGS / STAN oraz 3) myślenie o próbkowaniu i zbieżności.

Oczywiście nr 1 nie jest z definicji opcjonalny, z definicji Bayesian. Mimo pewnych problemów i procedur mogą istnieć rozsądne wartości domyślne, w pewien sposób ukrywające problem przed użytkownikiem. (Chociaż może to również powodować problemy!)

To, czy problem stanowi nr 2, zależy od używanego oprogramowania. Statystyka bayesowska ma skłonność do bardziej ogólnych rozwiązań niż częste metody statystyczne, a narzędzia takie jak BŁĘDY, JAGS i STAN są tego naturalnym wyrazem. Istnieją jednak funkcje bayesowskie w różnych pakietach oprogramowania, które wydają się działać jak typowa procedura częstokroć, więc nie zawsze jest to problem. (I najnowsze rozwiązania, takie jak pakiety R rstanarmi brmswypełniają tę lukę.) Mimo to używanie tych narzędzi jest bardzo podobne do programowania w nowym języku.

Punkt 3 ma zwykle zastosowanie, ponieważ większość rzeczywistych aplikacji Bayesian będzie korzystać z próbkowania MCMC. (Z drugiej strony, częste procedury oparte na MLE wykorzystują optymalizację, która może zbiegać się do lokalnych minimów lub wcale nie zbiegać się, i zastanawiam się ilu użytkowników powinno to sprawdzać, a nie?)

Jak powiedziałem w komentarzu, nie jestem pewien, czy wolność od priors jest w rzeczywistości korzyścią naukową. Jest to z pewnością wygodne na kilka sposobów i na kilku etapach procesu publikacji, ale nie jestem pewien, czy rzeczywiście poprawia naukę. (I na szerokim obrazie wszyscy musimy być świadomi naszych priorytetów jako naukowców, w przeciwnym razie będziemy cierpieć na wszelkiego rodzaju uprzedzenia w naszych badaniach, niezależnie od stosowanych przez nas metod statystycznych).

Wayne
źródło
W odniesieniu do (3) wiele klasycznych modeli statystycznych (tj. Glm) ma wklęsłe prawdopodobieństwa logarytmiczne, więc bardzo rzadko zdarza się, że standardowe algorytmy zawodzą, poza ekstremalnymi przypadkami narożnymi. W odniesieniu do problemów wklęsłych (tj. NN), chociaż wymagają one poważnego zaniepokojenia niewłaściwą konwergencją (co zwykle rozumieją użytkownicy), są to (nieprzypadkowo) również problemy, w których klasyczne algorytmy MCMC zawiodłyby, gdyby działały tylko dla powiedzmy, życie jednego człowieka. Jednak na ogół naprawianie MCMC zajmuje mniej czasu niż algorytm optymalizacji!
Cliff AB
2

Koncepcyjnie : nie wiem. Uważam, że statystyki bayesowskie są najbardziej logicznym sposobem myślenia, ale nie mogę uzasadnić, dlaczego.

Zaletą osoby często odwiedzającej jest to, że jest łatwiejsza dla większości ludzi na poziomie podstawowym. Ale dla mnie to było dziwne. Minęły lata, zanim naprawdę mogłem intelektualnie wyjaśnić, co to jest przedział ufności. Ale kiedy zacząłem stawiać czoła sytuacjom praktycznym, pomysły częstych wydawały się proste i bardzo istotne.

Empirycznie

Najważniejsze pytanie, na którym staram się dziś skupić, dotyczy bardziej praktycznej wydajności: osobistego czasu pracy, precyzji i szybkości obliczeń.

Osobisty czas pracy: w przypadku podstawowych pytań właściwie nigdy prawie nie stosuję metod bayesowskich: używam podstawowych narzędzi częstych i zawsze wolę test t od równoważnika bayesowskiego, który po prostu sprawiłby mi ból głowy. Kiedy chcę wiedzieć, czy jestem znacznie lepszy w tictactoe niż moja dziewczyna, robię chi-kwadrat :-). W rzeczywistości nawet w poważnej pracy jako informatyk podstawowe narzędzia często odwiedzające są nieocenione do badania problemów i unikania fałszywych wniosków z powodu losowości.

Precyzja: W uczeniu maszynowym, w którym przewidywanie jest ważniejsze niż analiza, nie ma absolutnej granicy między bayesowskim a częstym. MLE jest częstym approcah: tylko estymatorem. Ale uregulowane MLE (MAP) jest częściowo bayesowskim podejściem : znajdujesz tryb tylnej części ciała i nie zależy ci na pozostałej części tylnej części ciała. Nie znam częstego uzasadnienia, dlaczego warto stosować regularyzację. W praktyce regularyzacja jest czasem po prostu nieunikniona, ponieważ surowe oszacowanie MLE jest tak przeładowane, że 0 byłoby lepszym predyktorem. Jeśli uzgodniono, że regularyzacja jest prawdziwie metodą bayesowską, to samo to uzasadnia, że ​​Bayes może uczyć się z mniejszą ilością danych.

Szybkość obliczeń: metody częste są najczęściej obliczeniowo szybsze i prostsze do wdrożenia. I w jakiś sposób uregulowanie zapewnia tani sposób na wprowadzenie do nich trochę Bayesa. Być może dlatego, że metody bayesowskie wciąż nie są tak zoptymalizowane, jak mogłyby. Na przykład niektóre implementacje LDA są obecnie szybkie. Ale wymagali bardzo ciężkiej pracy. Do oceny entropii pierwszymi zaawansowanymi metodami były metody bayesowskie. Świetnie się sprawdziły, ale wkrótce odkryto metody częste i zajmują znacznie mniej czasu obliczeniowego ... W przypadku czasu obliczeniowego częste metody są na ogół wyraźnie lepsze. Nie jest absurdem, jeśli jesteś Bayesianem, myśleć o metodach częstokroć jako o przybliżeniu metod bayesowskich.

Benoit Sanchez
źródło
2
„Nie znam częstego uzasadnienia, dlaczego warto korzystać z regularyzacji”. To łatwe; w powtarzanych próbach wykazano, że zmniejsza błąd poza próbą.
Cliff AB
2

Jednym z rodzajów problemów, w których określone podejście oparte na częstościach zdominowało jakikolwiek Bayesian, jest przewidywanie w przypadku M-open.

Co oznacza M-open?

M-open oznacza, że ​​prawdziwy model, który generuje dane, nie pojawia się w zbiorze rozważanych modeli. Na przykład, jeśli prawdziwa średnia jest kwadratowa jako funkcja , ale rozważamy tylko modele ze średnią funkcją liniową , to mamy przypadek M-open. Innymi słowy, brak specyfikacji modelu skutkuje przypadkiem M-open.yxx

W większości przypadków jest to ogromny problem dla analiz bayesowskich; właściwie cała teoria, o której wiem, opiera się na poprawnym określeniu modelu. Oczywiście, jako krytyczni statystycy powinniśmy myśleć, że nasz model jest zawsze źle określony. To dość poważny problem; większość naszej teorii opiera się na poprawności modelu, ale wiemy, że nigdy nie jest. Zasadniczo trzymamy kciuki, mając nadzieję, że nasz model nie jest zbyt niepoprawny.

Dlaczego metody Frequentist radzą sobie z tym lepiej?

Nie wszyscy tak. Na przykład, jeśli używamy standardowych narzędzi MLE do tworzenia standardowych błędów lub budowania interwałów prognozowania, nie będziemy w lepszej sytuacji niż stosowanie metod bayesowskich.

Istnieje jednak jedno narzędzie Frequentist, które jest specjalnie przeznaczone właśnie do tego celu: walidacja krzyżowa. Tutaj, aby oszacować, jak dobrze nasz model będzie przewidywał nowe dane, po prostu zostawiamy część danych podczas dopasowywania modelu i mierzymy, jak dobrze nasz model przewiduje niewidoczne dane.

Zauważ, że ta metoda jest całkowicie ambiwalentna w stosunku do braku specyfikacji modelu, jedynie zapewnia nam metodę oceny, jak dobrze model będzie przewidywał nowe dane, niezależnie od tego, czy model jest „poprawny”, czy nie.

Nie sądzę, że jest to zbyt trudne, aby twierdzić, że to naprawdę zmienia podejście do predykcyjnego modelowania, które jest trudne do uzasadnienia z Bayesa perspektywy (przed ma reprezentować wcześniejszej wiedzy przed widząc danych, funkcja prawdopodobieństwa jest modelu, itd.) Do jednego bardzo łatwo to uzasadnić z perspektywy Frequentist (wybraliśmy model + parametry regularyzacji, które przy wielokrotnym próbkowaniu prowadzą do najlepszych błędów z próby).

To całkowicie zrewolucjonizowało sposób wnioskowania predykcyjnego. Nie sądzę, aby jakikolwiek statystyka statystyczny (lub przynajmniej powinien) poważnie rozważyłby model predykcyjny, który nie został zbudowany ani sprawdzony za pomocą weryfikacji krzyżowej, gdy jest on dostępny (tzn. Możemy rozsądnie założyć, że obserwacje są niezależne, nie próbując rozliczać do stronniczości próbkowania itp.).

Cliff AB
źródło