Dlaczego ktoś miałby stosować podejście bayesowskie z „nieinformacyjnym” niewłaściwym wcześniejszym podejściem zamiast klasycznego?

44

Jeśli zainteresowanie polega jedynie na oszacowaniu parametrów modelu (oszacowanie punktowe i / lub przedziałowe), a wcześniejsze informacje nie są wiarygodne, słabe (wiem, że jest to trochę niejasne, ale staram się ustalić scenariusz, w którym wybór wcześniejsze jest trudne) ... Dlaczego ktoś miałby stosować podejście bayesowskie z „nieinformacyjnymi” niewłaściwymi priory zamiast klasycznego?


źródło
1
Dziękuję wszystkim za tak interesujące przemyślenia na temat tej kontrowersyjnej części statystyki bayesowskiej. Czytam i porównuję twoje punkty. Istnieją interesujące argumenty potwierdzające jego użycie pod względem formalnych zasad, praktyczności i interpretacji. W pewnym momencie wybiorę odpowiedź, ale obawiam się, że będzie to bardzo trudne zadanie.

Odpowiedzi:

24

Dwa powody, dla których można zastosować podejście bayesowskie, nawet jeśli używasz wysoce nieinformacyjnych priorów:

  • Problemy z konwergencją. Istnieje kilka rozkładów (dwumianowy, ujemny dwumianowy i uogólniona gamma są tymi, z którymi jestem najbardziej zaznajomiony), które mają problemy z konwergencją w nietypowej ilości czasu. Możesz użyć frameworku „bayesowskiego” - a zwłaszcza metod Monte Carlo (MCMC) w łańcuchu Markowa - zasadniczo przeorać te problemy konwergencji z mocą obliczeniową i uzyskać z nich przyzwoite oszacowania.
  • Interpretacja. Szacunek Bayesa + 95% wiarygodny przedział ma bardziej intuicyjną interpretację niż częsty szacunek + 95% przedział ufności, więc niektórzy wolą po prostu je zgłaszać.
Fomite
źródło
3
MCMC nie jest tak naprawdę metodą bayesowską. Możesz po prostu wyciągnąć szacunki na podstawie prawdopodobieństwa docelowego (nie późniejszego), jeśli problemem jest konwergencja.
scottyaz
16

Chociaż wyniki będą bardzo podobne, ich interpretacje są różne.

Przedziały ufności implikują pojęcie powtarzania eksperymentu wiele razy i możliwość uchwycenia prawdziwego parametru 95% razy. Ale nie możesz powiedzieć, że masz 95% szans na zdobycie go.

Wiarygodne interwały (Bayesian) pozwalają natomiast stwierdzić, że istnieje 95% „szansa” na to, że interwał uchwyci prawdziwą wartość. Aktualizacja: Bardziej bayesowskim sposobem na wyrażenie tego byłoby to, że możesz być w 95% pewien swoich wyników.

Jest tak tylko dlatego, że przeszedłeś z do przy użyciu Reguły Baye'a.P(Data|Hypothesis)P(Hypothesis|Data)

Dominic Comtois
źródło
1
Mogę się tu mylić, ale w jaki sposób „prawdziwa wartość” pasuje do ram Bayesa? Może masz na myśli tryb późniejszy (lub wredny, lub… itd.)?
Makro
Mam na myśli dowolny parametr (wartość populacji), który szacujesz za pomocą przykładowej statystyki, czy będzie to średnia, średnia różnica, nachylenie regresji ... Krótko mówiąc, o co ci chodzi.
Dominic Comtois
1
Tak, ale czy „prawdziwa wartość” nie wskazuje, że parametr jest stały (tzn. Jego rozkład jest masą punktową)? Cała koncepcja patrzenia na rozkład tylny wydaje się nie zgadzać z takim myśleniem o parametrach.
Makro
9

Uważam, że jednym z powodów jest to, że analiza bayesowska zapewnia pełny rozkład boczny. Może to skutkować bardziej szczegółowymi odstępami czasu niż typowy częsty odwiedzający . Obowiązujący cytat z Reis i Stedinger 2005:±2σ

Zapewnienie pełnego rozkładu parametrów z tyłu jest zaletą podejścia bayesowskiego - ponad metodami klasycznymi, które zwykle zapewniają jedynie punktową ocenę parametrów reprezentowanych przez tryb funkcji prawdopodobieństwa oraz wykorzystują założenia asymptotycznej normalności i kwadratowe przybliżenie funkcji logarytmu wiarygodności opisującej niepewności. W ramach szkieletu Bayesa nie trzeba stosować żadnego przybliżenia, aby ocenić niepewności, ponieważ dostępny jest pełny rozkład parametrów tylnych. Ponadto analiza bayesowska może dostarczyć wiarygodnych przedziałów dla parametrów lub dowolnej funkcji parametrów, które łatwiej interpretować niż koncepcja przedziału ufności w statystyce klasycznej (Congdon, 2001).

Na przykład można obliczyć wiarygodne przedziały dla różnicy między dwoma parametrami.

Wayne
źródło
6

Sir Harold Jeffreys był zdecydowanym zwolennikiem podejścia bayesowskiego. Pokazał, że jeśli użyjesz rozproszonych niewłaściwych priorytetów, wynikowe wnioskowanie bayesowskie będzie takie samo jak częste podejście wnioskowania (tzn. Wiarygodne regiony bayesowskie są takie same jak częste przedziały ufności). Większość Bayesianów opowiada się za właściwymi aureolami informacyjnymi. Występują problemy z niewłaściwymi a priori, a niektórzy mogą twierdzić, że żaden uprzedni nie jest naprawdę nieinformacyjny. Myślę, że Bayesianie, którzy używają tych Jeffreysów, robią to jako wyznawcy Jeffreysa. Dennis Lindley , jeden z najsilniejszych zwolenników bayesowskiego podejścia, bardzo szanował Jeffreysa, ale opowiadał się za pouczającymi przeorami.

Michael Chernick
źródło
1
+1 dla pierwszych kilku linii odpowiedzi. Moim zdaniem powodem wyboru przeora Jeffreysa zamiast „nieinformacyjnego” przełożonego nie jest po prostu zwolennik Jeffreysa. To dlatego, że tak naprawdę to nie jest przyjmowanie żadnych założeń, podczas gdy tak zwany nieinformacyjny przeor opiera się na parametryzacji.
Neil G
1
@NeilG Znalazłem też ludzi, którzy lubią używać ich do „Fail Frequentist” (w tym samym sensie co Fail Safe), kiedy używają nieinformacyjnych priorów, tak że mogą być interpretowani przez naiwnego czytelnika.
Fomite
@EpiGrad: Co masz na myśli? (Przepraszam, moje rozumienie statystyk częstokroć jest bardzo słabe.)
Neil G
1
@ NeilG Zasadniczo wykorzystując to, że przeor Jeffreya da ci to, czego oczekuje ktoś przeszkolony w dziedzinie częstych. Jest to przyzwoity środek, gdy praca w umieszczonych metodach bayesowskich nie przeniknęła zbyt wiele.
Fomite
@NeilG Zapomniałem również, że tak jak w mojej odpowiedzi, jeśli używasz MCMC do przeprowadzania częstych analiz, omijając kwestie konwergencji, wtedy przeor Jeffreya jest również pomocny.
Fomite
6

Podejście bayesowskie ma praktyczne zalety. Pomaga w oszacowaniu, często jest obowiązkowy. Umożliwia nowe rodziny modeli i pomaga budować bardziej skomplikowane (hierarchiczne, wielopoziomowe) modele.

Na przykład w przypadku modeli mieszanych (w tym efektów losowych z parametrami wariancji) uzyskuje się lepsze oszacowania, jeśli parametry wariancji są szacowane przez marginalizację w porównaniu z parametrami niższego poziomu (współczynniki modelu; nazywa się to REML ). Podejście bayesowskie robi to naturalnie. W przypadku tych modeli, nawet w przypadku REML, szacunki maksymalnego prawdopodobieństwa (ML) parametrów wariancji są często zerowe lub tendencyjne w dół. Właściwy wcześniej dla parametrów wariancji pomaga.

Nawet jeśli stosowane jest oszacowanie punktowe ( MAP , maksimum a posteriori), priory zmieniają rodzinę modeli. Regresja liniowa z dużym zestawem zmiennych nieco współliniowych jest niestabilna. Regularyzację L2 stosuje się jako środek zaradczy, ale można ją zinterpretować jako model bayesowski z wcześniejszą gaussowską (nieinformacyjną) i estymacją MAP. (Regularyzacja L1 jest innym przejęciem i daje różne wyniki. W rzeczywistości tutaj przeor może być nieco pouczający, ale dotyczy kolektywnych właściwości parametrów, a nie pojedynczego parametru.)

Istnieją więc pewne powszechne i stosunkowo proste modele, w których potrzebne jest podejście bayesowskie, aby załatwić sprawę!

Sprawy są jeszcze bardziej korzystne w przypadku bardziej skomplikowanych modeli, takich jak ukryty przydział Dirichleta (LDA) wykorzystywany w uczeniu maszynowym. Niektóre modele są z natury bayesowskie, np. Oparte na procesach Dirichleta .

scellus
źródło
6

Moglibyśmy na zawsze spierać się o podstawy wnioskowania w obronie obu podejść, ale pozwólcie, że zaproponuję coś innego. powód, by sprzyjać Bayesa analizy nad klasycznym jeden jest pokazany wyraźnie od tego, jak podchodzi zarówno kontrakt z przewidywaniem. Załóżmy, że mamy zwykłą warunkową sprawę. Klasycznie gęstość predykcyjna jest definiowana poprzez wstawienie wartości oszacowania parametru do gęstości warunkowej . Ta klasyczna gęstość predykcyjna nie uwzględnia niepewności oszacowaniapracticalθ^=θ^(x1,,xn)ΘfXn+1Θ(xn+1θ)fXn+1Θ(xn+1θ^)θ^: dwie oceny równych punktów z całkowicie różnymi przedziałami ufności dają tę samą gęstość predykcyjną. Z drugiej strony, gęstość predykcyjna Bayesa uwzględnia niepewność dotyczącą parametru, biorąc pod uwagę informacje w próbce obserwacji, automatycznie, ponieważ

fXn+1X1,,Xm(xn+1x1,,xn)=fXn+1Θ(xn+1θ)π(θx1,,xn)dθ.
Zen
źródło
6
Warto zauważyć, że w kontekście regresji liniowej z błędami normalnymi przedziały częstości predykcji oparte są na kluczowych statystykach, a nie na estymatorach wtyczek, i są identyczne z przedziałami bayesowskimi w typowych nieinformacyjnych priorach (łącznie płasko na s i ). l o g ( σ 2 )βlog(σ2)
Cyan
Powiązane z komentarzem @ Cyan.
4

Jest kilka powodów:

  1. W wielu sytuacjach konstruowanie statystyk testowych lub przedziałów ufności jest dość trudne, ponieważ normalne aproksymacje - nawet po użyciu odpowiedniej funkcji łącza - do pracy z często nie działają zbyt dobrze w rzadkich sytuacjach danych. Korzystając z wnioskowania bayesowskiego z nieinformacyjnymi priorytetami zaimplementowanymi za pośrednictwem MCMC, można obejść ten problem (ostrzeżenia znajdują się poniżej).±SE
  2. Właściwości dużej próbki są zwykle całkowicie identyczne z niektórymi odpowiednimi podejściami dla osób często podróżujących.
  3. Często występuje znaczna niechęć do uzgodnienia jakichkolwiek priorytetów, bez względu na to, ile faktycznie wiemy, ze względu na obawę przed oskarżeniem o „brak obiektywności”. Używając nieinformacyjnych priorów („brak priorytetów”) można udawać, że nie ma takiego problemu, co pozwoli uniknąć krytyki ze strony niektórych recenzentów.

Teraz, jeśli chodzi o wady korzystania z nieinformacyjnych priorytetów, zaczynając od tego, co uważam za najważniejsze, a następnie kierując się niektórymi również dość ważnymi aspektami technicznymi:

  1. Interpretacja tego, co dostajesz, jest, całkiem szczerze, bardzo podobna, jak w przypadku wnioskowania częstych. Nie możesz po prostu ponownie oznaczyć wnioskowania o maksymalnym prawdopodobieństwie częstokroć jako wnioskowania o maksymalne a-posteriori Bayesa i twierdzić, że to zwalnia cię od wszelkich obaw związanych z wielokrotnymi porównaniami, wielokrotnym spojrzeniem na dane i pozwala zinterpretować wszystkie stwierdzenia pod kątem prawdopodobieństwa, że ​​niektóre hipotezy jest prawdziwy. Jasne, błędy typu I i tak dalej są koncepcjami częstokroć, ale my, naukowcy, zależy nam na składaniu fałszywych twierdzeń i wiemy, że powyższe powoduje problemy. Wiele z tych problemów zniknie (a przynajmniej jest o wiele mniej problemów), jeśli osadzisz rzeczy w modelu hierarchicznym / zrób coś empirycznego Bayesa, ale zwykle sprowadza się to do niejawnego generowania priorów za pomocą procedury analizy, włączając podstawę twojego wcześniejszego modelu do swojego modelu (a alternatywą jest jawne formułowanie priorów). Rozważania te są często ignorowane, moim zdaniem głównie w celu przeprowadzenia hakingu bayesowskiego p (tj. Wprowadzenia mnogości, ale zignorowania go) z listkiem wymówki, że nie stanowi to problemu, gdy stosuje się metody bayesowskie (pomijając wszystkie warunki, które mogłyby muszą być spełnione).
  2. Po bardziej „technicznej” stronie nieinformacyjne priory są problematyczne, ponieważ nie ma gwarancji, że będzie się trzymał z tyłu. Wiele osób wyposażyło modele bayesowskie w nieinformacyjne priory i nie zdawało sobie sprawy, że tył jest niewłaściwy. W rezultacie wygenerowano próbki MCMC, które były w zasadzie bez znaczenia.

Ostatni punkt jest argumentem przemawiającym za preferowaniem raczej niejasnych (lub nieco słabiej informujących) aureoli, które zapewniają właściwe zachowanie tylnej części ciała. Trzeba przyznać, że czasem trudno jest z nich także pobrać próbki i może być trudno zauważyć, że cały tył nie został zbadany. Jednak metody bayesowskie z niejasnymi (ale właściwymi) priorytetami okazały się w wielu dziedzinach mieć naprawdę dobre właściwości małej próbki z częstej perspektywy i na pewno można to dostrzec jako argument za ich użyciem, podczas gdy przy nieco większej ilości danych prawie nie będzie wszelkie różnice w porównaniu z metodami z nieinformacyjnymi priory.

Björn
źródło