Jeśli zainteresowanie polega jedynie na oszacowaniu parametrów modelu (oszacowanie punktowe i / lub przedziałowe), a wcześniejsze informacje nie są wiarygodne, słabe (wiem, że jest to trochę niejasne, ale staram się ustalić scenariusz, w którym wybór wcześniejsze jest trudne) ... Dlaczego ktoś miałby stosować podejście bayesowskie z „nieinformacyjnymi” niewłaściwymi priory zamiast klasycznego?
44
Odpowiedzi:
Dwa powody, dla których można zastosować podejście bayesowskie, nawet jeśli używasz wysoce nieinformacyjnych priorów:
źródło
Chociaż wyniki będą bardzo podobne, ich interpretacje są różne.
Przedziały ufności implikują pojęcie powtarzania eksperymentu wiele razy i możliwość uchwycenia prawdziwego parametru 95% razy. Ale nie możesz powiedzieć, że masz 95% szans na zdobycie go.
Wiarygodne interwały (Bayesian) pozwalają natomiast stwierdzić, że istnieje 95% „szansa” na to, że interwał uchwyci prawdziwą wartość. Aktualizacja: Bardziej bayesowskim sposobem na wyrażenie tego byłoby to, że możesz być w 95% pewien swoich wyników.
Jest tak tylko dlatego, że przeszedłeś z do przy użyciu Reguły Baye'a.P(Data|Hypothesis) P(Hypothesis|Data)
źródło
Uważam, że jednym z powodów jest to, że analiza bayesowska zapewnia pełny rozkład boczny. Może to skutkować bardziej szczegółowymi odstępami czasu niż typowy częsty odwiedzający . Obowiązujący cytat z Reis i Stedinger 2005:±2σ
Na przykład można obliczyć wiarygodne przedziały dla różnicy między dwoma parametrami.
źródło
Sir Harold Jeffreys był zdecydowanym zwolennikiem podejścia bayesowskiego. Pokazał, że jeśli użyjesz rozproszonych niewłaściwych priorytetów, wynikowe wnioskowanie bayesowskie będzie takie samo jak częste podejście wnioskowania (tzn. Wiarygodne regiony bayesowskie są takie same jak częste przedziały ufności). Większość Bayesianów opowiada się za właściwymi aureolami informacyjnymi. Występują problemy z niewłaściwymi a priori, a niektórzy mogą twierdzić, że żaden uprzedni nie jest naprawdę nieinformacyjny. Myślę, że Bayesianie, którzy używają tych Jeffreysów, robią to jako wyznawcy Jeffreysa. Dennis Lindley , jeden z najsilniejszych zwolenników bayesowskiego podejścia, bardzo szanował Jeffreysa, ale opowiadał się za pouczającymi przeorami.
źródło
Podejście bayesowskie ma praktyczne zalety. Pomaga w oszacowaniu, często jest obowiązkowy. Umożliwia nowe rodziny modeli i pomaga budować bardziej skomplikowane (hierarchiczne, wielopoziomowe) modele.
Na przykład w przypadku modeli mieszanych (w tym efektów losowych z parametrami wariancji) uzyskuje się lepsze oszacowania, jeśli parametry wariancji są szacowane przez marginalizację w porównaniu z parametrami niższego poziomu (współczynniki modelu; nazywa się to REML ). Podejście bayesowskie robi to naturalnie. W przypadku tych modeli, nawet w przypadku REML, szacunki maksymalnego prawdopodobieństwa (ML) parametrów wariancji są często zerowe lub tendencyjne w dół. Właściwy wcześniej dla parametrów wariancji pomaga.
Nawet jeśli stosowane jest oszacowanie punktowe ( MAP , maksimum a posteriori), priory zmieniają rodzinę modeli. Regresja liniowa z dużym zestawem zmiennych nieco współliniowych jest niestabilna. Regularyzację L2 stosuje się jako środek zaradczy, ale można ją zinterpretować jako model bayesowski z wcześniejszą gaussowską (nieinformacyjną) i estymacją MAP. (Regularyzacja L1 jest innym przejęciem i daje różne wyniki. W rzeczywistości tutaj przeor może być nieco pouczający, ale dotyczy kolektywnych właściwości parametrów, a nie pojedynczego parametru.)
Istnieją więc pewne powszechne i stosunkowo proste modele, w których potrzebne jest podejście bayesowskie, aby załatwić sprawę!
Sprawy są jeszcze bardziej korzystne w przypadku bardziej skomplikowanych modeli, takich jak ukryty przydział Dirichleta (LDA) wykorzystywany w uczeniu maszynowym. Niektóre modele są z natury bayesowskie, np. Oparte na procesach Dirichleta .
źródło
Moglibyśmy na zawsze spierać się o podstawy wnioskowania w obronie obu podejść, ale pozwólcie, że zaproponuję coś innego. powód, by sprzyjać Bayesa analizy nad klasycznym jeden jest pokazany wyraźnie od tego, jak podchodzi zarówno kontrakt z przewidywaniem. Załóżmy, że mamy zwykłą warunkową sprawę. Klasycznie gęstość predykcyjna jest definiowana poprzez wstawienie wartości oszacowania parametru do gęstości warunkowej . Ta klasyczna gęstość predykcyjna nie uwzględnia niepewności oszacowaniapractical θ^=θ^(x1,…,xn) Θ fXn+1∣Θ(xn+1∣θ) fXn+1∣Θ(xn+1∣θ^) θ^ : dwie oceny równych punktów z całkowicie różnymi przedziałami ufności dają tę samą gęstość predykcyjną. Z drugiej strony, gęstość predykcyjna Bayesa uwzględnia niepewność dotyczącą parametru, biorąc pod uwagę informacje w próbce obserwacji, automatycznie, ponieważ
źródło
Jest kilka powodów:
Teraz, jeśli chodzi o wady korzystania z nieinformacyjnych priorytetów, zaczynając od tego, co uważam za najważniejsze, a następnie kierując się niektórymi również dość ważnymi aspektami technicznymi:
Ostatni punkt jest argumentem przemawiającym za preferowaniem raczej niejasnych (lub nieco słabiej informujących) aureoli, które zapewniają właściwe zachowanie tylnej części ciała. Trzeba przyznać, że czasem trudno jest z nich także pobrać próbki i może być trudno zauważyć, że cały tył nie został zbadany. Jednak metody bayesowskie z niejasnymi (ale właściwymi) priorytetami okazały się w wielu dziedzinach mieć naprawdę dobre właściwości małej próbki z częstej perspektywy i na pewno można to dostrzec jako argument za ich użyciem, podczas gdy przy nieco większej ilości danych prawie nie będzie wszelkie różnice w porównaniu z metodami z nieinformacyjnymi priory.
źródło