Przykłady podejścia bayesowskiego i częstego dającego różne odpowiedzi

54

Uwaga: Jestem świadomy filozoficznych różnic między statystykami bayesowskimi i częstymi.

Na przykład „jakie jest prawdopodobieństwo, że moneta na stole jest głowami”, nie ma sensu w statystykach częstych, ponieważ ma już wylądowane głowy lub reszki - nie ma w tym nic probabilistycznego. Zatem pytanie nie ma odpowiedzi w kategoriach częstych.

Ale taka różnica nie jest tą różnicą, o którą pytam.

Chciałbym raczej wiedzieć, w jaki sposób ich przewidywania dotyczące poprawnie sformułowanych pytań różnią się w rzeczywistości, wyłączając wszelkie różnice teoretyczne / filozoficzne, takie jak przykład, o którym wspomniałem powyżej.

Innymi słowy:

Jaki jest przykład pytania, na które można odpowiedzieć zarówno w statystykach częstych, jak i bayesowskich, na które odpowiedź różni się między nimi?

(np. Być może jedna z nich odpowiada „1/2” na określone pytanie, a druga odpowiada „2/3”).

Czy są jakieś takie różnice?

  • Jeśli tak, jakie są przykłady?

  • Jeśli nie, to kiedy w ogóle ma to znaczenie, czy korzystam ze statystyk bayesowskich czy częstych podczas rozwiązywania konkretnego problemu?
    Dlaczego miałbym unikać jednego na rzecz drugiego?

Mehrdad
źródło
8
John Kruschke wyprodukował właśnie dwa filmy, w których porównuje bayesowskie i standardowe metody statystyczne. Ma wiele przykładów, w których metoda Bayesa odrzuca, ale standardowa metoda nie. Może nie dokładnie to, czego szukałeś, ale w każdym razie ... youtu.be/YyohWpjl6KU i youtu.be/IhlSD-lIQ_Y .
Rasmus Bååth
4
N0NN0N
@Procrastinator: Dzięki, patrzę teraz na wspomniane slajdy. Wydaje się to nieco bardziej intensywne niż moje matematyczne doświadczenie, ale mam nadzieję, że coś z tego wyciągnę. :)
Mehrdad
2
Możesz rzucić okiem na przykład Stone'a. Wyjaśniam to na moim blogu tutaj: normaldeviate.wordpress.com/2012/12/08/...
Larry Wasserman,
1
@mbq: Zastanawiam się, dlaczego powstała ta wiki społeczności?
Mehrdad,

Odpowiedzi:

9

Ten przykład pochodzi z tego miejsca . (Myślę nawet, że dostałem ten link od SO, ale nie mogę go już znaleźć.)

n=14k=10θθ

f(yf,1=heads,yf,2=heads|θ)=f(yf,1=heads)f(yf,2=heads|θ)=θ2.
Beta(α0,β0)
f(yf,1=heads,yf,2=heads|y)=f(yf,1=heads,yf,2=heads|θ)π(θ|y)dθ=Γ(α0+β0+n)Γ(α0+k)Γ(β0+nk)θ2θα0+k1(1θ)β0+nk1dθ=Γ(α0+β0+n)Γ(α0+k)Γ(β0+nk)Γ(α0+k+2)Γ(β0+nk)Γ(α0+β0+n+2)=(α0+k)(α0+k+1)(α0+β0+n)(α0+β0+n+1)
Beta(1,1)(10/14)2.51
Christoph Hanck
źródło
Daj +1 dokładnie takiej odpowiedzi, jakiej szukałem, dzięki.
Mehrdad
5
W rzeczywistości pojawiła się aktualizacja posta, do którego odwołuje się odpowiedź ... Chociaż pozostawił post, „zamiast wcześniejszego stosowania jednolitego rozkładu, możemy być jeszcze bardziej agnostyczni. W tym przypadku możemy użyć wersji beta ( 0,0) wcześniejszy rozkład. Taki rozkład odpowiada przypadkowi, w którym jakikolwiek środek rozkładu jest równie prawdopodobny. W tym przypadku oba podejścia, bayesowski i częsty dają takie same wyniki. ” !!! Wciąż potrzebujemy przykładu, aby odpowiedzieć na to pytanie! Stąd +1 do odpowiedzi poniżej jako prawdziwej odpowiedzi na to pytanie.
user1745038,
10

Zobacz moje pytanie tutaj , które wspomina artykuł Edwina Jaynesa, który podaje przykład poprawnie skonstruowanego częstego przedziału ufności, w którym istnieje wystarczająca ilość informacji w próbie, aby mieć pewność, że prawdziwa wartość statystyki nie leży w żadnym przedziale ufności ( a zatem przedział ufności różni się od wiarygodnego przedziału bayesowskiego).

Powodem tego jest jednak różnica w definicji przedziału ufności i przedziału wiarygodnego, co z kolei jest bezpośrednią konsekwencją różnicy w definicjach prawdopodobieństwa częstości i bayesowskich. Jeśli poprosisz bayesianina o stworzenie przedziału ufności bayesowskiej (a nie wiarygodnego), podejrzewam, że zawsze będzie istniał uprzedni okres, dla którego przedziały będą takie same, więc różnice sprowadzają się do wyboru wcześniejszego.

To, czy metody częste lub bayesowskie są odpowiednie, zależy od pytania, które chcesz postawić, a na koniec to różnica w filozofii decyduje o odpowiedzi (pod warunkiem, że wymagany wysiłek obliczeniowy i analityczny nie jest brany pod uwagę).

Mówiąc nieco z przymrużeniem oka, można argumentować, że częstotliwość długofalowa jest całkowicie rozsądnym sposobem ustalenia względnej wiarygodności zdania, w którym to przypadku statystyki częstokroć są nieco dziwnym podzbiorem subiektywnego bayesianizmu - więc każde pytanie, na które częsty może odpowiedzieć subiektywista Bayesian może również odpowiedzieć w ten sam sposób lub w inny sposób, jeśli wybiorą różne priorytety. ; o)

Dikran Torbacz
źródło
4
Użycie „subiektywnego bayesowskiego” jest trochę samo-sabotażem ( patrz ). Modelowanie ogólnie jest pełne subiektywizmu, wybór rozkładu do modelowania próbki jest również subiektywny. Nawet wybór testu dopasowania do sprawdzenia, czy dany model jest rozsądny, jest subiektywny.
2
Nie do końca się z tym zgadzam, jeśli ktoś uważa „subiektywne” za krzywdzące, to jest to ich błąd. Czasami, gdy mówimy o prawdopodobieństwie, naprawdę mamy na myśli subiektywne przekonanie osobiste - nie widzę powodu, aby nie nazwać tego tak, jeśli tak właśnie jest (wybranie akceptowania tylko częstotliwości długofalowych jako definicji prawdopodobieństwa jest czysto subiektywnym wyborem).
Dikran Marsupial
1
+1 dzięki za link, to bardzo pouczające. A także uwaga na temat różnicy między zaufaniem a wiarygodnymi przedziałami.
Mehrdad
8

Uważam, że ten dokument zapewnia bardziej celowe poczucie kompromisów w rzeczywistych zastosowaniach między nimi. Częściowo może to wynikać z moich preferencji dotyczących interwałów, a nie testów.

Gustafson, P. and Greenland, S. (2009). Oszacowanie interwału dla niechlujnych danych obserwacyjnych . Nauki statystyczne 24: 328–342.

W odniesieniu do przedziałów warto pamiętać, że częste przedziały ufności często wymagają / pokrywają jednolity zakres (dokładnie lub co najmniej większy niż x% dla każdej wartości parametru, która nie ma zerowego prawdopodobieństwa), a jeśli nie mieć to - nie są tak naprawdę przedziały ufności. (Niektórzy pójdą dalej i powiedzą, że muszą również wykluczyć odpowiednie podzbiory, które zmieniają zasięg).

Zasięg bayesowski jest zwykle definiowany przez rozluźnienie, że „średni zasięg”, biorąc pod uwagę przyjęte założenia, okazuje się dokładnie poprawny. Gustafson i Grenlandia (2009) nazywają tych wszechmocnych a priori i rozważają te omylne, aby zapewnić lepszą ocenę.

phaneron
źródło
1
+1 Nigdy nie wiedziałem o tej różnicy w ograniczeniach, dziękuję za zwrócenie na nią uwagi.
Mehrdad
3

Gdyby ktoś zadał pytanie, na które ma odpowiedź zarówno częsty, jak i bayesowski, podejrzewam, że ktoś inny byłby w stanie zidentyfikować dwuznaczność pytania, przez co nie byłoby „dobrze uformowane”.

Innymi słowy, jeśli potrzebujesz odpowiedzi na częste pytania, użyj metod częstych. Jeśli potrzebujesz odpowiedzi bayesowskiej, skorzystaj z metod bayesowskich. Jeśli nie wiesz, czego potrzebujesz, być może nie zdefiniowałeś tego pytania jednoznacznie.

Jednak w prawdziwym świecie istnieje często kilka różnych sposobów definiowania problemu lub zadawania pytań. Czasami nie jest jasne, który z tych sposobów jest lepszy. Jest to szczególnie powszechne, gdy klient jest statystycznie naiwny. Innym razem na jedno pytanie jest dużo trudniej odpowiedzieć niż na inne. W takich przypadkach często idzie się najłatwiej, próbując upewnić się, że jego klienci dokładnie zgadzają się z tym, jakie pytanie zadaje lub jaki problem rozwiązuje.

Emil Friedman
źródło
3

Polecam zapoznanie się z ćwiczeniem 3.15 darmowego podręcznika Teoria informacji, wnioskowanie i algorytmy uczenia się autorstwa MacKay.

Gdy 250 razy obrócił się na krawędzi, belgijska moneta o nominale jednego euro podniosła głowę 140 razy i ogon 110. „Wygląda mi to bardzo podejrzanie”, powiedział Barry Blight, wykładowca statystyki w London School of Economics. „Gdyby moneta była obiektywna, szansa na uzyskanie tak ekstremalnego wyniku byłaby mniejsza niż 7%”. Ale czy te dane świadczą o tym, że moneta jest stronnicza, a nie sprawiedliwa?

p0.076:1

Flądrarz
źródło