Jaki jest związek między wiarygodnymi regionami a testami hipotezy bayesowskiej?

38

W statystyce częstokrzyskiej istnieje ścisły związek między przedziałami ufności a testami. Wykorzystując wnioskowanie o w rozkładzie jako przykład, przedział ufności zawiera wszystkie wartości , które nie są odrzucane przez test na poziomie istotności .N ( μ , σ 2 ) 1 - α ˉ x ± t α / 2 ( n - 1 ) s / μN(μ,σ2)1α μtα

x¯±tα/2(n1)s/n
μtα

Częstotliwościowe przedziały ufności są w tym sensie testami odwróconymi. (Nawiasem mówiąc, oznacza to, że możemy interpretować wartość jako najmniejszą wartość dla której wartość null parametru byłaby zawarta w przedziale ufności . Uważam, że może to być przydatny sposób na wyjaśnij, jakie naprawdę są wartości dla osób, które znają trochę statystyki.)α 1 - α ppα1αp

Czytając o teoretycznych podstawach wiarygodnych regionów bayesowskich , zacząłem zastanawiać się, czy istnieje podobny związek / równoważność między wiarygodnymi regionami a testami bayesowskimi.

  • Czy istnieje ogólne połączenie?
  • Jeśli nie ma ogólnego połączenia, czy istnieją przykłady, w których istnieje połączenie?
  • Jeśli nie ma ogólnego połączenia, jak możemy to zobaczyć?
MånsT
źródło
Powiązane pytanie, nad którym zastanawiałem się - czy ktoś mógłby wskazać mi artykuł, który uważają za „złoty standard” lub „kanoniczny przykład” Bayesowskiego testowania hipotez stosowanego na prawdziwym problemie, a nie na zabawce. Nigdy tak naprawdę nie rozumiałem testowania hipotezy bayesowskiej i wydaje mi się, że dobry przykład jego użycia jest pouczający.
Patrick Caldon,
2
@PatrickCaldon Wątpię w to, że jest w tym „złoty papier”, ponieważ testowanie hipotezy bayesowskiej jest sformułowane w ramach teorii decyzyjnej (dlatego jest zbyt szerokie, aby uchwycić go w jednym papierze). Książka wymieniona w odpowiedzi MånsT stanowi dobry materiał, książki i wykłady Bergera również mogą być interesujące.
Uważam, że artykuł ba.stat.cmu.edu/vol03is01.php może wyjaśnić większość naszej dyskusji tutaj.
Carlos AB Pereira
Dziękuję @Carlos! Wydaje się, że link nie działa teraz, ale wydaje mi się, że prowadzi on do twojego artykułu z 2008 roku w analizie bayesowskiej ze Sternem i Wechslerem. Uważam, że to bardzo interesująca lektura!
MånsT
Drogi MånsT: Analiza bayesowska przeniesiona do projektu Euclid. Artykuł prof. Carlosa znajduje się tutaj: projecteuclid.org/…
Zen

Odpowiedzi:

19

Udało mi się znaleźć przykład, w którym istnieje połączenie. Wydaje się, że zależy to w dużej mierze od mojego wyboru funkcji straty i zastosowania złożonych hipotez.

Zaczynam od ogólnego przykładu, po którym następuje prosty specjalny przypadek obejmujący rozkład normalny.

Ogólny przykład

W przypadku nieznanego parametru , niech będzie przestrzenią parametrów i rozważ hipotezę porównaniu z alternatywną .Θ θ Θ 0 θ Θ 1 = Θ Θ 0θΘθΘ0θΘ1=ΘΘ0

Niech będzie funkcją testową, wykorzystując zapis w Xi'an 's The Bayesian Choice (który jest swego rodzaju do tego, do czego przynajmniej jestem przyzwyczajony), abyśmy odrzucili jeśli i zaakceptują if . Rozważ funkcję straty Test Bayesa to zatemΘ 0 φ = 0 Θ 0 φ = 1 L ( θ , φ ) = { 0 , jeśli  φ = I Θ 0 ( θ ) a 0 , jeśli  θ Θ 0  i  φ = 0 a 1 , jeśli  θ Θ 1  i  φ = 1. φ π ( x ) =φΘ0φ=0Θ0φ=1

L(θ,φ)={0,if φ=IΘ0(θ)a0,if θΘ0 and φ=0a1,if θΘ1 and φ=1.
φπ(x)=1ifP(θΘ0|x)a1(a0+a1)1.

Weź i . Hipoteza zerowa jest akceptowana, jeśli .a 1 = 1 - α Θ 0 P ( θ Θ 0 | x ) 1 - αa0=α0.5a1=1αΘ0P(θΘ0|x)1α

Teraz wiarygodny region jest regionem takim, że . Zatem z definicji, jeśli jest taki, że , może być wiarygodnym regionem tylko wtedy, gdy .ΘcP(Θc|x)1αΘ0P(θΘ0|x)1αΘcP(Θ0Θc|x)>0

Akceptujemy hipotezę zerową, jeśli tylko wtedy, gdy każdy region zawiera nie-zerowy podzbiór .1αΘ0

Prostszy specjalny przypadek

Aby lepiej zilustrować rodzaj testu, który przeprowadziliśmy w powyższym przykładzie, rozważ następujący przypadek specjalny.

Niech z . Ustaw , i , abyśmy chcieli sprawdzić, czy .xN(θ,1)θN(0,1)Θ=RΘ0=(,0]Θ1=(0,)θ0

Standardowe obliczenia dają gdzie jest standardowym normalnym cdf.

P(θ0|x)=Φ(x/2),
Φ()

Niech będzie taki, że . jest akceptowane, gdy .z1αΦ(z1α)=1αΘ0x/2>z1α

Jest to równoważne z akceptacją, gdyDla , jest zatem odrzucane, gdy .x2zα.α=0.05Θ0x>2.33

Jeśli zamiast tego użyjemy wcześniejszego , jest odrzucany, gdy .θN(ν,1)Θ0x>2.33ν

Komentarze

Powyższa funkcja straty, w której uważamy, że fałszywe zaakceptowanie hipotezy zerowej jest gorsze niż fałszywe odrzucenie, może na pierwszy rzut oka wydawać się nieco sztuczną. Może jednak mieć duże zastosowanie w sytuacjach, w których „fałszywe negatywy” mogą być kosztowne, na przykład podczas badań przesiewowych pod kątem niebezpiecznych chorób zakaźnych lub terrorystów.

Warunek, że wszystkie wiarygodne regiony muszą zawierać część jest w rzeczywistości nieco silniejszy niż to, na co : w częstym przypadku zgodność występuje pomiędzy pojedynczym testem a pojedynczym przedziałem ufności a nie między pojedynczym test i wszystkie interwały .Θ01α1α

MånsT
źródło
2
+1 Użyłbym regionu wiarygodności zamiast przedziału wiarygodności .
1
Dzięki @Procrastinator! Zredagowałem odpowiedź i zmieniłem ją na „region”, gdy tam byłem. Pracuję głównie z regionami HPD unimodalnych bocznych, więc zwykle myślę o regionach pewności jako o interwałach. :)
MånsT,
12

Michael i Fraijo zasugerowali, że po prostu sprawdzenie, czy wartość parametru interesującego była zawarta w jakimś wiarygodnym regionie, było bayesowskim odpowiednikiem odwracania przedziałów ufności. Na początku byłem trochę sceptyczny, ponieważ nie było dla mnie oczywiste, że ta procedura naprawdę zakończyła się testem Bayesa (w zwykłym tego słowa znaczeniu).

Jak się okazuje, robi to - przynajmniej jeśli chcesz zaakceptować pewien rodzaj funkcji utraty. Ogromne podziękowania dla Zen , który dostarczył odniesienia do dwóch artykułów, które ustanawiają związek między regionami HPD i testowaniem hipotez:

H0:θΘ0={θ0}andH1:θΘ1=ΘΘ0,
Θ

Pereira i Stern zaproponowali metodę testowania wspomnianych hipotez bez konieczności stawiania wcześniejszych prawdopodobieństw na iΘ0Θ1 .

Niech oznacza funkcję gęstości i zdefiniujπ()θ

T(x)={θ:π(θ|x)>π(θ0|x)}.

Oznacza to, że jest regionem HPD o wiarygodności .T(x)P(θT(x)|x)

Test Pereira-Sterna odrzuca gdy jest „małe” ( powiedzmy ). Dla unimodalnego a posteriori oznacza to, że znajduje się daleko w ogonach a posteriori, co czyni to kryterium nieco podobnym do używania wartości p. Innymi słowy, jest odrzucany na poziomie wtedy i tylko wtedy, gdy nie jest zawarty w regionie HPD .Θ0P(θT(x)|x)<0.05θ0Θ05 %95 %

Niech funkcja testowa będzie równa jeśli zostanie zaakceptowany, a jeśli zostanie odrzucony. Madruga i in. zaproponowano funkcję straty z .φ1Θ00Θ0

L(θ,φ,x)={a(1I(θT(x)),if φ(x)=0b+cI(θ(T(x)),if φ(x)=1,
a,b,c>0

Minimalizacja oczekiwanej straty prowadzi do testu Pereira-Sterna, gdzie jest odrzucany, jeśliΘ0P(θT(x)|x)<(b+c)/(a+c).

Jak dotąd wszystko jest w porządku. Test Pereira-Sterna jest równoważny ze sprawdzeniem, czy znajduje się w regionie HPD i czy funkcja straty generuje ten test, co oznacza, że ​​jest on oparty na teorii decyzji.θ0

Kontrowersyjna jest jednak to, że funkcja straty zależy odx . Chociaż takie funkcje strat pojawiły się w literaturze kilka razy, nie wydają się być ogólnie akceptowane jako bardzo rozsądne.

Więcej informacji na ten temat można znaleźć na liście artykułów cytujących Madruga i in. artykuł .


Aktualizacja październik 2012:

Nie byłem w pełni usatysfakcjonowany powyższą funkcją straty, ponieważ jej zależność od sprawia, że ​​podejmowanie decyzji jest bardziej subiektywne, niż bym chciał. Spędziłem więcej czasu zastanawiając się nad tym problemem i ostatecznie napisałem krótką notatkę na ten temat, opublikowaną dziś na arXiv .x

Niech oznacza tylną funkcję kwantylu , taką że . Zamiast zestawów HPD bierzemy pod uwagę środkowy (równy) przedział . Aby przetestować przy użyciu tego przedziału, można uzasadnić teorię decyzyjną bez funkcji straty zależnej od .qα(θ|x)θP(θqα(θ|x))=α(qα/2(θ|x),q1α/2(θ|x))Θ0x

jest przeformułowanie problemu testowania hipotezy punkt-zero jako problemu trzech decyzji z wnioskami kierunkowymi. jest następnie testowany na obu i .Θ0={θ0}Θ0Θ1={θ:θ<θ0}Θ1={θ:θ>θ0}

Niech funkcja testowa jeśli zaakceptujemy (zwróć uwagę, że ta notacja jest przeciwieństwem tej stosowanej powyżej!). Okazuje się, że pod ważoną funkcją utraty Bayes test polega na odrzuceniu jeśli nie znajduje się w środkowym przedziale.φ=iΘi01

L2(θ,φ)={0,if θΘi and φ=i,i{1,0,1},α/2,if θΘ0 and φ=0,1,if θΘiΘ0 and φ=i,i{1,1},
Θ0θ0

Wydaje mi się to dość rozsądną funkcją utraty. Omawiam tę stratę, stratę Madruga-Esteves-Wechsler i testy z wykorzystaniem wiarygodnych zestawów w dalszej części manuskryptu na arXiv.

MånsT
źródło
2
(
Oznaczam
Kiedy mówisz „Aby dojść do testu Pereiry-Sterna, musimy zminimalizować oczekiwaną utratę tylnej nogi”, cóż, faktycznie robimy to w każdej procedurze bayesowskiej. Różnica polega na tym, że funkcja utraty zależy od danych (jak wskazałeś), co nie jest standardowe. Normalnie mamy . L:{ParameterSpace}×{Actions}R
Zen
@Zen: Tak, oczywiście źle to sformułowałem. Dzięki za zwrócenie na to uwagi. :)
MånsT
3
@ MånsT: (+1) To jest interesująca odpowiedź. Bardzo szanuję fakt, że zdecydowałeś się oznaczyć to jako CW w tym przypadku, ale żałuję, że tego nie zrobiłeś. :-)
kardynał
8

Przypadkowo przeczytałem twój artykuł arXiv przed przejściem do tego pytania i już napisałem na nim wpis na blogu ( zaplanowany na 08 października ). Podsumowując, uważam twoją konstrukcję za teoretyczną, ale również uważam, że jest zbyt wymyślona, ​​by ją zalecić, szczególnie. ponieważ wydaje się, że nie rozwiązuje to hipotezy punkt-zero, testowania bayesowskiego, który tradycyjnie wymaga umieszczenia pewnej wcześniejszej masy na wartości parametru punkt-zero.

To znaczy, rozwiązanie zaproponowane powyżej (w aktualizacji październikowej) oraz jako Twierdzenie 2 w artykule arXiv nie jest prawidłową procedurą testową, ponieważ przyjmuje trzy wartości, a nie dwie wartości odpowiadające zaakceptowaniu / odrzuceniu. Podobnie funkcja straty, której używasz w Twierdzeniu 3 (tutaj nie , do testowania jednostronnej hipotezy, , a nie hipotezy punkt-zero .φH0:θθ0H0:θ=θ0

Jednak moim głównym problemem jest to, że wydaje mi się, że zarówno Twierdzenie 3, jak i Twierdzenie 4 w twoim dokumencie arXiv nie są ważne, gdy jest hipotezą punkt-zero, tj. Gdy , bez wcześniejszej masy.H0Θ0={θ0}

Xi'an
źródło
1
Dzięki (+1) za komentarze! Z niecierpliwością czekam na Twój post na blogu. :) Jak zauważasz, Twierdzenia 3 i 4 dotyczą wyłącznie złożonych hipotez. twierdzenia 2 jest drukarski. Powinien brzmieć , w takim przypadku gdy , co dzieje się, gdy jest w wiarygodnym przedziale czasowym. Zmienię to w manuskrypcie arXiv jak najszybciej! α / 2 φ = 0 α / 2 < min ( P ( Θ - 1 ) , P ( Θ 1 ) ) θ 01α/2α/2φ=0α/2<min(P(Θ1),P(Θ1))θ0
MånsT
Masz rację (+1!), Myślałem o nierównościach w drugą stronę! W dokumencie arXiv centralna nierówność jest zapisana w niewłaściwy sposób. tzn. należy zaakceptować iffH0
Xi'an
Miło to słyszeć :) Zaktualizowany manuskrypt (z poprawionym Thm 2) będzie dostępny w arXiv w poniedziałek. założenie, że nie jest punkt-zero w Thm 4 jawnie. Θ0
MånsT
1
Dopilnuj, aby wyjaśnić dowód twierdzenia 2 w dokumencie arXiv: wyświetlana nierówność jest zapisana w niewłaściwy sposób. tzn. należy zaakceptować iff , a nie odwrotnie! P ( θ Θ i | x ) > α / 2H0P(θΘi|x)>α/2
Xi'an
3

Możesz użyć wiarygodnego przedziału (lub regionu HPD) do testowania hipotez bayesowskich. Nie sądzę, żeby to było powszechne; chociaż, żeby być uczciwym, nie widzę wiele ani nie używam w praktyce formalnego testu hipotezy Bayesa. Czynniki Bayesa są od czasu do czasu używane (a nieco „chwalony” przez Roberta „Bayesian Core”) w testowanych hipotezach.

Fraijo
źródło
1
Pozdrawiam @Fraijo! Czy mógłbyś trochę rozwinąć tę różnicę między odpowiedzią Michaela Chernicka?
MånsT
2
Nie sądzę, aby użycie czynników Bayesa do testowania hipotezy było „sporadyczne”, patrz na przykład to odniesienie .
@ MånsT w kontynuacji procesu, który opisuje Michael, wydaje się być testem Bayes Factor. Zasadniczo tworzysz dwa modele z różnymi priorytetami na podstawie swojej hipotezy, a następnie porównujesz prawdopodobieństwo zbioru danych na podstawie tych priorytetów. Referencje opublikowane Procrasinator daje szybki przegląd tego.
Fraijo,
1
@ Procrastinator powiedziałem od czasu do czasu, ponieważ w mojej branży widzę niewielu ludzi stosujących metody bayesowskie, nie mówiąc już o stosowaniu bayesowskich metod do testowania hipotez. Osobiście używam czynników Bayesa, aby sprawdzić wrażliwość moich modeli na wcześniejsze, co, jak sądzę, jest formą testowania hipotez.
Fraijo,
1
@ MånsT krótka odpowiedź: nie. Ustalenie wiarygodnego przedziału czasu i sprawdzenie, czy zawiera hipotezę zerową, jest jedynym bezpośrednim testem porównywalnym z testowaniem hipotez częstych. Istnieją dwa problemy z tą metodą: 1) oczywisty fakt, że w niektórych przypadkach można znaleźć wiele regionów (np. HPD w porównaniu z regionem symetrycznym) i 2) testowanie hipotezy punktowej (theta = a) jest sprzeczne z bayesowskim ideałem parametrów przyjmowanie dystrybucji (theta ~ P (theta)).
Fraijo,
1

Wiarygodny region to tylko region, w którym całka gęstości tylnej w regionie ma określone prawdopodobieństwo, np. 0,95. Jednym ze sposobów na sformułowanie testu hipotezy bayesowskiej jest sprawdzenie, czy hipotetyczna wartość zerowa parametru (parametrów) mieści się w wiarygodnym regionie. W ten sposób możemy uzyskać podobną zgodność 1–1 między testami hipotez a wiarygodnymi regionami, tak jak częsti użytkownicy robią to z przedziałami ufności i testami hipotez. Ale to nie jedyny sposób na testowanie hipotez.

Michael Chernick
źródło
Czy tego rodzaju testy bayesowskie ad hoc są często stosowane w praktyce?
MånsT
1
@MansT Nie wydaje mi się. Myślę, że zwykle Bayesianie stawiają wcześniejsze szanse na prawdziwość hipotezy zerowej, a następnie opierają się na danych konstruujących szanse późniejsze. Jeśli szanse późniejsze są silnie sprzeczne z hipotezą zerową, jest ona odrzucana. Nie jestem jednak najlepszą osobą, by o to pytać, ponieważ bardzo często nie wyciągam wniosków bayesowskich.
Michael Chernick,
2
Test opisany przez Michaela przypisany jest Lindleyowi przez Zellnera w jego książce o ekonometrii bayesowskiej.
Zen
1
Tak, tego rodzaju testy z pewnością wynikają z bayesowskich pomysłów , ale nie jestem pewien, czy mają one solidne podstawy w bayesowskiej teorii decyzji . W tym drugim ustawieniu oczekiwałbym, że testy będą pochodzić z funkcji straty, zwykle obejmującej funkcję testową.
MånsT
-1

Pozwól, że podam, jak to zrobiłem, czytając odpowiedź Tima .

Opiera się na widokach tabeli z hipotezą (parametr szacowany) w kolumnach i obserwacjach w wierszach.

wprowadź opis zdjęcia tutaj

W pierwszej tabeli masz sumę prawdopodobieństw sumy równą 1, tzn. Są to prawdopodobieństwa warunkowe, których warunek dostania się do zdarzenia kolumny jest podawany w dolnym rzędzie, zwanym „przed”. W ostatniej tabeli wiersze sumują się podobnie do 1, a pośrodku masz wspólne prawdopodobieństwa, tj. Prawdopodobieństwa warunkowe, które znajdziesz w pierwszej i ostatniej tabeli razy prawdopodobieństwo warunku, priory.

Tabele zasadniczo wykonują transformację Bayesa: w pierwszej tabeli podajesz pdf obserwacji (wierszy) w każdej kolumnie, ustawiasz pierwszeństwo dla tej hipotezy (tak, kolumna hipotezy jest pdf obserwacji z tej hipotezy), robisz to dla każdej kolumny i tabeli bierze to najpierw do wspólnej tabeli probabilitów, a następnie do prawdopodobieństwa twojej hipotezy, uwarunkowane obserwacjami.

Jak otrzymałem z odpowiedzi Tima (popraw mnie, jeśli się mylę), podejście Krytycznego Przedziału patrzy na pierwszą tabelę. Oznacza to, że po zakończeniu eksperymentu znamy rząd tabeli (w moim przykładzie zarówno główki, jak i ogony, ale możesz wykonać bardziej złożone eksperymenty, na przykład 100 rzutów monetą i uzyskać stół z 2 ^ 100 rzędami). Frequentialist przeszukuje swoje kolumny, co, jak powiedziałem, jest rozkładem możliwych wyników pod warunkiem, że hipoteza jest zimna prawdziwa (np. Moneta jest uczciwa w moim przykładzie) i odrzuca tę hipotezę (kolumny), która dała bardzo niską wartość prawdopodobieństwa na obserwowany rząd.

Bayesianist najpierw koryguje prawdopodobieństwa, konwertując cols na rzędy i przegląda tabelę 3, znajduje rząd obserwowanego wyniku. Ponieważ jest to również pdf, przechodzi przez wiersz wyników eksperymentu i wybiera hipotezę o najwyższym stopniu prawdopodobieństwa, dopóki jego 95% przedział wiarygodności nie zostanie zapełniony. Reszta hipotezy została odrzucona.

Jak ci się podoba? Wciąż się uczę, a grafika wydaje mi się pomocna. Wierzę, że jestem na dobrej drodze, ponieważ renomowany użytkownik daje ten sam obraz, analizując różnicę dwóch podejść . Zaproponowałem graficzny widok mechaniki wyboru hipotez.

Zachęcam wszystkich do przeczytania ostatniej odpowiedzi Keitha, ale mój obraz mechaniki testowania hipotez może od razu powiedzieć, że częsty nie patrzy na drugą hipotezę, gdy weryfikuje obecną, podczas gdy rozważanie hipotezy o wysokiej wiarygodności ma duży wpływ na odbiór / odrzucenie innych hipotez w bayesowskiej analiza, ponieważ jeśli masz jedną hipotezę, która pojawia się 95% razy przy obserwowanych danych, natychmiast rzucasz wszystkie inne hipotezy, niezależnie od tego, jak dobrze mieszczą się w nich dane. Odłóżmy na bok analizę mocy statystycznej, która kontrastuje dwie hipotezy oparte na ich przedziałach ufności.

Ale wydaje mi się, że dostrzegłem podobieństwo między dwoma podejściami: wydają się one być powiązane poprzez P(A | B) > P(A) <=> P(B|A) > P(B)własność . Zasadniczo, jeśli istnieje zależność między A i B, to pojawi się jako korelacja zarówno w tabelach freq, jak i bayesowskich. Tak więc, wykonanie jednego testu hipotezy koreluje z drugim, muszą one dać te same wyniki. Badanie korzeni korelacji prawdopodobnie da ci połączenie między nimi. W moim pytaniu faktycznie pytam, dlaczego jest różnica zamiast absolutnej korelacji?

Little Alien
źródło