W statystyce częstokrzyskiej istnieje ścisły związek między przedziałami ufności a testami. Wykorzystując wnioskowanie o w rozkładzie jako przykład, przedział ufności zawiera wszystkie wartości , które nie są odrzucane przez test na poziomie istotności .N ( μ , σ 2 ) 1 - α ˉ x ± t α / 2 ( n - 1 ) ⋅ s / √ μtα
Częstotliwościowe przedziały ufności są w tym sensie testami odwróconymi. (Nawiasem mówiąc, oznacza to, że możemy interpretować wartość jako najmniejszą wartość dla której wartość null parametru byłaby zawarta w przedziale ufności . Uważam, że może to być przydatny sposób na wyjaśnij, jakie naprawdę są wartości dla osób, które znają trochę statystyki.)α 1 - α p
Czytając o teoretycznych podstawach wiarygodnych regionów bayesowskich , zacząłem zastanawiać się, czy istnieje podobny związek / równoważność między wiarygodnymi regionami a testami bayesowskimi.
- Czy istnieje ogólne połączenie?
- Jeśli nie ma ogólnego połączenia, czy istnieją przykłady, w których istnieje połączenie?
- Jeśli nie ma ogólnego połączenia, jak możemy to zobaczyć?
Odpowiedzi:
Udało mi się znaleźć przykład, w którym istnieje połączenie. Wydaje się, że zależy to w dużej mierze od mojego wyboru funkcji straty i zastosowania złożonych hipotez.
Zaczynam od ogólnego przykładu, po którym następuje prosty specjalny przypadek obejmujący rozkład normalny.
Ogólny przykład
W przypadku nieznanego parametru , niech będzie przestrzenią parametrów i rozważ hipotezę porównaniu z alternatywną .Θ θ ∈ Θ 0 θ ∈ Θ 1 = Θ ∖ Θ 0θ Θ θ∈Θ0 θ∈Θ1=Θ∖Θ0
Niech będzie funkcją testową, wykorzystując zapis w Xi'an 's The Bayesian Choice (który jest swego rodzaju do tego, do czego przynajmniej jestem przyzwyczajony), abyśmy odrzucili jeśli i zaakceptują if . Rozważ funkcję straty Test Bayesa to zatemΘ 0 φ = 0 Θ 0 φ = 1 L ( θ , φ ) = { 0 , jeśli φ = I Θ 0 ( θ ) a 0 , jeśli θ ∈ Θ 0 i φ = 0 a 1 , jeśli θ ∈ Θ 1 i φ = 1. φ π ( x ) =φ Θ0 φ=0 Θ0 φ=1
Weź i . Hipoteza zerowa jest akceptowana, jeśli .a 1 = 1 - α Θ 0 P ( θ ∈ Θ 0 | x ) ≥ 1 - αa0=α≤0.5 a1=1−α Θ0 P(θ∈Θ0|x)≥1−α
Teraz wiarygodny region jest regionem takim, że . Zatem z definicji, jeśli jest taki, że , może być wiarygodnym regionem tylko wtedy, gdy .Θc P(Θc|x)≥1−α Θ0 P(θ∈Θ0|x)≥1−α Θc P(Θ0∩Θc|x)>0
Akceptujemy hipotezę zerową, jeśli tylko wtedy, gdy każdy region zawiera nie-zerowy podzbiór .1−α Θ0
Prostszy specjalny przypadek
Aby lepiej zilustrować rodzaj testu, który przeprowadziliśmy w powyższym przykładzie, rozważ następujący przypadek specjalny.
Niech z . Ustaw , i , abyśmy chcieli sprawdzić, czy .x∼N(θ,1) θ∼N(0,1) Θ=R Θ0=(−∞,0] Θ1=(0,∞) θ≤0
Standardowe obliczenia dają gdzie jest standardowym normalnym cdf.
Niech będzie taki, że . jest akceptowane, gdy .z1−α Φ(z1−α)=1−α Θ0 −x/2–√>z1−α
Jest to równoważne z akceptacją, gdyDla , jest zatem odrzucane, gdy .x≤2–√zα. α=0.05 Θ0 x>−2.33
Jeśli zamiast tego użyjemy wcześniejszego , jest odrzucany, gdy .θ∼N(ν,1) Θ0 x>−2.33−ν
Komentarze
Powyższa funkcja straty, w której uważamy, że fałszywe zaakceptowanie hipotezy zerowej jest gorsze niż fałszywe odrzucenie, może na pierwszy rzut oka wydawać się nieco sztuczną. Może jednak mieć duże zastosowanie w sytuacjach, w których „fałszywe negatywy” mogą być kosztowne, na przykład podczas badań przesiewowych pod kątem niebezpiecznych chorób zakaźnych lub terrorystów.
Warunek, że wszystkie wiarygodne regiony muszą zawierać część jest w rzeczywistości nieco silniejszy niż to, na co : w częstym przypadku zgodność występuje pomiędzy pojedynczym testem a pojedynczym przedziałem ufności a nie między pojedynczym test i wszystkie interwały .Θ0 1−α 1−α
źródło
Michael i Fraijo zasugerowali, że po prostu sprawdzenie, czy wartość parametru interesującego była zawarta w jakimś wiarygodnym regionie, było bayesowskim odpowiednikiem odwracania przedziałów ufności. Na początku byłem trochę sceptyczny, ponieważ nie było dla mnie oczywiste, że ta procedura naprawdę zakończyła się testem Bayesa (w zwykłym tego słowa znaczeniu).
Jak się okazuje, robi to - przynajmniej jeśli chcesz zaakceptować pewien rodzaj funkcji utraty. Ogromne podziękowania dla Zen , który dostarczył odniesienia do dwóch artykułów, które ustanawiają związek między regionami HPD i testowaniem hipotez:
Pereira i Stern zaproponowali metodę testowania wspomnianych hipotez bez konieczności stawiania wcześniejszych prawdopodobieństw na iΘ0 Θ1 .
Niech oznacza funkcję gęstości i zdefiniujπ(⋅) θ
Oznacza to, że jest regionem HPD o wiarygodności .T(x) P(θ∈T(x)|x)
Test Pereira-Sterna odrzuca gdy jest „małe” ( powiedzmy ). Dla unimodalnego a posteriori oznacza to, że znajduje się daleko w ogonach a posteriori, co czyni to kryterium nieco podobnym do używania wartości p. Innymi słowy, jest odrzucany na poziomie wtedy i tylko wtedy, gdy nie jest zawarty w regionie HPD .Θ0 P(θ∉T(x)|x) <0.05 θ0 Θ0 5 % 95 %
Niech funkcja testowa będzie równa jeśli zostanie zaakceptowany, a jeśli zostanie odrzucony. Madruga i in. zaproponowano funkcję straty z .φ 1 Θ0 0 Θ0
Minimalizacja oczekiwanej straty prowadzi do testu Pereira-Sterna, gdzie jest odrzucany, jeśliΘ0 P(θ∉T(x)|x)<(b+c)/(a+c).
Jak dotąd wszystko jest w porządku. Test Pereira-Sterna jest równoważny ze sprawdzeniem, czy znajduje się w regionie HPD i czy funkcja straty generuje ten test, co oznacza, że jest on oparty na teorii decyzji.θ0
Kontrowersyjna jest jednak to, że funkcja straty zależy odx . Chociaż takie funkcje strat pojawiły się w literaturze kilka razy, nie wydają się być ogólnie akceptowane jako bardzo rozsądne.
Więcej informacji na ten temat można znaleźć na liście artykułów cytujących Madruga i in. artykuł .
Aktualizacja październik 2012:
Nie byłem w pełni usatysfakcjonowany powyższą funkcją straty, ponieważ jej zależność od sprawia, że podejmowanie decyzji jest bardziej subiektywne, niż bym chciał. Spędziłem więcej czasu zastanawiając się nad tym problemem i ostatecznie napisałem krótką notatkę na ten temat, opublikowaną dziś na arXiv .x
Niech oznacza tylną funkcję kwantylu , taką że . Zamiast zestawów HPD bierzemy pod uwagę środkowy (równy) przedział . Aby przetestować przy użyciu tego przedziału, można uzasadnić teorię decyzyjną bez funkcji straty zależnej od .qα(θ|x) θ P(θ≤qα(θ|x))=α (qα/2(θ|x),q1−α/2(θ|x)) Θ0 x
jest przeformułowanie problemu testowania hipotezy punkt-zero jako problemu trzech decyzji z wnioskami kierunkowymi. jest następnie testowany na obu i .Θ0={θ0} Θ0 Θ−1={θ:θ<θ0} Θ1={θ:θ>θ0}
Niech funkcja testowa jeśli zaakceptujemy (zwróć uwagę, że ta notacja jest przeciwieństwem tej stosowanej powyżej!). Okazuje się, że pod ważoną funkcją utraty Bayes test polega na odrzuceniu jeśli nie znajduje się w środkowym przedziale.φ=i Θi 0−1
Wydaje mi się to dość rozsądną funkcją utraty. Omawiam tę stratę, stratę Madruga-Esteves-Wechsler i testy z wykorzystaniem wiarygodnych zestawów w dalszej części manuskryptu na arXiv.
źródło
Przypadkowo przeczytałem twój artykuł arXiv przed przejściem do tego pytania i już napisałem na nim wpis na blogu ( zaplanowany na 08 października ). Podsumowując, uważam twoją konstrukcję za teoretyczną, ale również uważam, że jest zbyt wymyślona, by ją zalecić, szczególnie. ponieważ wydaje się, że nie rozwiązuje to hipotezy punkt-zero, testowania bayesowskiego, który tradycyjnie wymaga umieszczenia pewnej wcześniejszej masy na wartości parametru punkt-zero.
To znaczy, rozwiązanie zaproponowane powyżej (w aktualizacji październikowej) oraz jako Twierdzenie 2 w artykule arXiv nie jest prawidłową procedurą testową, ponieważ przyjmuje trzy wartości, a nie dwie wartości odpowiadające zaakceptowaniu / odrzuceniu. Podobnie funkcja straty, której używasz w Twierdzeniu 3 (tutaj nie , do testowania jednostronnej hipotezy, , a nie hipotezy punkt-zero .φ H0:θ≤θ0 H0:θ=θ0
Jednak moim głównym problemem jest to, że wydaje mi się, że zarówno Twierdzenie 3, jak i Twierdzenie 4 w twoim dokumencie arXiv nie są ważne, gdy jest hipotezą punkt-zero, tj. Gdy , bez wcześniejszej masy.H0 Θ0={θ0}
źródło
Możesz użyć wiarygodnego przedziału (lub regionu HPD) do testowania hipotez bayesowskich. Nie sądzę, żeby to było powszechne; chociaż, żeby być uczciwym, nie widzę wiele ani nie używam w praktyce formalnego testu hipotezy Bayesa. Czynniki Bayesa są od czasu do czasu używane (a nieco „chwalony” przez Roberta „Bayesian Core”) w testowanych hipotezach.
źródło
Wiarygodny region to tylko region, w którym całka gęstości tylnej w regionie ma określone prawdopodobieństwo, np. 0,95. Jednym ze sposobów na sformułowanie testu hipotezy bayesowskiej jest sprawdzenie, czy hipotetyczna wartość zerowa parametru (parametrów) mieści się w wiarygodnym regionie. W ten sposób możemy uzyskać podobną zgodność 1–1 między testami hipotez a wiarygodnymi regionami, tak jak częsti użytkownicy robią to z przedziałami ufności i testami hipotez. Ale to nie jedyny sposób na testowanie hipotez.
źródło
Pozwól, że podam, jak to zrobiłem, czytając odpowiedź Tima .
Opiera się na widokach tabeli z hipotezą (parametr szacowany) w kolumnach i obserwacjach w wierszach.
W pierwszej tabeli masz sumę prawdopodobieństw sumy równą 1, tzn. Są to prawdopodobieństwa warunkowe, których warunek dostania się do zdarzenia kolumny jest podawany w dolnym rzędzie, zwanym „przed”. W ostatniej tabeli wiersze sumują się podobnie do 1, a pośrodku masz wspólne prawdopodobieństwa, tj. Prawdopodobieństwa warunkowe, które znajdziesz w pierwszej i ostatniej tabeli razy prawdopodobieństwo warunku, priory.
Tabele zasadniczo wykonują transformację Bayesa: w pierwszej tabeli podajesz pdf obserwacji (wierszy) w każdej kolumnie, ustawiasz pierwszeństwo dla tej hipotezy (tak, kolumna hipotezy jest pdf obserwacji z tej hipotezy), robisz to dla każdej kolumny i tabeli bierze to najpierw do wspólnej tabeli probabilitów, a następnie do prawdopodobieństwa twojej hipotezy, uwarunkowane obserwacjami.
Jak otrzymałem z odpowiedzi Tima (popraw mnie, jeśli się mylę), podejście Krytycznego Przedziału patrzy na pierwszą tabelę. Oznacza to, że po zakończeniu eksperymentu znamy rząd tabeli (w moim przykładzie zarówno główki, jak i ogony, ale możesz wykonać bardziej złożone eksperymenty, na przykład 100 rzutów monetą i uzyskać stół z 2 ^ 100 rzędami). Frequentialist przeszukuje swoje kolumny, co, jak powiedziałem, jest rozkładem możliwych wyników pod warunkiem, że hipoteza jest zimna prawdziwa (np. Moneta jest uczciwa w moim przykładzie) i odrzuca tę hipotezę (kolumny), która dała bardzo niską wartość prawdopodobieństwa na obserwowany rząd.
Bayesianist najpierw koryguje prawdopodobieństwa, konwertując cols na rzędy i przegląda tabelę 3, znajduje rząd obserwowanego wyniku. Ponieważ jest to również pdf, przechodzi przez wiersz wyników eksperymentu i wybiera hipotezę o najwyższym stopniu prawdopodobieństwa, dopóki jego 95% przedział wiarygodności nie zostanie zapełniony. Reszta hipotezy została odrzucona.
Jak ci się podoba? Wciąż się uczę, a grafika wydaje mi się pomocna. Wierzę, że jestem na dobrej drodze, ponieważ renomowany użytkownik daje ten sam obraz, analizując różnicę dwóch podejść . Zaproponowałem graficzny widok mechaniki wyboru hipotez.
Zachęcam wszystkich do przeczytania ostatniej odpowiedzi Keitha, ale mój obraz mechaniki testowania hipotez może od razu powiedzieć, że częsty nie patrzy na drugą hipotezę, gdy weryfikuje obecną, podczas gdy rozważanie hipotezy o wysokiej wiarygodności ma duży wpływ na odbiór / odrzucenie innych hipotez w bayesowskiej analiza, ponieważ jeśli masz jedną hipotezę, która pojawia się 95% razy przy obserwowanych danych, natychmiast rzucasz wszystkie inne hipotezy, niezależnie od tego, jak dobrze mieszczą się w nich dane. Odłóżmy na bok analizę mocy statystycznej, która kontrastuje dwie hipotezy oparte na ich przedziałach ufności.
Ale wydaje mi się, że dostrzegłem podobieństwo między dwoma podejściami: wydają się one być powiązane poprzez
P(A | B) > P(A) <=> P(B|A) > P(B)
własność . Zasadniczo, jeśli istnieje zależność między A i B, to pojawi się jako korelacja zarówno w tabelach freq, jak i bayesowskich. Tak więc, wykonanie jednego testu hipotezy koreluje z drugim, muszą one dać te same wyniki. Badanie korzeni korelacji prawdopodobnie da ci połączenie między nimi. W moim pytaniu faktycznie pytam, dlaczego jest różnica zamiast absolutnej korelacji?źródło