Ostatnie pytanie dotyczące różnicy między zaufaniem a wiarygodnymi przedziałami skłoniło mnie do ponownego przeczytania artykułu Edwina Jaynesa na ten temat:
Jaynes, ET, 1976. „Confidence Intervals vs. Bayesian Intervals”, w: Podstawach teorii prawdopodobieństwa, wnioskowania statystycznego i statystycznych teorii nauki, WL Harper i CA Hooker (red.), D. Reidel, Dordrecht, str. 175; ( pdf )
W streszczeniu Jaynes pisze:
... przedstawiamy bayesowskie i ortodoksyjne rozwiązania sześciu typowych problemów statystycznych obejmujących przedziały ufności (w tym testy istotności oparte na tym samym rozumowaniu). W każdym przypadku okazuje się, że sytuacja jest dokładnie odwrotna, tj. Metoda bayesowska jest łatwiejsza do zastosowania i daje takie same lub lepsze wyniki. Rzeczywiście, wyniki ortodoksyjne są zadowalające tylko wtedy, gdy ściśle zgadzają się (lub dokładnie) z wynikami bayesowskimi. Nie podano jeszcze żadnego przeciwnego przykładu.
(moje podkreślenie)
Artykuł został opublikowany w 1976 roku, więc być może sprawy potoczyły się dalej. Moje pytanie brzmi: czy istnieją przykłady, w których częstość ufności częstokroć jest wyraźnie wyższa niż wiarygodny przedział bayesowski (jak na wyzwanie, które implicite podjął Jaynes)?
Przykłady oparte na błędnych wcześniejszych założeniach są nie do przyjęcia, ponieważ nie mówią nic o wewnętrznej spójności różnych podejść.
źródło
Odpowiedzi:
Powiedziałem wcześniej, że spróbuję odpowiedzieć na pytanie, więc proszę ...
Jaynes był trochę niegrzeczny w swoim artykule, ponieważ częsty przedział ufności nie jest zdefiniowany jako przedział, w którym możemy oczekiwać, że prawdziwa wartość statystyki leży z dużym (określonym) prawdopodobieństwem, więc nie jest zaskakujące, że sprzeczności powstają, jeśli są interpretowane tak, jakby były. Problem polega na tym, że często jest to sposób, w jaki przedziały ufności są stosowane w praktyce, ponieważ przedział, który najprawdopodobniej zawiera prawdziwą wartość (biorąc pod uwagę to, co możemy wywnioskować z naszej próbki danych) jest tym, czego często chcemy.
Kluczową kwestią jest dla mnie to, że kiedy zadawane jest pytanie, najlepiej jest mieć bezpośrednią odpowiedź na to pytanie. To, czy wiarygodne przedziały bayesowskie są gorsze niż częste przedziały ufności, zależy od tego, jakie pytanie zostało zadane. Jeśli zadane pytanie brzmiało:
(a) „Daj mi przedział, w którym prawdziwa wartość statystyki leży z prawdopodobieństwem p”, wtedy wydaje się, że częsty nie jest w stanie odpowiedzieć bezpośrednio na to pytanie (a to wprowadza rodzaj problemów, które Jaynes omawia w swojej pracy), ale Bayesian może i dlatego wiarygodny przedział bayesowski przewyższa częstość ufności częstokroć w przykładach podanych przez Jaynesa. Ale to tylko dlatego, że jest to „złe pytanie” dla częstych.
(b) „Daj mi przedział czasu, w którym, gdyby eksperyment powtórzono wiele razy, prawdziwa wartość statystyki mieściłaby się w p * 100% takich przedziałów”, to odpowiedź dla częstych jest właśnie tym, czego chcesz. Bayesian może również być w stanie udzielić bezpośredniej odpowiedzi na to pytanie (chociaż może to nie być po prostu oczywisty wiarygodny odstęp). Komentarz Whubera do pytania sugeruje, że tak jest.
Zasadniczo chodzi zatem o prawidłowe określenie pytania i właściwą interpretację odpowiedzi. Jeśli chcesz zadać pytanie (a), skorzystaj z wiarygodnego przedziału bayesowskiego, jeśli chcesz zadać pytanie (b), skorzystaj z częstego przedziału ufności.
źródło
Jest to „dopracowany” przykład podany w książce napisanej przez Larry'ego Wassermana Wszystkie statystyki na stronie 216 ( 12.8 Mocne i słabe strony wnioskowania bayesowskiego ). Zasadniczo podaję to, czego Wasserman nie ma w swojej książce 1) wyjaśnienie tego, co się faktycznie dzieje, zamiast obalenia linii; 2) częste odpowiedzi na pytanie, których Wasserman dogodnie nie udziela; oraz 3) wykazanie, że równoważne zaufanie obliczone przy użyciu tych samych informacji cierpi z powodu tego samego problemu.
W tym przykładzie podaje następującą sytuację
... Co powinniśmy wyciągnąć z tego wszystkiego? Ważne jest, aby zrozumieć, że metody częste i bayesowskie odpowiadają na różne pytania. Aby połączyć wcześniejsze przekonania z danymi w zasadniczy sposób, skorzystaj z wnioskowania bayesowskiego. Aby konstruować procedury o gwarantowanej wydajności w długim okresie, takie jak przedziały ufności, używaj metod częstych ... (p217)
A potem idzie dalej bez żadnego wyjaśnienia ani wyjaśnienia, dlaczego metoda bayesowska wypadła tak źle. Co więcej, nie podaje odpowiedzi z częstych podejść, a jedynie szerokie stwierdzenie o „długoterminowej” - klasycznej taktyce politycznej (podkreśl swoją siłę + słabość innych, ale nigdy nie porównuj jak dla podobnych).
źródło
Keith Winstein,
EDYCJA: Aby wyjaśnić, ta odpowiedź opisuje przykład podany w Keith Winstein Odpowiedź na króla z okrutną grą statystyczną. Zarówno odpowiedzi bayesowskie, jak i częste korzystają z tych samych informacji, co ma na celu zignorowanie informacji o liczbie uczciwych i niesprawiedliwych monet przy konstruowaniu przedziałów. Jeśli ta informacja nie zostanie zignorowana, częsty powinien użyć zintegrowanego prawdopodobieństwa beta-dwumianowego jako rozkładu próbkowania przy konstruowaniu przedziału ufności, w którym to przypadku przedział ufności Cloppera-Pearsona nie jest odpowiedni i musi zostać zmodyfikowany. Podobna korekta powinna nastąpić w rozwiązaniu Bayesa.
EDYCJA: Wyjaśniłem również początkowe użycie Cloppera Pearson Interval.
EDYCJA: niestety moja alfa jest niewłaściwa, a interwał mojego cloppera-pearsona jest nieprawidłowy. Moje najskromniejsze przeprosiny dla @whuber, który słusznie to zauważył, ale z którym początkowo się nie zgadzałem i ignorowałem.
Metoda CI korzystająca z metody Cloppera Pearsona jest bardzo dobra
Zatem osoba korzystająca z przedziału ufności Cloppera Pearsona nigdy nie zostanie ścięta. Po zaobserwowaniu interwału jest to zasadniczo cała przestrzeń parametrów. Ale interwał CP robi to, zapewniając 100% pokrycia przypuszczalnie 95% interwału! Zasadniczo częste „oszukują”, dając 95% przedział ufności większy zasięg niż on / ona został poproszony (chociaż kto by nie oszukiwał w takiej sytuacji? Gdybym to był ja, dałbym całość [0, 1] interwał). Gdyby król poprosił o dokładnie 95% CI, ta metoda częstokroć nie udałaby się bez względu na to, co się faktycznie wydarzyło (być może jest lepsza?).
Co z interwencją bayesowską? (w szczególności interwał Bayesa z najwyższym odstępstwem tylnym (HPD))
Aby zacytować prawdziwy 95% przedział ufności, z definicji powinny istnieć pewne przypadki (tj. Przynajmniej jeden) obserwowanego przedziału, które nie zawierają prawdziwej wartości parametru . W przeciwnym razie, jak uzasadnić znacznik 95%? Czy nazwanie go przedziałem 90%, 50%, 20%, a nawet 0% byłoby nieważne?
Nie rozumiem, jak proste jest stwierdzenie „w rzeczywistości oznacza 95% lub więcej” bez dodatkowych ograniczeń. Wynika to z faktu, że oczywistym rozwiązaniem matematycznym jest cała przestrzeń parametrów, a problem jest trywialny. załóżmy, że chcę 50% CI? jeśli ogranicza tylko fałszywe negatywy, to cała przestrzeń parametrów jest poprawnym CI, używając tylko tych kryteriów.
Na zakończenie wydaje się nieco dziwne poprosić o przedział niepewności, a następnie ocenić ten przedział, używając prawdziwej wartości, której nie byliśmy pewni. „Bardziej sprawiedliwe” porównanie, zarówno pod względem pewności, jak i wiarygodnych przedziałów, wydaje mi się prawdą stwierdzenia niepewności podawanego z tym przedziałem .
źródło
Problem zaczyna się od zdania:
No cóż, skąd wiesz, że twój przeor jest poprawny?
Weźmy przykład wnioskowania bayesowskiego w filogenezie. Prawdopodobieństwo co najmniej jednej zmiany jest powiązane wzorem z czasem ewolucji (długość gałęzi t)
gdzie u jest stopą podstawienia.
Teraz chcesz stworzyć model ewolucji, oparty na porównaniu sekwencji DNA. Zasadniczo próbujesz oszacować drzewo, w którym próbujesz modelować wielkość zmiany między sekwencjami DNA tak blisko, jak to możliwe. Powyżej P jest szansa co najmniej jednej zmiany w danej gałęzi. Modele ewolucyjne opisują szanse zmiany między dowolnymi dwoma nukleotydami iz tych modeli ewolucyjnych wyprowadzana jest funkcja estymacji, albo p jako parametr, albo t jako parametr.
Nie masz rozsądnej wiedzy i wybrałeś mieszkanie przed p. To z natury implikuje wykładniczy spadek przed t. (Staje się to jeszcze bardziej problematyczne, jeśli chcesz ustawić mieszkanie przed t. Implikowane wcześniejsze przed p jest silnie zależne od tego, gdzie odciąłeś zakres t.)
Teoretycznie t może być nieskończony, ale jeśli zezwolisz na nieskończony zasięg, obszar pod jego funkcją gęstości równa się również nieskończoności, więc musisz zdefiniować punkt skrócenia dla wcześniejszego. Teraz, gdy wybrałeś wystarczająco duży punkt obcięcia, nie jest trudno udowodnić, że oba końce wiarygodnego przedziału wzrastają, aw pewnym momencie prawdziwa wartość nie jest już zawarta w wiarygodnym przedziale. O ile nie masz bardzo dobrego pomysłu na temat wcześniejszych metod, nie gwarantuje się, że metody bayesowskie będą równe lub lepsze od innych metod.
ref: Joseph Felsenstein: Wnioskowanie o filogenezie, rozdział 18
Na marginesie, mam już dość tej kłótni Bayesian / Frequentist. Oba są różnymi strukturami i żadna z nich nie jest Prawdą Absolutną. Klasyczne przykłady pro bayesowskich metod niezmiennie pochodzą z obliczeń prawdopodobieństwa, a żaden częsty nie zaprzeczy im. Klasyczny argument przeciwko metodom bayesowskim niezmiennie obejmuje arbitralny wybór przeora. A rozsądne priory są zdecydowanie możliwe.
Wszystko sprowadza się do właściwego użycia którejkolwiek z metod we właściwym czasie. Widziałem bardzo niewiele argumentów / porównań, w których obie metody zostały zastosowane poprawnie. Założenia jakiejkolwiek metody są bardzo niedoceniane i zdecydowanie zbyt często ignorowane.
EDYCJA: aby wyjaśnić, problem polega na tym, że oszacowanie oparte na p różni się od oszacowania opartego na tw ramach bayesowskich podczas pracy z nieinformacyjnymi priory (co jest w wielu przypadkach jedynym możliwym rozwiązaniem). Nie jest to prawdą w ramach ML dla wnioskowania filogenetycznego. Nie jest to kwestia złego uprzedzenia, jest nieodłącznym elementem metody.
źródło
Częstotliwościowe przedziały ufności ograniczają odsetek fałszywych alarmów (błędy typu I) i gwarantują, że ich zasięg będzie ograniczony przez parametr ufności, nawet w najgorszym przypadku. Bayesowskie przedziały wiarygodności nie.
Jeśli więc zależy Ci na wynikach fałszywie dodatnich i musisz je powiązać, przedziały ufności to podejście, które będziesz chciał zastosować.
Załóżmy na przykład, że masz złego króla ze dworem 100 dworzan i kurtyzan, a on chce zagrać z nimi w okrutną grę statystyczną. Król ma worek bilionów uczciwych monet plus jedną nieuczciwą monetę, której prawdopodobieństwo trafienia wynosi 10%. Zamierza wykonać następującą grę. Najpierw losuje losowo równomiernie monetę z torby.
Następnie moneta zostanie przekazana dookoła pokoju 100 osób i każda z nich będzie zmuszona przeprowadzić na niej eksperyment, prywatnie, a następnie każda osoba określi 95% przedział niepewności co do prawdopodobieństwa, że główka monety jest prawdopodobna.
Każdy, kto poda przedział, który reprezentuje fałszywie dodatni - tj. Przedział, który nie obejmuje prawdziwej wartości prawdopodobieństwa głów - zostanie ścięty.
Gdybyśmy chcieli wyrazić funkcję rozkładu a posteriori / prawdopodobieństwa masy monety, to oczywiście robi to przedział wiarygodności. Odpowiedzią będzie zawsze przedział [0,5, 0,5] niezależnie od wyniku. Nawet jeśli przerzucisz zero głów lub jedną głowę, nadal powiesz [0,5, 0,5], ponieważ jest o wiele bardziej prawdopodobne, że król wyciągnął uczciwą monetę i miałeś 1/1024 dzień, zdobywając dziesięć głów z rzędu , niż że król wyciągnął niesprawiedliwą monetę.
Nie jest to więc dobry pomysł dla dworzan i kurtyzanów! Ponieważ po wyciągnięciu nieuczciwej monety cały pokój (wszystkie 100 osób) będzie zły i wszyscy zostaną ścięci.
W świecie, w którym najważniejszą rzeczą są fałszywe trafienia, potrzebujemy absolutnej gwarancji, że odsetek fałszywych trafień będzie mniejszy niż 5%, bez względu na to, która moneta zostanie wylosowana. Następnie musimy użyć przedziału ufności, takiego jak Blyth-Still-Casella lub Clopper-Pearson, który działa i zapewnia co najmniej 95% pokrycia, niezależnie od prawdziwej wartości parametru, nawet w najgorszym przypadku . Jeśli wszyscy zastosują tę metodę zamiast tego, bez względu na to, która moneta zostanie wylosowana, na koniec dnia możemy zagwarantować, że spodziewana liczba niewłaściwych osób nie będzie większa niż pięć.
Tak więc chodzi o to: jeśli twoje kryterium wymaga ograniczenia fałszywych trafień (lub równoważnie, gwarantując pokrycie), musisz przejść z przedziałem ufności. Tak robią. Przedziały wiarygodności mogą być bardziej intuicyjnym sposobem wyrażania niepewności, mogą całkiem dobrze radzić sobie z częstymi analizami, ale nie zapewnią gwarantowanego ograniczenia fałszywych alarmów, które dostaniesz, gdy idziesz o to poprosić.
(Oczywiście, jeśli troszczysz się również o fałszywe negatywy, będziesz potrzebować metody, która gwarantuje również te ...)
źródło
Bernardo zaproponował „referencję przed”, która ma być stosowana jako standard komunikacji naukowej [a nawet „referencyjny wiarygodny przedział” ( Bernardo - obiektywne wiarygodne regiony )]. Zakładając, że jest to „bayesowskie” podejście, teraz pytanie brzmi: kiedy przedział jest lepszy od drugiego? Częstotliwościowe przedziały bayesowskie nie zawsze są optymalne, ale nie są też własności bayesowskie „częstego” przedziału częstokształtnego
(a propos, jaki jest „przedział częstościowy”?)
źródło