Czy wszystkie wartości w 95% przedziale ufności są równie prawdopodobne?

56

Znalazłem niezgodne informacje na pytanie: „ Jeśli ktoś konstruuje 95% przedział ufności (CI) różnicy średnich lub różnicy proporcji, czy wszystkie wartości w CI są jednakowo prawdopodobne? Czy też oszacowanie punktowe jest najbardziej prawdopodobne , z wartościami zbliżonymi do „ogonów” CI mniej prawdopodobne niż wartości w środku CI?

Na przykład, jeśli w randomizowanym raporcie z badania klinicznego stwierdzono, że względne ryzyko zgonu w przypadku konkretnego leczenia wynosi 1,06 (95% CI 0,96 do 1,18), czy prawdopodobieństwo, że 0,96 jest prawidłową wartością, jest równe 1,06?

Znalazłem wiele odniesień do tej koncepcji w Internecie, ale następujące dwa przykłady odzwierciedlają jej niepewność:

  1. Moduł Lisy Sullivan o przedziałach ufności stwierdza:

    Przedziały ufności dla różnicy średnich zapewniają zakres prawdopodobnych wartości dla ( ). Należy zauważyć, że wszystkie wartości w przedziale ufności są równie prawdopodobnymi szacunkami prawdziwej wartości ( μ_1-μ_2 ).μ1μ2μ1μ2

  2. Ten blog zatytułowany „Margines błędu” stanowi:

    Mam na myśli nieporozumienie dotyczące „marginesu błędu”, który traktuje wszystkie punkty w przedziale ufności jako równie prawdopodobne, tak jakby centralne twierdzenie graniczne sugerowało ograniczony rozkład jednorodny zamiast rozkładu t . [...]
    To, co mówi o „marginesie błędu”, to fakt, że możliwości bliskie oszacowaniu punktowemu są znacznie bardziej prawdopodobne niż możliwości, które znajdują się na skraju marginesu ”.

Wydają się one sprzeczne, więc co jest poprawne?

pmgjones
źródło
7
Zastanawiam się, czy nie ma gdzieś z zamieszania związanego z koncepcją, że wartości p są równomiernie rozłożone pod hipotezy zerowej ..
Michael McGowan
4
Pierwszy cytat to niepoprawny poślizg w skądinąd dokładnym rachunku przedziałów ufności. Drugi cytat pochodzi z konta, które, ujmując to ładnie, jest niechlujnym bałaganem: jest pełne stwierdzeń, które są niejasne, niepoprawne lub mogą być interpretowane tylko w sensie bayesowskim. Ale oba cytaty są błędne !
whuber
@ Whuber Nie nazwałbym drugiego bałaganem ... Nazwałbym go Bayesowską interpretacją interpretacji częstokroć :)
Michael McGowan
1
@Michael Jednym z przykładów niechlujstwa jest solekizm, taki jak twierdzenie, że CLT implikuje, że „nieskończona liczba powtarzanych oszacowań średniej [populacji] nadal będzie miała normalny rozkład”. Nie trzeba się mylić , aby przekazywać pomysły po prostu nietechnicznej publiczności.
whuber
2
@ Whuber, uważam, że przytaczane zdanie jest tylko drobnym grzechem. Głównym błędem jest to, że CLT nie obejmuje t dystrybucji.
szklisty

Odpowiedzi:

23

Należy odpowiedzieć na jedno pytanie: co w tym kontekście oznacza „prawdopodobne”?

Jeśli oznacza to prawdopodobieństwo (ponieważ jest czasami używane jako synonim), a my używamy ścisłych definicji częstokroć, wówczas prawdziwa wartość parametru to pojedyncza wartość, która się nie zmienia, więc prawdopodobieństwo (prawdopodobieństwo) tego punktu wynosi 100% i wszystkie inne wartości wynoszą 0%. Tak więc prawie wszystkie są jednakowo prawdopodobne przy 0%, ale jeśli przedział zawiera prawdziwą wartość, to różni się od innych.

Jeśli zastosujemy podejście bayesowskie, wówczas CI (przedział wiarygodności) pochodzi z rozkładu tylnego i można porównać prawdopodobieństwo w różnych punktach w tym przedziale. O ile tył nie jest idealnie równomierny w przedziale (teoretycznie możliwe, ale byłoby to dziwne okoliczności), wówczas wartości mają różne prawdopodobieństwa.

Jeśli użyjemy prawdopodobnie podobnego do ufności, pomyśl o tym w ten sposób: Oblicz 95% przedział ufności, 90% przedział ufności i 85% przedział ufności. Bylibyśmy 5% pewni, że prawdziwa wartość leży w regionie wewnątrz przedziału 95%, ale poza przedziałem 90%, możemy powiedzieć, że prawdziwa wartość prawdopodobnie spadnie w tym regionie o 5%. To samo dotyczy regionu, który znajduje się w przedziale 90%, ale poza przedziałem 85%. Więc jeśli każda wartość jest jednakowo prawdopodobna, wówczas rozmiar powyższych 2 regionów musiałby być dokładnie taki sam i to samo dotyczyłoby regionu wewnątrz 10% przedziału ufności, ale poza 5% przedziałem ufności. Żadna ze standardowych rozkładów, przy użyciu których tworzone są interwały, nie ma tej właściwości (oprócz specjalnych przypadków z 1 losowaniem z munduru).

Możesz to dodatkowo udowodnić, symulując dużą liczbę zestawów danych ze znanych populacji, obliczając interesujący przedział ufności, a następnie porównując, jak często prawdziwy parametr jest bliżej oszacowania punktu niż każdego z punktów końcowych.

Greg Snow
źródło
3
Prawdopodobieństwo to jest tym, czego potrzebuje to pytanie w odpowiedzi, a nie prawdopodobieństwo, czy to częsty, czy bayesowski. Prawdopodobieństwo daje dokładnie odpowiedź, inni mogą to zrobić tylko z pewnym skręceniem i rozciągnięciem.
Michael Lew
1
@Greg Podoba mi się twoje wyjaśnienie. Dla jasności, twój argument popiera pogląd, że wartości w „ogonach” 95% CI są mniej prawdopodobne (mniej prawdopodobne) niż te bliższe oszacowaniu punktowemu, prawda? Dzięki za twoją odpowiedź.
pmgjones
1
@pmgjones mniej prawdopodobne, NIE, patrz akapit drugi. Mniej prawdopodobne w kontekście czwartego akapitu, tak.
Greg Snow,
2
@GregSnow Twój drugi akapit mówi prawie dokładnie, że prawdopodobieństwo, że prawdziwy parametr będzie prawdziwym parametrem, wynosi 100%. Czy naprawdę wierzysz, że ta tautologia jest tym, co oferują „ścisłe definicje częstokroć”?
rolando2
2
@ rolando2, myślę, że statystyki częstokroć mają wiele do zaoferowania. Właśnie eliminowałem typowe zniekształcenia, które sugerują prawdziwe zmiany wartości, a czasami są poza przedziałem, a czasem w przedziale (a czasem bliżej granic, a czasem bliżej środek). Późniejsze akapity odnoszą się do prawdziwych pomysłów.
Greg Snow
19

To świetne pytanie! Istnieje matematyczna koncepcja zwana prawdopodobieństwem, która pomoże ci zrozumieć problemy. Fisher wynalazł prawdopodobieństwo, ale uznał je za nieco mniej pożądane niż prawdopodobieństwo, ale prawdopodobieństwo okazuje się bardziej „prymitywne” niż prawdopodobieństwo, a Ian Hacking (1965) uznał je za aksjomatyczne, ponieważ nie jest możliwe do udowodnienia. Prawdopodobieństwo leży u podstaw prawdopodobieństwa, a nie odwrotnie.

Hacking, 1965. Logika wnioskowania statystycznego .

Prawdopodobieństwo nie jest zwracane na uwagę w standardowych podręcznikach statystyki bez uzasadnionego powodu. Różni się od prawdopodobieństwa posiadania prawie dokładnie takich właściwości, jakich można by się spodziewać, a funkcje prawdopodobieństwa i przedziały są bardzo przydatne do wnioskowania. Być może niektórzy statystycy nie lubią prawdopodobieństwa, ponieważ czasami nie ma „właściwego” sposobu uzyskania odpowiednich funkcji prawdopodobieństwa. Jednak w wielu przypadkach funkcje prawdopodobieństwa są oczywiste i dobrze zdefiniowane. Badanie prawdopodobieństwa wnioskowania powinno prawdopodobnie rozpocząć się od małej i łatwej do zrozumienia książki Richarda Royalla, zatytułowanej „ Dowody statystyczne: paradygmat prawdopodobieństwa” .

Odpowiedź na twoje pytanie brzmi: nie, punkty w dowolnym przedziale nie mają tego samego prawdopodobieństwa. Te na krawędziach przedziału ufności mają zwykle mniejsze prawdopodobieństwo niż inne w kierunku środka przedziału. Oczywiście konwencjonalny przedział ufności nie mówi nic bezpośrednio o parametrze istotnym dla konkretnego eksperymentu. Przedziały ufności Neymana są „globalne”, ponieważ mają długoterminowe właściwości, a nie „lokalne” właściwości istotne dla danego eksperymentu. (Na szczęście dobre wyniki długoterminowe można interpretować lokalnie, ale jest to raczej skrót intelektualny niż rzeczywistość matematyczna). Przedziały prawdopodobieństwa - w przypadkach, w których można je zbudować - bezpośrednio odzwierciedlają prawdopodobieństwo powiązania eksperymentu.

Michael Lew
źródło
1
@ suncoolsu Nie jest konieczne, aby dany przedział był przedziałem prawdopodobieństwa, aby stwierdzenie było prawdziwe. Przedział musi obejmować tylko najbardziej prawdopodobne oszacowanie, aby granice przedziału były mniej prawdopodobne niż punkt w przedziale. Każdy zwykły przedział ufności spełni ten wymóg.
Michael Lew
2
@pmjones 95% CI NIE PODKREŚLA, czy wartości w kierunku marginesów CI są bliższe prawdy niż wartości pośrodku. CI składają oświadczenia na temat powtarzalnego pobierania próbek z populacji. W dłuższej perspektywie (tj. Po wielokrotnym pobieraniu próbek) 95% takich CI, które są zbudowane dla każdej próbki, obejmie prawdziwą wartość. Dlatego istnieją dwie kluczowe obserwacje: 1) Nie można powiedzieć nic o prawdziwej wartości dla danego CI 2) CI nie mówią nic o obserwowanych danych, co jest zwykłą krytyką bayesowską.
suncoolsu
1
@MichaelLew Zasada wiarygodności jest przydatna, ale mówiłem, że (cytując LW) „Rzeczywiście, wszystkie wnioskowania częstokroć naruszają LP, więc jeśli zastosowalibyśmy się do LP, musielibyśmy zrezygnować z wnioskowania częstych”. Ponieważ CI jest pomysłem częstym, narusza LP (co, jak mówisz, jest fundamentalne).
suncoolsu
1
@ suncollsu Pytanie nie dotyczy tego, czy sam przedział ufności i bez innych rozważań statystycznych mówi cokolwiek o prawdopodobieństwie wartości parametrów w sobie. Chodzi o prawdopodobieństwo wartości parametrów w danym przedziale. Funkcja prawdopodobieństwa odpowiada na pytanie i ta odpowiedź jest poprawna, nawet jeśli przedział ufności narusza zasadę prawdopodobieństwa. (Przeczytaj jeszcze raz mój poprzedni komentarz. Wygląda na to, że całkowicie zignorowałeś jego treść.)
Michael Lew
2
@ rolando2 95% przedziały ufności Neymana są zaprojektowane tak, aby metoda zawierała prawdziwy parametr w 95% przypadków, gdy metoda jest używana. Ściśle mówiąc, pewność odnosi się do metody, a nie do pojedynczego przedziału, a zatem indywidualny przedział nie mówi nic o stanie świata w tym konkretnym eksperymencie. Aby uzyskać więcej informacji, zobacz moją odpowiedź na to pytanie: stats.stackexchange.com/questions/8844/…
Michael Lew
18

Załóżmy, że ktoś mi powiedział, że powinienem pokładać równe zaufanie we wszystkich wartościach w CI95 jako potencjalnych wskaźnikach wartości populacji. (Celowo unikam określeń „prawdopodobne” i „prawdopodobne”). Co jest specjalnego w 95? Nic: aby zachować spójność, musiałbym pokładać równe zaufanie we wszystkich wartościach w CI96, CI97, ... i CI99.9999999. Ponieważ zasięg CI zbliżył się do limitu, praktycznie wszystkie liczby rzeczywiste musiałyby zostać uwzględnione. Niedorzeczność tego wniosku doprowadziłaby mnie do odrzucenia pierwotnego twierdzenia.

rolando2
źródło
4
To świetna odpowiedź! Powinienem był pomyśleć o efekcie zbliżania się do skrajności możliwych CI. Dziękuję za napisanie tego!
pmgjones
2

Zacznijmy od definicji przedziału ufności. Jeśli powiem, że 95% przedział ufności przechodzi od tego do tego, mam na myśli, że stwierdzenia tego rodzaju będą prawdziwe w 95% przypadków, a fałszywe w 5% przypadków. Mam nie musi oznaczać, że jestem w 95% przekonany o tym konkretnym stwierdzeniem. Przedział ufności 90% będzie węższy, a jeszcze 80% węższy. Dlatego zastanawiając się, jaka jest prawdziwa wartość, mam mniejszą wiarę w wartości, ponieważ zbliżają się one coraz bardziej do krawędzi określonego przedziału ufności.

Pamiętaj, że wszystkie powyższe mają charakter jakościowy, szczególnie „wiarygodność”. (Unikałem określenia „pewność” lub „prawdopodobieństwo” w tym stwierdzeniu, ponieważ niosą one bagaż matematyczny, który może różnić się od naszego intuicyjnego bagażu). Podejścia Bayesa sformułują twoje pytanie na coś, co ma ilościową odpowiedź, ale nie chcę otwierać puszka robaków tutaj.

Pomocny może być również tekst Box, Hunter & Hunter („Statistics for Experimenters”, Wiley, 1978). Patrz „Zestawy przedziałów ufności” na s. 113, str.

Emil Friedman
źródło
Ponieważ mamy do czynienia częściowo z pojęciami, a częściowo z semantyką, zwrócę uwagę na to, że w drugim zdaniu powiedziałeś „... stwierdzenia tego rodzaju będą prawdziwe ...” bez sprecyzowania, które stwierdzenia byłyby prawdziwe.
rolando2