Kiedy przydatne są przedziały ufności?

30

Jeśli dobrze rozumiem, przedział ufności parametru to przedział skonstruowany metodą, która daje przedziały zawierające prawdziwą wartość dla określonej proporcji próbek. „Pewność” dotyczy więc metody, a nie przedziału, który obliczam na podstawie konkretnej próbki.

Jako użytkownik statystyk zawsze czułem się przez to oszukany, ponieważ przestrzeń wszystkich próbek jest hipotetyczna. Mam tylko jedną próbkę i chcę wiedzieć, co ta próbka mówi mi o parametrze.

Czy ten wyrok jest błędny? Czy istnieją sposoby spojrzenia na przedziały ufności, przynajmniej w niektórych okolicznościach, które byłyby przydatne dla użytkowników statystyk?

[To pytanie powstaje z drugiej myśli po obaleniu przedziałów ufności w matematyce. Odpowiedź https://math.stackexchange.com/questions/7564/calculating-a-sample-size-based-on-a-confidence-level/7572 # 7572 ]

Jyotirmoy Bhattacharya
źródło

Odpowiedzi:

15

Lubię myśleć o CI jako o pewnym sposobie ucieczki od frameworku Testowania Hipotez (HT), przynajmniej binarnego frameworku decyzyjnego zgodnego z podejściem Neymana , i w pewien sposób zachowuję zgodność z teorią pomiaru. Dokładniej, uważam je za bardziej zbliżone do wiarygodności oszacowania (na przykład różnica środków), a odwrotnie, HT są bardziej zbliżone do hipotetyczno-dedukcyjnego wnioskowania z jego pułapkami (nie możemy zaakceptować wartości zerowej, alternatywą jest często stochastyczne itp.). Mimo to, zarówno przy szacowaniu przedziałów, jak i HT, musimy w większości przypadków opierać się na założeniach dotyczących rozkładu (np. Rozkład próbkowania pod ), co pozwala wnioskować z naszej próby do populacji ogólnej lub reprezentatywnej (przynajmniej u częstych podejście).H0

W wielu kontekstach elementy CI są komplementarne do zwykłego HT i widzę je jak na poniższym obrazku (poniżej ):H0

alternatywny tekst

to znaczy, w ramach HT (po lewej) patrzysz, jak daleko twoja statystyka jest od zera, podczas gdy z CI (po prawej) patrzysz na efekt zerowy „ze swojej statystyki”, w pewnym sensie.

Należy również zauważyć, że dla niektórych rodzajów statystyki, takich jak iloraz szans, HT często są bez znaczenia i lepiej jest spojrzeć na związany z nim CI, który jest asymetryczny i dostarczyć bardziej istotnych informacji na temat kierunku i precyzji powiązania, jeśli takie istnieją.

chl
źródło
Dlaczego według ciebie testy hipotez są często pozbawione znaczenia dla ilorazów szans, bardziej niż jakikolwiek inny wynik szacunkowy? Zamiast tego podkreśliłbym, że przedziały ufności są bardziej przydatne niż standardowe błędy dla ilorazów szans i innych oszacowań z asymetrycznymi rozkładami próbkowania w próbkach skończonych.
onestop
@onestop Cóż, częściowo myślałem o tym, co mówisz o „asymetrycznych rozkładach próbkowania ...” (i wydaje się, że nie byłem tak jasny), ale także o tym, że w badaniach epidemiologicznych jesteśmy najbardziej zainteresowani CI (że to, jak precyzyjna jest nasza ocena) niż HT.
chl
+1. To przypomina mi, że używam twoich skryptów do nauki asymptoty, wskakując i zmieniając różne rzeczy, próbując różnych rzeczy. Jeszcze raz dziękuję za to, bardzo pomocne, aby zacząć.
ars
@ars Właściwie wydaje mi się, że to zdjęcie zostało zrobione za pomocą PStricks. W każdym razie dobrym punktem wyjścia dla Asymptote jest piprime.fr/asymptote .
chl
@chl, to może być nie na temat, ale czy możesz mi powiedzieć, czy wykonałeś te wykresy w R?
suncoolsu,
7

Alternatywne podejście dotyczące drugiego pytania: „Czy istnieją sposoby spojrzenia na przedziały ufności, przynajmniej w niektórych okolicznościach, które byłyby przydatne dla użytkowników statystyk?”:

Powinieneś spojrzeć na wnioskowanie bayesowskie i wynikające z tego wiarygodne odstępy czasu . 95% wiarygodny przedział można interpretować jako przedział, który Twoim zdaniem ma 95% prawdopodobieństwa włączenia prawdziwej wartości parametru. Cena, którą płacisz, polega na tym, że musisz ustalić wcześniejszy rozkład prawdopodobieństwa dla wartości, które według ciebie prawdopodobnie przyjmie prawdziwy parametr przed zebraniem danych. A swoją przed mogą różnić się od kogoś innego przed, dzięki czemu uzyskane wiarygodne przedziały mogą także różnić się nawet podczas korzystania z tych samych danych.

To tylko moja szybka i prymitywna próba podsumowania! Dobry niedawny podręcznik z praktycznym naciskiem to:

Andrew Gelman, John B. Carlin, Hal S. Stern i Donald B. Rubin. „Analiza danych bayesowskich” (wydanie drugie). Chapman & Hall / CRC, 2003. ISBN 978-1584883883

jeden przystanek
źródło
Dzięki. Ale co konkretnie z częstymi przedziałami ufności? Czy są jakieś okoliczności, w których byłyby istotne?
Jyotirmoy Bhattacharya
Uważam, że posiadanie różnych priorytetów nie stanowi problemu (przynajmniej z obiektywnego Bayesowskiego punktu widzenia), jeśli zdarzy się, że masz inną wiedzę na temat danej sytuacji. Zależało nam na tym, aby uznać priory za sposób na przekazanie naszych informacji a priori. Wiem, że to nie jest proste ...
teucer
@Jyotirmoy O podejściach bayesowskich vs. częstych, interesujące uwagi zostały tutaj: stats.stackexchange.com/questions/1611/…
chl
6

Myślę, że przesłanka tego pytania jest błędna, ponieważ zaprzecza rozróżnieniu między niepewnym a znanym .

Opisanie rzutu monetą stanowi dobrą analogię. Przed rzutem monety wynik jest niepewny; potem nie jest już „hipotetyczny”. Mylenie tego faktu z rzeczywistą sytuacją, którą chcemy zrozumieć (zachowanie monety lub decyzje, które należy podjąć w wyniku jej wyniku) zasadniczo zaprzecza roli prawdopodobieństwa w zrozumieniu świata.

Kontrast ten rzuca się z wyraźną ulgą na arenie eksperymentalnej lub regulacyjnej. W takich przypadkach naukowiec lub organ regulacyjny wiedzą, że staną w obliczu sytuacji, których wyniki w dowolnym momencie są nieznane, ale muszą dokonać ważnych ustaleń, takich jak sposób zaprojektowania eksperymentu lub ustalenia kryteriów, które należy zastosować przy określaniu zgodności z przepisami (w zakresie testowania narkotyków, bezpieczeństwa w miejscu pracy, norm środowiskowych itp.). Ci ludzie i instytucje, dla których pracują, potrzebują metod i wiedzy na temat probabilistycznych cech tych metod , aby opracować optymalne i możliwe do obrony strategie, takie jak dobre projekty eksperymentalne i uczciwe procedury decyzyjne, które jak najmniej popełniają błędy.

Przedziały ufności, pomimo ich klasycznie słabego uzasadnienia, mieszczą się w tych teoretycznych ramach decyzyjnych. Gdy metoda konstruowania losowego przedziału ma kombinację dobrych właściwości, takich jak zapewnienie minimalnego oczekiwanego pokrycia przedziału i minimalizowanie oczekiwanej długości przedziału - obie właściwości a priori , a nie a posteriori - to ponad długą karierę w stosowaniu tej metody możemy zminimalizować koszty związane z działaniami wskazywanymi przez tę metodę.

Whuber
źródło
Podaj przykład użycia przedziału ufności do podjęcia decyzji. Albo jeszcze lepiej porównaj dwa przedziały ufności i sposób, w jaki podejmowałbyś różne decyzje dla każdego z nich, zachowując przy tym całkowicie ramy częstych.
BrainPermafrost
@Brain Wszelkie podręczniki statystyk wprowadzających dostarczą takich przykładów. Jednym z bezwzględnie częstych jest Freedman, Pisani i Purves, Statistics (dowolne wydanie).
whuber
6

Masz rację mówiąc, że 95% przedziały ufności to rzeczy, które wynikają z zastosowania metody, która działa w 95% przypadków, a nie jakikolwiek pojedynczy przedział mający 95% prawdopodobieństwo zawarcia oczekiwanej wartości.

„Logiczna podstawa i interpretacja granic zaufania są, nawet teraz, kwestią kontrowersyjną”. {David Colquhoun, 1971, Lectures on Biostatistics}

Cytat ten pochodzi z podręcznika statystycznego opublikowanego w 1971 r., Ale twierdzę, że nadal jest to prawdą w 2010 r. Kontrowersja jest prawdopodobnie najbardziej ekstremalna w przypadku przedziałów ufności dla proporcji dwumianowych. Istnieje wiele konkurencyjnych metod obliczania tych przedziałów ufności, ale wszystkie one są niedokładne w jednym lub większej liczbie zmysłów, a nawet najgorsza metoda ma zwolenników wśród autorów podręczników. Nawet tak zwane przedziały „dokładne” nie dają oczekiwanych właściwości przedziałów ufności.

W artykule napisanym dla chirurgów (powszechnie znanym z zainteresowania statystykami) John i Ludbrook argumentowali za rutynowym stosowaniem przedziałów ufności obliczonych przy użyciu jednolitego Bayesa wcześniej, ponieważ takie przedziały mają właściwości częstokształtne tak dobre jak każda inna metoda (średnio dokładnie 95% pokrycia we wszystkich prawdziwych proporcjach), ale, co ważne, znacznie lepszy zasięg we wszystkich zaobserwowanych proporcjach (dokładnie 95% pokrycia). Artykuł, ze względu na grupę docelową, nie jest zbyt szczegółowy i dlatego może nie przekonać wszystkich statystyk, ale pracuję nad dokumentem uzupełniającym z pełnym zestawem wyników i uzasadnień.

Jest to przypadek, w którym podejście bayesowskie ma właściwości częstokroć tak dobre jak podejście częstokroć, co zdarza się dość często. Założenie jednolitego przeora nie jest problematyczne, ponieważ równomierny rozkład proporcji populacji jest wbudowany w każde obliczenie częstego pokrycia, z jakim się spotkałem.

Pytasz: „Czy istnieją sposoby spojrzenia na przedziały ufności, przynajmniej w niektórych okolicznościach, które byłyby przydatne dla użytkowników statystyk?” Moja odpowiedź brzmi zatem, że dla dwumianowych przedziałów ufności można uzyskać przedziały, które zawierają odsetek populacji dokładnie w 95% przypadków dla wszystkich zaobserwowanych proporcji. To jest tak. Jednak konwencjonalne stosowanie przedziałów ufności oczekuje zasięgu dla wszystkich proporcji populacji i dlatego odpowiedź brzmi „Nie!”

Długość odpowiedzi na twoje pytanie i różne odpowiedzi na nie sugerują, że przedziały ufności są powszechnie źle rozumiane. Jeśli zmienimy nasz cel z pokrycia dla wszystkich prawdziwych wartości parametrów na pokrycie prawdziwej wartości parametru dla wszystkich wartości próbek, może to być łatwiejsze, ponieważ interwały zostaną wówczas ukształtowane tak, aby były bezpośrednio związane z obserwowanymi wartościami, a nie z wydajnością metoda per se.

Michael Lew
źródło
5

To świetna dyskusja. Uważam, że należy postępować zgodnie z wiarygodnymi przedziałami bayesowskimi i przedziałami wsparcia prawdopodobieństwa, a także późniejszymi prawdopodobieństwami interesujących zdarzeń bayesowskich (np. Skuteczny jest lek). Ale zastąpienie wartości P za pomocą przedziałów ufności jest dużym zyskiem. Praktycznie w każdym wydaniu najlepszych czasopism medycznych, takich jak NEJM i JAMA, w ich streszczeniach znajduje się artykuł o „braku dowodów nie jest dowodem nieobecności”. Zastosowanie przedziałów ufności w dużej mierze zapobiegnie takim błędom. Świetny mały tekst to http://www.amazon.com/Statistics-Confidence-Intervals-Statistic-Guidelines/dp/0727913751

Frank Harrell
źródło
3

Aby odpowiedzieć bezpośrednio na twoje pytanie: Załóżmy, że zastanawiasz się nad użyciem maszyny do napełnienia skrzynki zbożowej pewną ilością płatków. Oczywiście nie chcesz przepełniać / wypełniać pola. Chcesz ocenić niezawodność maszyny. Wykonujesz serię testów takich jak: (a) Użyj maszyny do wypełnienia pudełka i (b) Zmierz ilość płatków zbożowych, które są wypełnione w pudełku.

Korzystając z zebranych danych, konstruujesz przedział ufności dla ilości zbóż, które maszyna może wypełnić w polu. Ten przedział ufności mówi nam, że uzyskany przedział ma 95% prawdopodobieństwo, że będzie zawierał prawdziwą ilość zbóż, które maszyna umieści w pudełku. Jak mówisz, interpretacja przedziału ufności opiera się na hipotetycznych, niewidzialnych próbkach wygenerowanych przez rozważaną metodę. Ale właśnie tego chcemy w naszym kontekście. W powyższym kontekście, będziemy używać maszyny wielokrotnie wypełnić pola, a tym samym dbamy o hipotetycznych, niewidocznych realizacjami ilości zboża te wypełnia urządzenie w pudełku.

Abstrahując od powyższego kontekstu: przedział ufności daje nam gwarancję, że jeśli będziemy wielokrotnie używać badanej metody (w powyższym przykładzie metoda = maszyna), istnieje 95% prawdopodobieństwo, że przedział ufności będzie miał prawdziwy parametr .


źródło
2
@Srikant. Nie! Tak gryzą klasyczne CI. Załóżmy dla uproszczenia, że ​​ilość płatków zbożowych wypełnionych w pudełku jest normalna ze średnią i wariancją . Przedział ufności opiera się na innym rozkładzie próbkowania . Konkretny CI może być daleki od błędów próbkowania, a wtedy nie będzie miał związku z wydajnością maszyny. Jeśli wielokrotnie próbujesz i tworzysz CI, to 95% z nich miałoby rację, ale to nie pociecha. σ 2 μμσ2μ
Jyotirmoy Bhattacharya
1
@Jyotirmoy Oczywiście, konkretny element CI może być oderwany. Innymi słowy, istnieje 5% szans, że CI nie zawiera prawdziwej wartości. Niemniej jednak podana przeze mnie interpretacja jest spójna z faktyczną budową elementów CI. Wyobrażamy sobie, że używamy tej metody wielokrotnie i konstruujemy CI tak, aby prawdopodobieństwo, że obserwowany CI zawiera prawdziwą wartość, wynosi 0,95. Zauważ, że moja odpowiedź nie mówi nic o prawdopodobieństwie, gdzie faktycznie leży prawdziwa wartość, ponieważ jest to stwierdzenie, które można sformułować tylko w wiarygodnych przedziałach, a nie przedziałach ufności.
1
@ Dolne / górne granice Jyotirmoy dla % CI obserwowanej średniej są konstruowane pod , gdzie rozkład próbkowania średniej (lub różnicy średnich) to taki, który zakładano w zależności od próbki ( lub dystrybucja ). Uznałem, że odpowiedź Srikanta jest poprawna, a jego interpretacja nie wykracza poza ramy eksperymentu. CI są zmiennymi losowymi. H 0 t z(100α)H0tz
chl
@Srikant. Być może źle zrozumiałem „method = machine” w odpowiedzi. Myślałem, że mówisz, że 95% wszystkich skrzynek wychodzących z linii montażowej będzie miało ciężary w przedziale ufności 95% uzyskanym z konkretnej próbki skrzynek.
Jyotirmoy Bhattacharya