Z grubsza i nieformalnie wiem, jaki jest przedział ufności. Wydaje mi się jednak, że nie mogę owinąć głowy jednym ważnym punktem: według Wikipedii:
Przedział ufności nie przewiduje, że prawdziwa wartość parametru ma szczególne prawdopodobieństwo, że znajdzie się w przedziale ufności, biorąc pod uwagę faktycznie uzyskane dane.
Widziałem również podobne uwagi poczynione w kilku miejscach na tej stronie. Bardziej poprawna definicja, również z Wikipedii, to:
jeżeli przedziały ufności są konstruowane na podstawie wielu oddzielnych analiz danych z powtarzanych (i być może różnych) eksperymentów, proporcja takich przedziałów, które zawierają prawdziwą wartość parametru, będzie w przybliżeniu odpowiadać poziomowi ufności
Znów widziałem podobne punkty poczynione w kilku miejscach na tej stronie. Nie rozumiem Jeśli w powtarzanych eksperymentach ułamek obliczonych przedziałów ufności, który zawiera prawdziwy parametr wynosi , to w jaki sposób prawdopodobieństwo, że jest w przedziale ufności obliczonym dla rzeczywistego eksperymentu, może być inne niż ? W odpowiedzi szukam następujących informacji:
Wyjaśnienie rozróżnienia między niepoprawnymi i poprawnymi definicjami powyżej.
Formalna, precyzyjna definicja przedziału ufności, która wyraźnie pokazuje, dlaczego pierwsza definicja jest błędna.
Konkretny przykład przypadku, w którym pierwsza definicja jest spektakularnie błędna, nawet jeśli podstawowy model jest poprawny.
źródło
mu
, i B) zmienność średnich replikacji wokółmu
. Większość ludzi zapomina: oryginalny CI nie jest koniecznie konstruowanymu
!Odpowiedzi:
Uważam, że ten eksperyment myślowy był pomocny przy myśleniu o przedziałach ufności. Odpowiada również na twoje pytanie 3.
Niech i Y = X + a - 1X∼U(0,1) . Rozważmy dwie obserwacjeYprzyjmując wartościY1iY2odpowiada obserwacjomx1orazx2zXi pozwolićyl=min(Y1,Y2)iRU=max(Y1,Y2). Zatem[yl,yu]to 50% przedział ufności dlaY=X+a−12 Y y1 y2 x1 x2 X yl=min(y1,y2) yu=max(y1,y2) [yl,yu] za (ponieważ przedział zawiera jeśli x 1 < 1za lubx1>1x1< 12)< x2) , z których każdy ma prawdopodobieństwo1x1> 12)> x2) 14 ).
Jednakże, jeśli to wiemy, że prawdopodobieństwo, że przedział zawieraa,wynosi1, a nie1yu- yl> 12) za 1 . Subtelność jest to, żez%przedział ufności dla parametru oznacza, że punkty końcowe przedziału (które są zmiennymi losowymi) leżą po obu stronach parametru z prawdopodobieństwemoo%przed obliczyć przedział, a nie że prawdopodobieństwo parametru leżący w granicach interwał wynosiz%po obliczeniu interwału.12) z% z% z%
źródło
Istnieje wiele kwestii dotyczących przedziałów ufności, ale skupmy się na cytatach. Problem polega na możliwych błędnych interpretacjach, a nie na poprawności. Kiedy ludzie mówią, że „parametr ma szczególne prawdopodobieństwo” czegoś, myślą o tym parametrze jako zmiennej losowej. Nie jest to punkt widzenia (klasycznej) procedury przedziału ufności, dla której zmienna losowa jest samym przedziałem, a parametr jest określony, nie losowy, ale nieznany. Dlatego takie oświadczenia są często atakowane.
Matematycznie, jeśli pozwolimy dowolnej procedurze, która odwzorowuje dane x = ( x i ) na podzbiory przestrzeni parametrów i jeśli (bez względu na wartość parametru θ ) twierdzenie θ ∈ t ( x ) definiuje zdarzenie A ( x ) , a następnie - z definicji - ma prawdopodobieństwo Pr θ ( A ( x ) ) dla dowolnej możliwej wartości θ . Gdy t jest procedurą przedziału ufności z pewnością 1t x=(xi) θ θ∈t(x) A(x) Prθ(A(x)) θ t . (Z zastrzeżeniem tego kryterium, zwykle wybieramy procedury, które optymalizują pewne dodatkowe właściwości, takie jak tworzenie krótkich przedziałów ufności lub symetrycznych, ale to osobna sprawa.) Słabe prawo dużych liczb uzasadnia następnie drugą ofertę. Nie jest to jednak definicja przedziałów ufności: jest to tylko ich własność.1−α wówczas prawdopodobieństwo to powinno mieć minimum (ponad wszystkie wartości parametrów) 1−α
Myślę, że ta analiza odpowiedziała na pytanie 1, pokazuje, że przesłanka pytania 2 jest niepoprawna i sprawia, że pytanie 3 jest dyskusyjne.
źródło
Nie nazwałbym definicji elementów zbiorczych za błędną, ale łatwo je zinterpretować, ponieważ istnieje więcej niż jedna definicja prawdopodobieństwa. CI opierają się na następującej definicji prawdopodobieństwa (częste lub ontologiczne)
(1) prawdopodobieństwo zdania = długi okres, w którym stwierdzenie jest prawdziwe, zależnie od procesu generowania danych
Dlatego, aby być koncepcyjnie poprawnym w używaniu CI, musisz zaakceptować tę definicję prawdopodobieństwa. Jeśli nie, to z teoretycznego punktu widzenia przedział nie jest CI.
Dlatego w definicji użyto proporcji słowa, a NIE słowa prawdopodobieństwa , aby wyjaśnić, że stosowana jest definicja prawdopodobieństwa „długofalowej częstotliwości”.
Główną alternatywną definicją prawdopodobieństwa (epistemologiczna lub prawdopodobieństwo jako rozszerzenie logiki dedukcyjnej lub bayesowskiej) jest
(2) prawdopodobieństwo zdania = racjonalny stopień przekonania, że zdanie jest prawdziwe, uwarunkowane stanem wiedzy
Ludzie często intuicyjnie mieszają obie te definicje i używają dowolnej interpretacji, która przypadnie im do gustu. Może to doprowadzić cię do różnego rodzaju mylących sytuacji (szczególnie gdy przechodzisz od jednego paradygmatu do drugiego).
To, że oba podejścia często prowadzą do tego samego rezultatu, oznacza, że w niektórych przypadkach mamy:
racjonalny stopień przekonania, że twierdzenie jest prawdziwe, uwarunkowane stanem wiedzy = długookresowy odsetek przypadków, gdy twierdzenie jest prawdziwe, zależne od procesu generowania danych
Chodzi o to, że nie ma uniwersalnego charakteru , więc nie możemy oczekiwać, że dwie różne definicje zawsze będą prowadziły do tych samych wyników. Tak więc, chyba że faktycznie opracujesz rozwiązanie bayesowskie, a nie okaże się, że jest to ten sam interwał, nie możesz podać interwałowi podanemu przez CI jako interpretację prawdopodobieństwa zawierającego prawdziwą wartość. A jeśli tak, to przedział ten nie jest przedziałem ufności, ale przedziałem wiarygodności.
źródło
RA Fisher miał kryterium przydatności przedziałów ufności: CI nie powinien dopuszczać „możliwych do zidentyfikowania podzbiorów”, które sugerują inny poziom ufności. W większości (jeśli nie wszystkich) kontrpróbkach mamy przypadki, w których istnieją możliwe do zidentyfikowania podzbiory o różnych prawdopodobieństwach pokrycia.
W tych przypadkach można użyć Bayesowskich przedziałów wiarygodności, aby określić subiektywne wyczucie, gdzie znajduje się parametr, lub sformułować przedział prawdopodobieństwa, aby odzwierciedlić względną niepewność parametru, biorąc pod uwagę dane.
Na przykład jednym przypadkiem, który wydaje się względnie wolny od sprzeczności, jest dwustronny normalny przedział ufności dla średniej populacji. Zakładając pobieranie próbek z normalnej populacji z danym standardem, 95% CI nie dopuszcza żadnych możliwych do zidentyfikowania podzbiorów, które dostarczyłyby więcej informacji o parametrze. Widać to po fakcie, że średnia próbki jest wystarczającą statystyką w funkcji prawdopodobieństwa - tj. Funkcja wiarygodności jest niezależna od wartości poszczególnych próbek, kiedy znamy średnią próbki.
Powód, dla którego mamy jakiekolwiek subiektywne zaufanie do 95% symetrycznego CI dla średniej normalnej, wynika mniej z podanego prawdopodobieństwa pokrycia, a bardziej z faktu, że symetryczny 95% CI dla normalnej średniej jest przedziałem „najwyższego prawdopodobieństwa”, tj. wartości parametrów w przedziale mają większe prawdopodobieństwo niż jakakolwiek wartość parametru poza przedziałem. Ponieważ jednak prawdopodobieństwo nie jest prawdopodobieństwem (w sensie długoterminowej dokładności), jest bardziej subiektywnym kryterium (podobnie jak bayesowskie zastosowanie wcześniejszego i prawdopodobieństwa). Podsumowując, istnieje nieskończenie wiele przedziałów dla średniej normalnej, które mają 95% prawdopodobieństwo pokrycia, ale tylko symetryczny CI ma intuicyjną możliwość, której oczekujemy od oszacowania przedziału.
Dlatego kryterium RA Fishera sugeruje, że prawdopodobieństwo pokrycia powinno być zrównane z subiektywną pewnością tylko wtedy, gdy nie dopuszcza żadnego z tych identyfikowalnych podzbiorów. Jeżeli obecne są podzbiory, prawdopodobieństwo pokrycia będzie uzależnione od prawdziwych wartości parametru (ów) opisującego podzbiór. Aby uzyskać interwał z intuicyjnym poziomem ufności, należy uzależnić estiamte interwału od odpowiednich statystyk pomocniczych, które pomogą zidentyfikować podzbiór. LUB, możesz skorzystać z modeli dyspersji / mieszanin, co naturalnie prowadzi do interpretacji parametrów jako zmiennych losowych (aka statystyki Bayesa) lub możesz obliczyć prawdopodobieństwo profilu / warunkowego / marginalnego w ramach prawdopodobieństwa. Tak czy inaczej, porzuciłeś wszelką nadzieję na wymyślenie obiektywnie weryfikowalnego prawdopodobieństwa bycia poprawnym,
Mam nadzieję że to pomoże.
źródło
Z teoretycznego punktu widzenia pytania 2 i 3 oparte są na błędnym założeniu, że definicje są błędne. Zgadzam się więc z odpowiedzią @ whuber w tym zakresie, a odpowiedź @ whuber na pytanie 1 nie wymaga ode mnie żadnego dodatkowego wkładu.
Jednak z bardziej praktycznego punktu widzenia przedział ufności można nadać jego intuicyjnej definicji (prawdopodobieństwo zawarcia prawdziwej wartości), gdy jest on liczbowo identyczny z wiarygodnym przedziałem bayesowskim opartym na tych samych informacjach (tj. Nieinformacyjny wcześniej).
Jest to jednak nieco przygnębiające dla zagorzałego anty-bayesowskiego, ponieważ aby zweryfikować warunki, aby dać CI interpretację, którą chce dać, muszą wypracować rozwiązanie bayesowskie, dla którego intuicyjna interpretacja automatycznie obowiązuje!
Najłatwiejszym przykładem jest przedział ufności dla średniej normalnej ze znaną wariancją1−α orazprzedział wiarygodności1-αpóźniejszy wiarygodny ¯ x ±σZα / 2.x¯¯¯±σZα/2 1−α x¯¯¯±σZα/2
Nie jestem do końca pewien warunków, ale wiem, że następujące elementy są ważne dla intuicyjnej interpretacji elementów CI:
1) istnieje statystyka obrotu, której rozkład jest niezależny od parametrów (czy dokładne obroty istnieją poza rozkładem normalnym i rozkładem chi-kwadrat?)
2) nie ma żadnych uciążliwych parametrów (z wyjątkiem przypadku kluczowej statystyki, która jest jednym z niewielu dokładnych sposobów radzenia sobie z parametrami uciążliwymi podczas tworzenia elementów CI)
3) istnieje wystarczająca statystyka dla parametru będącego przedmiotem zainteresowania, a przedział ufności wykorzystuje wystarczającą statystykę
Warunki te są zwykle trudne do znalezienia i zwykle łatwiej jest wyliczyć przedział bayesowski i porównać go. Ciekawym ćwiczeniem może być również próba odpowiedzi na pytanie „dla jakiego priorytetu mój CI jest również wiarygodnym przedziałem czasowym?”. Możesz odkryć pewne ukryte założenia dotyczące procedury CI, patrząc na to wcześniej.
źródło
To może być trudne do zrozumienia:
Przedział ufności dotyczy procedury pobierania próbek. Gdyby pobrać wiele próbek i obliczyć 95% przedział ufności dla każdej próbki, okazałoby się, że 95% tych przedziałów zawiera średnią populacji.
Jest to przydatne na przykład w działach jakości przemysłowej. Ci faceci pobierają wiele próbek, a teraz mają pewność, że większość ich szacunków będzie bardzo zbliżona do rzeczywistości. Wiedzą, że 95% ich szacunków jest całkiem dobrych, ale nie mogą tego powiedzieć o każdym konkretnym oszacowaniu.
Podobnie, jeśli masz tylko 1 próbkę (a więc 1 przedział ufności), nie masz sposobu, aby powiedzieć, jak prawdopodobne jest, że średnia populacji jest w tym przedziale. Średnia (lub dowolny parametr) jest albo w nim, albo nie. Prawdopodobieństwo wynosi 1 lub 0.
Nie jest również prawdą, że wartości w przedziale ufności są bardziej prawdopodobne niż wartości poza nim. Zrobiłem małą ilustrację; wszystko mierzone jest w ° C. Pamiętaj, woda zamarza w temperaturze 0 ° C i wrze w temperaturze 100 ° C.
Przypadek: w zimnym jeziorze chcielibyśmy oszacować temperaturę wody, która płynie pod lodem. Mierzymy temperaturę w 100 lokalizacjach. Oto moje dane:
Temperatury w tym przedziale ufności zdecydowanie NIE są bardziej prawdopodobne niż te poza nim. Średnia temperatura płynącej wody w tym jeziorze NIE MOŻE być niższa niż 0 ° C, inaczej nie byłaby to woda, tylko lód. Część tego przedziału ufności (mianowicie sekcja od -0,8 do 0) faktycznie ma 0% prawdopodobieństwa zawarcia prawdziwego parametru.
Podsumowując: przedziały ufności są częstym pojęciem i dlatego opierają się na idei powtarzanych próbek. Jeśli wielu badaczy pobrałoby próbki z tego jeziora i gdyby wszyscy ci badacze obliczyli przedziały ufności, wówczas 95% tych przedziałów będzie zawierać prawdziwy parametr. Ale dla jednego przedziału ufności nie można powiedzieć, jak prawdopodobne jest, że zawiera on prawdziwy parametr.
źródło
Okay, zdaję sobie sprawę, że kiedy obliczasz 95% przedział ufności dla parametru przy użyciu klasycznych metod częstościowych, nie oznacza to, że istnieje 95% prawdopodobieństwo, że parametr mieści się w tym przedziale. A jednak ... kiedy podchodzisz do problemu z perspektywy bayesowskiej i obliczasz 95% wiarygodny przedział dla parametru, otrzymujesz (zakładając, że nie informacyjny wcześniej) dokładnie ten sam przedział , który otrzymujesz przy użyciu klasycznego podejścia. Tak więc, jeśli użyję klasycznych statystyk do obliczenia 95% przedziału ufności dla (powiedzmy) średniej zbioru danych, to prawdą jest, że istnieje 95% prawdopodobieństwo, że parametr leży w tym przedziale.
źródło
Pytasz o przedział ufności Frequentist . Definicja (zwróć uwagę, że żadne z 2 cytowań nie jest definicją! Tylko stwierdzenia, które oba są poprawne) to:
Masz więc model (zbudowany na podstawie zaobserwowanych danych) i jego szacunkowe parametry. Następnie, jeśli wygenerowano kilka hipotetycznych zestawów danych zgodnie z tym modelem i parametrami, oszacowane parametry mieszczą się w przedziale ufności.
Tak więc to częste podejście przyjmuje model i parametry szacunkowe jako ustalone, jak podano, i traktuje twoje dane jako niepewne - jako losową próbkę wielu innych możliwych danych.
Jest to naprawdę trudne do zinterpretowania i jest to często wykorzystywane jako argument dla statystyki bayesowskiej ( co moim zdaniem może być czasem mało dyskusyjne . Z drugiej strony statystyki bayesowskie traktują twoje dane jako stałe i traktują parametry jako niepewne. Bayesowskie wiarygodne interwały są to faktycznie intuicyjne, jak można się spodziewać: wiarygodne przedziały bayesowskie to przedziały, w których przy 95% leży rzeczywista wartość parametru.
Ale w praktyce wiele osób interpretuje częste przedziały ufności w taki sam sposób, jak wiarygodne przedziały bayesowskie, a wielu statystyk nie uważa tego za poważny problem - choć wszyscy wiedzą, że nie jest to w 100% poprawne. Również w praktyce częste i bayesowskie przedziały ufności / wiarygodności nie będą się znacznie różnić, gdy zastosuje się bayesowskie nieinformacyjne priory .
źródło
Więc :
Oświadczenie Bayesa jest bardziej naturalne. Najczęściej stwierdzenie częstokroć jest błędnie interpretowane spontanicznie jako oświadczenie bayesowskie (przez każdy normalny ludzki mózg, który od lat nie ćwiczy statystyki). I szczerze mówiąc, wiele statystyk nie wyjaśnia tego jasno.
I praktycznie?
W wielu zwykłych sytuacjach faktem jest, że prawdopodobieństwo uzyskane przez częste i bayesowskie podejście jest bardzo bliskie. Tak więc mylenie częstego stwierdzenia Bayesa ma niewielkie konsekwencje. Ale „filozoficznie” jest zupełnie inaczej.
źródło