Wydaje się, że poprzez różne powiązane pytania tutaj istnieje zgoda, że „95%” części tego, co nazywamy „95% przedziałem ufności”, odnosi się do faktu, że jeśli mielibyśmy dokładnie odtworzyć nasze procedury próbkowania i obliczeń CI wiele razy , 95% tak obliczonych CI zawierałoby średnią populacji. Wydaje się również, że zgoda ta nie jestpozwalają wnioskować z pojedynczego 95% CI, że istnieje 95% szans, że średnia mieści się gdzieś w CI. Nie rozumiem jednak, w jaki sposób ten pierwszy nie implikuje drugiego, o ile wyobrażając sobie, że wiele CI zawiera 95% średniej populacji, nie powinno być naszej niepewności (w odniesieniu do tego, czy nasz rzeczywiście obliczony CI zawiera populację znaczy czy nie) zmusza nas do użycia stopy bazowej wyimaginowanych przypadków (95%) jako naszego oszacowania prawdopodobieństwa, że nasz faktyczny przypadek zawiera CI?
Widziałem posty, które kłócą się w stylu „faktycznie obliczony CI albo zawiera średnią populacji, albo jej nie ma, więc jej prawdopodobieństwo wynosi 1 lub 0”, ale wydaje się, że sugeruje to dziwną definicję prawdopodobieństwa, która jest zależna w nieznanych stanach (np. przyjaciel rzuca uczciwą monetą, ukrywa wynik, a ja nie mogę powiedzieć, że istnieje 50% szans, że to głowa).
Na pewno się mylę, ale nie widzę, gdzie moja logika poszła nie tak ...
źródło
Odpowiedzi:
Częściową kwestią jest to, że częstokształtna definicja prawdopodobieństwa nie pozwala na zastosowanie niebanalnego prawdopodobieństwa do wyniku konkretnego eksperymentu, ale tylko do pewnej fikcyjnej populacji eksperymentów, z których ten konkretny eksperyment można uznać za próbkę. Definicja CI jest myląca, ponieważ jest stwierdzeniem o tej (zwykle) fikcyjnej populacji eksperymentów, a nie o konkretnych danych zebranych w danym przypadku. Częścią problemu jest zatem jedna z definicji prawdopodobieństwa: idea prawdziwej wartości leżącej w określonym przedziale z prawdopodobieństwem 95% jest niezgodna z ramami częstych.
Innym aspektem tego problemu jest to, że przy obliczaniu ufności częstych nie wykorzystuje się wszystkich informacji zawartych w konkretnej próbie, istotnych dla ograniczenia prawdziwej wartości statystyki. Moje pytanie „Czy istnieją przykłady, w których wiarygodne przedziały bayesowskie są oczywiście gorsze niż częste przedziały ufności”omawia artykuł Edwina Jaynesa, który zawiera kilka naprawdę dobrych przykładów, które naprawdę podkreślają różnicę między przedziałami ufności a przedziałami wiarygodności. Szczególnie istotny w tej dyskusji jest przykład 5, w którym omówiono różnicę między przedziałem wiarygodnym a przedziałem ufności dla oszacowania parametru skróconego rozkładu wykładniczego (w przypadku problemu w przemysłowej kontroli jakości). W podanym przez niego przykładzie próbka zawiera wystarczającą ilość informacji, aby mieć pewność, że prawdziwa wartość parametru nigdzie nie mieści się w odpowiednio skonstruowanym 90% przedziale ufności!
Niektórym może się to wydawać szokujące, ale powodem tego wyniku jest to, że przedziały ufności i przedziały wiarygodne są odpowiedziami na dwa różne pytania z dwóch różnych interpretacji prawdopodobieństwa.
Przedział ufności jest odpowiedzią na prośbę: „Daj mi przedział, który wspornik prawdziwą wartość parametru w % tych przypadków eksperymentu, który jest powtarzany wiele razy.” Wiarygodny przedział jest odpowiedzią na żądanie: „Daj mi przedział, który zawiera prawdziwą wartość z prawdopodobieństwem p, biorąc pod uwagę konkretną próbkę, którą rzeczywiście zaobserwowałem ” . Aby móc odpowiedzieć na to drugie żądanie, musimy najpierw przyjąć ( ) nowa koncepcja procesu generowania danych lub (b) inna koncepcja samej definicji prawdopodobieństwa.100 p p
Głównym powodem, dla którego jakikolwiek konkretny przedział ufności 95% nie implikuje 95% szansy na zawarcie średniej, jest to, że przedział ufności jest odpowiedzią na inne pytanie, więc jest właściwą odpowiedzią, gdy odpowiedź na dwa pytania mają to samo rozwiązanie numeryczne.
Krótko mówiąc, wiarygodne i pewne przedziały ufności odpowiadają na różne pytania z różnych perspektyw; oba są przydatne, ale musisz wybrać odpowiedni interwał dla pytania, które faktycznie chcesz zadać. Jeśli chcesz mieć przedział dopuszczający interpretację 95% (późniejszego) prawdopodobieństwa zawarcia prawdziwej wartości, wybierz wiarygodny przedział (a wraz z nim towarzyszącą koncepcję prawdopodobieństwa), a nie przedział ufności. Rzeczą, której nie powinieneś robić, jest przyjęcie innej interpretacji prawdopodobieństwa w interpretacji niż ta zastosowana w analizie.
Dzięki @cardinal za jego udoskonalenia!
Oto konkretny przykład z doskonałej książki Davida MaKaya „Teoria informacji, wnioskowanie i algorytmy uczenia się” (strona 464):
Niech parametrem będącym przedmiotem zainteresowania będzie a dane D , para punktów x 1 i x 2 narysowane niezależnie od następującego rozkładu:θ re x1 x2)
Jeśli jest 39 , wtedy możemy spodziewać się zestawy danych ( 39 , 39 ) , ( 39 , 40 ) , ( 40 , 39 ) i ( 40 , 40 ) wszystkie z jednakowym prawdopodobieństwem 1 / 4 . Rozważ przedział ufnościθ 39 ( 39 , 39 ) ( 39 , 40 ) ( 40 , 39 ) ( 40 , 40 ) 1 / 4
.[ θm i n( D ) , θm a x( D ) ] = [ m i n ( x1, x2)) , m a x ( x1, x2)) ]
Oczywiście jest to prawidłowy 75% przedział ufności, ponieważ jeśli ponownie spróbujesz danych, , wiele razy, skonstruowany w ten sposób przedział ufności będzie zawierał prawdziwą wartość 75% czasu.D = ( x1, x2))
Teraz rozważ dane . W tym przypadku częstym 75% przedziałem ufności wynosiłby [ 29 , 29 ] . Zakładając jednak, że model procesu generowania jest poprawny, θ może w tym przypadku wynosić 28 lub 29 i nie mamy powodu przypuszczać, że 29 jest bardziej prawdopodobne niż 28, więc prawdopodobieństwo późniejsze wynosi p ( θ = 28 | D ) = P ( θ = 29 | D ) = 1 / 2D = ( 29 , 29 ) [ 29 , 29 ] θ s ( θ = 28 | D ) = P ( θ = 29 | D ) = 1 / 2 . Tak więc w tym przypadku częsty przedział ufności nie jest 75% przedziałem wiarygodnym, ponieważ istnieje tylko 50% prawdopodobieństwa, że zawiera on prawdziwą wartość , biorąc pod uwagę to, co możemy wywnioskować o θ z tej konkretnej próbki .θ θ
Tak, jest to wymyślony przykład, ale jeśli przedziały ufności i przedziały wiarygodne nie byłyby różne, to nadal byłyby identyczne w wymyślonych przykładach.
Zauważ, że kluczową różnicą jest to, że przedział ufności jest stwierdzeniem, co by się stało, gdybyś powtórzył eksperyment wiele razy, wiarygodny przedział to stwierdzenie, co można wywnioskować z tej konkretnej próbki.
źródło
W statystyce częstokroć prawdopodobieństwo dotyczy zdarzeń na dłuższą metę. Po prostu nie dotyczą pojedynczego wydarzenia po jego zakończeniu. Przeprowadzenie eksperymentu i obliczenie CI jest właśnie takim wydarzeniem.
Chciałeś porównać to z prawdopodobieństwem, że ukryta moneta jest głową, ale nie możesz. Możesz to powiązać z czymś bardzo bliskim. Jeśli twoja gra miała regułę, w której musisz podać po odwróceniu „głów”, to prawdopodobieństwo, że będziesz poprawny na dłuższą metę, wynosi 50% i jest to analogiczne.
Po uruchomieniu eksperymentu i zebraniu danych masz coś podobnego do rzeczywistego rzutu monetą. Proces eksperymentu przypomina rzut monetą, ponieważ generujeμ albo nie tylko to, że moneta jest główką, albo nie. Po odwróceniu monety, bez względu na to, czy ją widzisz, czy nie, nie ma prawdopodobieństwa, że jest to głowa, to głowa albo nie. Załóżmy teraz, że dzwonisz do głowy. To właśnie oblicza CI. Ponieważ nigdy nie możesz ujawnić monety (Twoja analogia do eksperymentu zniknie). Masz rację lub się mylisz, to wszystko. Czy jego obecny stan ma jakiś związek z prawdopodobieństwem pojawienia się głów przy następnej klapie, czy też mogłem przewidzieć, co to jest? Nie. Proces, w którym produkowana jest głowa, ma 0,5 prawdopodobieństwa jej wytworzenia, ale nie oznacza to, że głowa, która już istnieje, ma 0,5 prawdopodobieństwa istnienia. Po obliczeniu CI nie ma prawdopodobieństwa, że uchwyci μ , to robi albo nie - już rzuciłeś monetą.
OK, chyba dość tego torturowałem. Najważniejsze jest to, że twoja analogia jest błędna. Nigdy nie możesz odsłonić monety; możesz dzwonić tylko do głów lub reszek na podstawie założeń dotyczących monet (eksperymentów). Być może będziesz chciał postawić zakład na poprawność swoich głów lub reszek, ale nigdy nie możesz na tym zarobić. Ponadto kluczowym składnikiem procedury CI jest to, że wartość importu znajduje się w przedziale czasowym. Jeśli nie, to nie masz CI (lub przynajmniej nie ma określonego%).
Prawdopodobnie to, co sprawia, że CI jest mylące, to jego nazwa. Jest to zakres wartości, które zawierają lub nie zawierają . Uważamy, że zawierają μ, ale prawdopodobieństwo tego nie jest takie samo, jak w procesie, który go opracował. 95% część nazwy 95% CI dotyczy właśnie procesu. Ty można obliczyć zakres, który Twoim zdaniem potem zawiera ľ na pewnym poziomie prawdopodobieństwa, ale to już zupełnie inna kalkulacja a nie CI.μ μ μ
Lepiej myśleć o nazwie 95% CI jako oznaczeniu rodzaju pomiaru zakresu wartości, które według ciebie prawdopodobnie zawierają i oddzielają 95% od tej wiarygodności. Możemy to nazwać Jennifer CI, podczas gdy 99% CI to Wendy CI. To może być lepsze. Następnie możemy powiedzieć, że naszym zdaniem μ prawdopodobnie mieści się w zakresie wartości i nikt nie utknie, mówiąc, że istnieje prawdopodobieństwo Wendy, że udało nam się uchwycić μ . Jeśli chcesz innego oznaczenia, myślę, że powinieneś pewnie swobodnie pozbyć się części „zaufania” CI (ale jest to przerwa).μ μ μ
źródło
Formalne, jednoznaczne poglądy na temat argumentów, wnioskowania i logiki wywodzą się z tradycji zachodniej z Arystotelesa. Arystoteles pisał o tych tematach w kilku różnych pracach (w tym o nazwie Tematy ;-)). Jednak najbardziej podstawową pojedynczą zasadą jest prawo niesprzeczności , które można znaleźć w różnych miejscach, w tym w metafizyceksiążka IV, rozdziały 3 i 4. Typowe sformułowanie brzmi: „... nic nie jest w tym samym czasie, aby być i nie być [w tym samym sensie]” (1006 a 1). Jego znaczenie zostało określone nieco wcześniej: „... jest to oczywiście punkt wyjścia nawet dla wszystkich innych aksjomatów” (1005 b 30). Wybacz mi, że woskuje mnie filozofia, ale to pytanie z natury ma treść filozoficzną, której nie można po prostu odłożyć na bok dla wygody.
Rozważ ten eksperyment myślowy: Alex rzuca monetą, łapie ją i przewraca na przedramię, dłonią zakrywając bok do góry. Bob stał we właściwej pozycji; krótko zobaczył monetę w ręce Alexa, dzięki czemu może wydedukować, która strona jest teraz skierowana do góry. Jednak Carlos nie widział monety - nie był we właściwym miejscu. W tym momencie Alex pyta ich, jakie jest prawdopodobieństwo, że moneta pokazuje głowy. Carlos sugeruje, że prawdopodobieństwo wynosi 0,5, ponieważ jest to częstotliwość głowic w długim okresie. Bob nie zgadza się, pewnie twierdzi, że prawdopodobieństwo jest niczym innym jak dokładnie 0 .
Kto ma rację? Możliwe jest oczywiście, że Bob źle zrozumiał i jest niepoprawny (załóżmy, że nie zrozumiał źle). Niemniej jednak nie można uznać, że oba mają rację i są zgodne z prawem braku sprzeczności. (Przypuszczam, że jeśli nie wierzysz w prawo braku sprzeczności, możesz pomyśleć, że oba mają rację, lub jakieś inne podobne sformułowanie.) Teraz wyobraź sobie podobny przypadek, ale bez obecności Boba, czy sugestia Carlosa może być bardziej dobrze (prawda?) bez Boba w pobliżu, skoro nikt nie widział monety? Zastosowanie prawa niesprzeczności nie jest tak jasne w tym przypadku, ale myślę, że oczywiste jest, że części sytuacji, które wydają się ważne, są utrzymywane na stałym poziomie od pierwszego do drugiego. Podjęto wiele prób określenia prawdopodobieństwa, aw przyszłości może być jeszcze wiele innych, ale definicja prawdopodobieństwa w zależności od tego, kto stoi i gdzie się znajduje, ma niewielką atrakcyjność. W każdym razie (zgadywanie na podstawie użycia wyrażenia „przedział ufności "), pracujemy w ramach podejścia Frequentist, i czy ktoś wie, że prawdziwy stan monety jest nieistotny. Nie jest to zmienna losowa - jest to wartość zrealizowana i albo pokazuje głowy, albo pokazuje ogony .
Jak zauważa @John, stan monety może początkowo nie wydawać się podobny do pytania, czy przedział ufności obejmuje prawdziwą średnią. Jednak zamiast monety możemy to abstrakcyjnie zrozumieć jako zrealizowaną wartość zaczerpniętą z rozkładu Bernoulliego o parametrze . W sytuacji monetarnej p = 0,5 , natomiast dla 95% CI p = 0,95 . Ważne jest, aby zdać sobie sprawę z tego, że połączenie polega na tym, że ważną częścią metafory nie jest p, która rządzi sytuacją, ale raczej, że rzutowana moneta lub obliczony CI jest wartością zrealizowaną , a nie zmienną losową.p p = 0,5 p = 0,95 p
Ważne jest dla mnie, aby w tym miejscu zauważyć, że wszystko to dzieje się w ramach częstościowej koncepcji prawdopodobieństwa. Perspektywa bayesowska nie narusza prawa niesprzeczności, po prostu zaczyna się od różnych metafizycznych założeń dotyczących natury rzeczywistości (a konkretniej prawdopodobieństwa). Inni w CV są znacznie lepiej zorientowani w perspektywie bayesowskiej niż ja i być może mogą wyjaśnić, dlaczego założenia stojące za pytaniem nie mają zastosowania w podejściu bayesowskim, i że w rzeczywistości może istnieć 95% prawdopodobieństwo średniej leżące w 95% wiarygodneinterwał, pod pewnymi warunkami, w tym (między innymi), że wcześniejsze użycie było dokładne (patrz komentarz @DikranMarsupial poniżej). Sądzę jednak, że wszyscy się zgodzą, że po stwierdzeniu, że pracujesz w ramach podejścia Frequentist, nie może być tak, że prawdopodobieństwo prawdziwej średniej mieszczącej się w jakimś 95% CI wynosi 0,95.
źródło
Dlaczego 95% CI nie oznacza 95% szansy na zawarcie średniej?
W tym pytaniu oraz w większości udzielonych odpowiedzi należy wyjaśnić wiele kwestii. Ograniczę się tylko do dwóch.
za. Co oznacza populacja? Czy istnieje prawdziwa populacja?
Pojęcie średniej populacji jest zależne od modelu. Ponieważ wszystkie modele są błędne, ale niektóre są użyteczne, ta populacja oznacza fikcję, która jest zdefiniowana tylko po to, aby zapewnić użyteczne interpretacje. Fikcja zaczyna się od modelu prawdopodobieństwa.
Model prawdopodobieństwa jest zdefiniowany przez tryplet gdzie X jest przestrzenią próbki (niepustym zbiorem), F jest rodziną podzbiorów X, a P jest dobrze zdefiniowaną miarą prawdopodobieństwa zdefiniowaną nad F (reguluje zachowanie danych). Bez utraty ogólności rozważ tylko przypadek dyskretny. Średnia populacji jest określona przez μ = ∑ x ∈ X x P ( X = x ) , to znaczy reprezentuje tendencję centralną pod P
W teorii prawdopodobieństwa miara jest uważana za znaną, dlatego średnia populacji jest dostępna poprzez powyższą prostą operację. Jednak w praktyce prawdopodobieństwo P jest mało znane. Bez prawdopodobieństwa P nie można opisać probabilistycznego zachowania danych. Ponieważ nie możemy ustawić dokładnego prawdopodobieństwa P w celu wyjaśnienia zachowania danych, ustaliliśmy rodzinę M zawierającą miary prawdopodobieństwa, które prawdopodobnie rządzą (lub wyjaśniają) zachowanie danych. Następnie pojawia się klasyczny model statystyczny ( X , F , M ) . Mówi się, że powyższy model jest modelem parametrycznym, jeśli istnieje ΘP. P. P. P. M.
b. Jaka jest definicja i cel przedziału ufności?
Uwaga: Czytelnicy powinni zauważyć, że nie jest konieczne przyjmowanie założeń dotyczących stanu rzeczywistości, obszar ufności jest zdefiniowany dla dobrze zdefiniowanego modelu statystycznego bez odniesienia do żadnego „prawdziwego” środka. Nawet jeśli „prawdziwa” miara prawdopodobieństwa nie istnieje lub nie jest w , definicja regionu ufności będzie działać, ponieważ założenia dotyczą raczej modelowania statystycznego niż stanów rzeczywistości.M
Z jednej strony, przed obserwacją danych, jest zestawem losowym (lub losowym przedziałem), a prawdopodobieństwo, że „ zawiera średnią ” wynosi co najmniej dla wszystkich . Jest to bardzo pożądana cecha dla paradygmatu częstych.Cα(X) Cα(X) μθ (1−α) θ∈Θ
Z drugiej strony, po obserwacji danych , jest tylko ustalonym zestawem, a prawdopodobieństwo, że „ zawiera średnią ”, powinno wynosić {0,1} dla all .x Cα(x) Cα(x) μθ θ∈Θ
Oznacza to, że po obserwacji danych nie możemy już stosować rozumowania probabilistycznego. O ile mi wiadomo, nie ma teorii, która traktowałaby zbiory pewności dla obserwowanej próbki (pracuję nad tym i uzyskuję dobre wyniki). Przez pewien czas częsty musi wierzyć, że obserwowany zestaw (lub interwał) jest jednym z zestawów, które zawierają dla wszystkich .x Cα(x) (1−α)100% μθ θ∈Θ
PS: Zapraszam do mojego postu wszelkie komentarze, recenzje, krytyki, a nawet sprzeciwy. Omówmy to dogłębnie. Ponieważ nie jestem rodzimym językiem angielskim, mój post z pewnością zawiera literówki i błędy gramatyczne.
Odniesienie:
Schervish, M. (1995), Theory of Statistics, Second ed, Springer.
źródło
Dziwi mnie, że nikt nie przedstawił przykładu Bergera w zasadzie bezużytecznego 75% przedziału ufności opisanego w drugim rozdziale „Zasady wiarygodności”. Szczegóły można znaleźć w oryginalnym tekście (który jest dostępny bezpłatnie w projekcie Euclid ): najważniejsze w tym przykładzie jest to, że opisuje on jednoznacznie sytuację, w której z absolutną pewnością znasz wartość pozornie nieznanego parametru po obserwując dane, ale zapewniłbyś, że masz tylko 75% pewności, że Twój przedział zawiera prawdziwą wartość. Przebadanie szczegółów tego przykładu pozwoliło mi zrozumieć całą logikę konstruowania przedziałów ufności.
źródło
Nie wiem, czy to pytanie powinno zostać zadane jako nowe pytanie, ale dotyczy tego samego pytania zadanego powyżej, proponując eksperyment myślowy.
Po pierwsze, zakładam, że jeśli wybiorę losową kartę do gry ze standardowej talii, prawdopodobieństwo, że wybrałem klub (bez patrzenia na nią) wynosi 13/52 = 25%.
Po drugie, wielokrotnie stwierdzano, że 95% przedział ufności należy interpretować w kategoriach wielokrotnego powtarzania eksperymentu, a obliczony przedział będzie zawierał prawdziwą średnią 95% czasu - myślę, że James Waters wykazał to dość przekonująco symulacja. Wydaje się, że większość ludzi akceptuje tę interpretację 95% CI.
A teraz eksperyment myślowy. Załóżmy, że mamy zmienną rozkładającą się normalnie w dużej populacji - może wysokość dorosłych mężczyzn lub kobiet. Mam chętnego i niestrudzonego asystenta, którego zadaniem jest wykonanie wielu procesów próbkowania danej wielkości próbki z populacji i obliczenie średniej próby i przedziału ufności 95% dla każdej próbki. Mój asystent bardzo chętnie mierzy wszystkie możliwe próbki z populacji. Następnie dla każdej próbki mój asystent zapisuje wynikowy przedział ufności jako zielony (jeśli CI zawiera prawdziwą średnią) lub czerwony (jeśli CI nie zawiera prawdziwej średniej). Niestety mój asystent nie pokaże mi wyników swoich eksperymentów. Potrzebuję uzyskać informacje o wysokościach dorosłych w populacji, ale mam tylko czas, zasoby i cierpliwość, aby wykonać eksperyment raz. Wykonuję pojedynczą próbkę losową (tej samej wielkości próbki, której używał mój asystent) i obliczam przedział ufności (używając tego samego równania).
Nie widzę wyników mojego asystenta. Jakie jest zatem prawdopodobieństwo, że losowa próbka, którą wybrałem, da zielony CI (tj. Przedział zawiera prawdziwą średnią)?
Moim zdaniem jest to to samo, co opisana wcześniej sytuacja w talii kart i może być interpretowane jako 95% prawdopodobieństwo, że obliczony przedział zawiera prawdziwą średnią (tj. Jest zielony). A jednak wydaje się, że kłamstwem jest to, że 95% przedział ufności NIE MOŻE być interpretowany, ponieważ istnieje 95% prawdopodobieństwo, że przedział zawiera prawdziwą średnią. Dlaczego (i gdzie) moje rozumowanie w powyższym eksperymencie myślowym się rozpada?
źródło
Chociaż w licznych świetnych odpowiedziach toczyła się obszerna dyskusja, chcę dodać prostszą perspektywę. (choć został on nawiązywał w innych odpowiedzi. - ale nie wprost) Z jakiegoś parametru i dał próbkę , A przedział ufności jest stwierdzenie prawdopodobieństwa postaciθ (X1,X2,⋯,Xn) 100p%
Jeżeli rozważymy być stałe, to powyższe stwierdzenie jest o zmiennych losowych i , albo bardziej dokładnie, to jest o losowy interwał .g ( X 1 , X 2 , ⋯ , X n ) f ( X 1 , X 2 , ⋯ , X n ) ( g ( X 1 , X 2 , ⋯ , X n ) , f ( X 1 , X 2 , ⋯ , X n ) )θ g(X1,X2,⋯,Xn) f(X1,X2,⋯,Xn) (g(X1,X2,⋯,Xn),f(X1,X2,⋯,Xn))
Zamiast więc podawać informacje o prawdopodobieństwie wystąpienia parametru w przedziale, podaje informacje o prawdopodobieństwie wystąpienia przedziału zawierającego parametr - ponieważ przedział jest tworzony ze zmiennych losowych.
źródło
Ze względów praktycznych nie ma większego powodu, aby zakładać się, że twój 95% CI zawiera prawdziwą średnią przy kursie 95: 5, niż obstawiać na rzut monetą swojego przyjaciela przy kursie 50:50.
Jeśli twój przyjaciel rzucił już monetą i uważasz, że istnieje 50% prawdopodobieństwa, że jest to główka, to po prostu używasz innej definicji prawdopodobieństwa słowa. Jak powiedzieli inni, dla częstych nie można przypisać prawdopodobieństwa wystąpieniu zdarzenia, ale raczej można opisać prawdopodobieństwo wystąpienia zdarzenia w przyszłości przy użyciu danego procesu.
Z innego bloga: Częstotliwość powie: „Konkretne wydarzenie nie może mieć prawdopodobieństwa. Moneta pokazuje głowę lub reszkę, a jeśli nie pokażesz, po prostu nie mogę powiedzieć, co jest faktem. Tylko jeśli powtórzysz rzut wiele, wiele razy, jeśli wystarczająco silnie zmienisz początkowe warunki rzutów, spodziewałbym się, że względna częstotliwość głowic we wszystkich tych rzutach zbliży się do 0,5 ". http://www.researchgate.net/post/What_is_the_difference_between_frequentist_and_bayesian_probability
źródło
Powiedz, że CI obliczony na podstawie konkretnego zestawu danych, który masz, jest jednym z 5% możliwych CI, które nie zawierają średniej. Jak blisko jest bycia w 95% wiarygodnym przedziale, który chciałbyś sobie wyobrazić? (To znaczy, jak blisko jest do zawarcia średniej z 95% prawdopodobieństwem?) Nie masz pewności, że w ogóle jest ona bliska. W rzeczywistości twój CI nie może pokrywać się nawet z jednym z 95% z 95% CI, które faktycznie zawierają średnią. Nie wspominając o tym, że nie zawiera on samego środka, co sugeruje również, że nie jest to 95% wiarygodny przedział.
Może chcesz to zignorować i optymistycznie założyć, że twój CI jest jednym z 95%, które zawiera średnią. OK, co wiemy o twoim CI, biorąc pod uwagę, że jest on w 95%? Że zawiera średnią, ale być może jedyne wyjście skrajne, z wyłączeniem wszystkiego innego po drugiej stronie średniej. Prawdopodobnie nie zawiera 95% rozkładu.
Tak czy inaczej, nie ma gwarancji, a może nawet nie ma uzasadnionej nadziei, że 95% CI to 95% wiarygodny przedział.
źródło
Jeśli zgadujesz tylko, że Twoje monety przewracają 50% główek / resz, to nie robisz tego dobrze.
Z pewnością wiarygodność twojego przypuszczenia na temat rzutu monetą będzie zależeć od tych warunków i nie zawsze będzie taka sama 50% (czasami twoja metoda „oszukiwania” może działać lepiej).
Twoje ogólne domysły mogą wynosić x> 50% właściwego czasu, ale to niekoniecznie oznacza, że prawdopodobieństwo każdego rzutu wynosi stale x% głów. Byłoby więc trochę dziwnie rzutować ogólne prawdopodobieństwo na prawdopodobieństwo konkretnego rzutu. Jest to inny „rodzaj prawdopodobieństwa”.
Trochę zależy od tego, jaki poziom lub głębokość określisz / zdefiniujesz „prawdopodobieństwo” .
Zaufanie jest niezależne od „określonego prawdopodobieństwa w danym eksperymencie / przerzuceniu” i niezależne od „prawdopodobieństwa a priori” .
Pewność dotyczy całego zestawu eksperymentów . Jest skonstruowany w taki sposób, że nie trzeba znać a priori prawdopodobieństw ani rozkładów w populacji.
Zaufanie dotyczy ogólnego „wskaźnika awaryjności” oszacowania, ale w szczególnych przypadkach można precyzyjniej określić różnice w prawdopodobieństwie .
( Te różnice prawdopodobieństwa istnieją przynajmniej niejawnie , teoretycznie i nie musimy ich znać, aby mogły istnieć. Ale możemy jawnie wyrazić te prawdopodobieństwa, stosując podejście bayesowskie).
Przykład 1:
Powiedz, że testujesz na bardzo rzadką chorobę. Wykonujesz test, który może być postrzegany jako próba Bernoulliego (dodatnia lub ujemna), która ma wysoki dla pozytywnego wyniku, gdy dana osoba jest chora lub niski gdy dana osoba nie jest chora.p=0.99 p=0.01
Obecnie nie jest to zwykle wykonywane (w praktyce klinicznej) w celu oszacowania przedziału CI dla ale możesz to zrobić (jako przykład), jeśli chcesz. Jeśli test jest pozytywny, to szacujesz a jeśli test jest negatywny, to szacujesz .p 0.05≤p≤1 0≤p≤0.95
Jeśli masz 1% populacji chorej, wówczas średnio otrzymasz 1,98% wyniku testu pozytywnego (1% od 99% zdrowych osób uzyska pozytywny wynik testu i 99% od 1% chorych pozytywnych wyników testu). To sprawia, że Twój przedział 95% CI (warunkowy) po napotkaniu pozytywnego testu , poprawia tylko 50% czasu.
Z drugiej strony, jeśli napotkasz negatywny test, będziesz miał więcej niż 95% czasu na poprawność, więc ogólnie szacunek przedziału CI jest poprawny (co najmniej) 95% czasu, ale dla każdego przypadku osobno (dla konkretnych przypadków ) nie można tak naprawdę powiedzieć, że prawdopodobieństwo w tym przedziale wynosi 95%. Prawdopodobnie istnieje pewna zmienność.p
Przykład 2:
Powiedzmy, że ludzie wykonują 300 pytań IQ. Z naiwnej ufności i częstościowym punktu widzenia można zakładać, że każda osoba ma teoretyczną prywatnego dystrybucja do wykonywania testów, a na podstawie zaobserwowanej skuteczności testów można stworzyć pewne oszacowanie przedziału tak, że w 95% przypadków będziesz miał rację, aby poprawnie umieścić w przedziale.i N(μi,σ2i) μi
Ignoruje to, że regresja ma wpływ na średnią, a prawdopodobieństwo a priori dla IQ dowolnej osoby rozkłada się jako . Następnie w skrajnych przypadkach, niski lub wysoki, wynik wyników, prawdopodobieństwo IQ osoby w 95% przedziałach ufności opartych na pomiarach / testach będzie niższe niż 95%.μi N(100,15)
(odwrotnie jest w przypadku osób, które mają wyniki zbliżone do 100, ich iloraz inteligencji będzie prawdopodobnie bardziej niż 95% wewnątrz 95% -CI, a to powinno zrekompensować błędy, które popełniłeś w skrajnościach, tak abyś miał rację w 95% przypadków)
źródło
Najpierw podajmy definicję przedziału ufności lub, w przestrzeniach o wymiarze większym niż jeden, obszar pewności. Definicja jest zwięzłą wersją tej podanej przez Jerzego Neymana w artykule z 1937 r. Dla Royal Society.
Niech parametrem będzie a statystyką be . Każda możliwa wartość parametru jest powiązana z regionem akceptacji dla którego , przy czym jest współczynnikiem ufności lub poziomem ufności (zazwyczaj 0,95), a jest informacją podstawową, którą musimy określić nasze prawdopodobieństwa . Obszar ufności dla , biorąc pod uwagę , to wtedy .p s p A(p,α) prob(s∈A(p,α)|p=p,I)=α α I p s=s C(s,α)={p|s∈A(p,α)}
Innymi słowy, wartościami parametrów, które tworzą region ufności, są tylko te, których odpowiadający obszar prawdopodobieństwa obszaru próbki zawiera statystyki.α
Teraz rozważmy, że dla każdej możliwej wartości parametru :p
gdzie nawiasy kwadratowe to nawiasy Iverson. Jest to kluczowy wynik dla przedziału ufności lub regionu. Mówi, że oczekiwanie , przy rozkładzie próbkowania zależnym od , wynosi . Wynik ten jest gwarantowany przez konstrukcję regionów akceptacji, a ponadto dotyczy , ponieważ jest możliwą wartością parametru. Nie jest to jednak stwierdzenie prawdopodobieństwa dotyczące , ponieważ oczekiwania nie są prawdopodobieństwami![p∈C(s,α)] p α p p p
Prawdopodobieństwo, że to oczekiwanie jest często mylone, to prawdopodobieństwo, zależne od , że parametr leży w regionie ufności:s=s
Prawdopodobieństwo to zmniejsza się do tylko dla niektórych kombinacji informacji i regionów akceptacji . Na przykład, w przypadku gdy odpowiednie jest jednorodna i rozmieszczenie próbek jest symetryczny w i (np gaussowskim z jako średnia), a następnie:α I A(p,α) s p p
Jeśli dodatkowo regiony akceptacji są takie, że , to:s∈A(s,α)⟺s∈A(s,α)
Podręczny przykład szacowania średniej populacji ze standardowym przedziałem ufności skonstruowanym wokół normalnej statystyki jest szczególnym przypadkiem poprzednich założeń. Dlatego średnia 95% przedział ufności nie zawiera średnią z prawdopodobieństwem 0,95; ale ta korespondencja na ogół nie obowiązuje.
źródło
Jest tu kilka interesujących odpowiedzi, ale pomyślałem, że dodam małą praktyczną demonstrację przy użyciu R. Ostatnio użyliśmy tego kodu w kursie statystyk, aby podkreślić, jak działają przedziały ufności. Oto, co robi kod:
1 - Próbkuje ze znanego rozkładu (n = 1000)
2 - Oblicza 95% CI dla średniej z każdej próbki
3 - Pytanie, czy CI każdej próbki zawiera prawdziwą średnią.
4 - Podaje w konsoli ułamek elementów CI, który zawierał prawdziwą średnią.
Właśnie uruchomiłem skrypt kilka razy i naprawdę nie jest zbyt rzadkie, aby stwierdzić, że mniej niż 94% elementów CI zawierało prawdziwy środek. Przynajmniej dla mnie pomaga to rozwiać ideę, że przedział ufności ma 95% prawdopodobieństwo zawarcia prawdziwego parametru.
Mam nadzieję że to pomoże!
źródło