Moje obecne rozumienie pojęcia „przedziału ufności z poziomem ufności ” jest to, że jeśli będziemy próbowali obliczyć przedział ufności wiele razy (za każdym razem świeżą próbkę), będzie ona zawierać poprawny parametr z czas.1 - α
Chociaż zdaję sobie sprawę, że to nie to samo, co „prawdopodobieństwo, że prawdziwy parametr leży w tym przedziale”, jest coś, co chcę wyjaśnić.
[Ważna aktualizacja]
Przed obliczeniem 95% przedziału ufności istnieje 95% prawdopodobieństwo, że obliczany przedział obejmie prawdziwy parametr. Po obliczeniu przedziału ufności i uzyskaniu określonego przedziału nie możemy już tego powiedzieć. Nie możemy nawet wysunąć jakiegoś nieczęstego argumentu, że jesteśmy w 95% pewni, że prawdziwy parametr będzie leżał w ; bo gdybyśmy mogli, przeczyłoby to kontrprzykładom takim jak ten: Czym dokładnie jest przedział ufności?[ a , b ]
Nie chcę, aby debata ta dotyczyła filozofii prawdopodobieństwa; zamiast tego szukam dokładnego, matematycznego wyjaśnienia, w jaki sposób i dlaczego zobaczenie danego przedziału zmienia (lub nie zmienia) 95% prawdopodobieństwa, jakie mieliśmy przed zobaczeniem tego przedziału. Jeśli argumentujesz, że „po zobaczeniu przedziału pojęcie prawdopodobieństwa nie ma już sensu”, to dobrze, popracujmy nad interpretacją prawdopodobieństwa, w którym ma on sens.
Dokładniej:
Załóżmy, że programujemy komputer w celu obliczenia 95% przedziału ufności. Komputer wykonuje pewne crunchowanie liczb, oblicza interwał i nie pokazuje mi interwału, dopóki nie wprowadzę hasła. Zanim wprowadzę hasło i zobaczę interwał (ale po tym, jak komputer już go obliczył), jakie jest prawdopodobieństwo, że interwał będzie zawierał prawdziwy parametr? To 95%, a ta część nie jest przedmiotem dyskusji : oto interpretacja prawdopodobieństwa, która mnie interesuje w tym konkretnym pytaniu (zdaję sobie sprawę, że istnieją główne kwestie filozoficzne, które tłumię, i to jest zamierzone).
Ale gdy tylko wpisam hasło i sprawię, że komputer pokaże mi obliczony przedział, prawdopodobieństwo (że przedział zawiera prawdziwy parametr) może ulec zmianie. Wszelkie twierdzenia, że prawdopodobieństwo nigdy się nie zmienia, byłyby sprzeczne z powyższym przykładem. W tym kontrprzykładzie prawdopodobieństwo może zmienić się z 50% na 100%, ale ...
Czy istnieją przykłady, w których prawdopodobieństwo zmienia się na coś innego niż 100% lub 0% (EDYCJA: a jeśli tak, to jakie są)?
Czy istnieją przykłady, w których prawdopodobieństwo nie zmienia się po zobaczeniu określonego przedziału (tj. Prawdopodobieństwo, że prawdziwy parametr leży w wynosi nadal 95%)?[ a , b ]
Jak (i dlaczego) ogólnie zmienia się prawdopodobieństwo po zobaczeniu, jak komputer wypluwa ?
[Edytować]
Dziękujemy za wszystkie wspaniałe odpowiedzi i pomocne dyskusje!
źródło
Odpowiedzi:
Myślę, że podstawowym problemem jest to, że statystyki częstokrzyskie mogą przypisać prawdopodobieństwo tylko do czegoś, co może mieć częstotliwość długofalową. Niezależnie od tego, czy prawdziwa wartość parametru leży w określonym przedziale, czy nie, nie ma ona częstotliwości długiego przebiegu, ponieważ eksperyment możemy wykonać tylko raz, więc nie można przypisać do niego prawdopodobieństwa częstego. Problem wynika z definicji prawdopodobieństwa. Jeśli zmienisz definicję prawdopodobieństwa na bayesowską, problem natychmiast zniknie, ponieważ nie jesteś już przywiązany do dyskusji na temat długofalowych częstotliwości.
Zobacz moją (raczej językową w policzek) odpowiedź na powiązane pytanie tutaj :
„ Frequentist to ktoś, kto uważa, że prawdopodobieństwa reprezentują częstotliwości długoterminowe, z którymi zdarzają się zdarzenia; w razie potrzeby wymyśli fikcyjną populację, z której twoją szczególną sytuację można by uznać za losową próbę, aby mógł w sposób znaczący mówić o częstotliwościach długoterminowych. Jeśli zadajesz mu pytanie dotyczące konkretnej sytuacji, on nie udzieli bezpośredniej odpowiedzi, ale zamiast tego wypowie się na temat tej (być może wyobrażonej) populacji ”.
W przypadku przedziału ufności pytaniem, które normalnie chcielibyśmy zadać (chyba że mamy na przykład problem z kontrolą jakości), jest „biorąc pod uwagę tę próbkę danych, zwróć najmniejszy przedział, który zawiera prawdziwą wartość parametru z prawdopodobieństwem X ”. Jednak częsty nie może tego zrobić, ponieważ eksperyment jest przeprowadzany tylko raz, więc nie ma częstotliwości długich przebiegów, których można by użyć do przypisania prawdopodobieństwa. Zamiast tego częsty musi wymyślić populację eksperymentów (których nie wykonałeś), z których przeprowadzony eksperyment można uznać za próbę losową. Częstochowiec daje następnie pośrednią odpowiedź na temat tej fikcyjnej populacji eksperymentów, a nie bezpośrednią odpowiedź na pytanie, które naprawdę chciałeś zadać na temat konkretnego eksperymentu.
Zasadniczo jest to problem języka, częstokroć definicja populacji po prostu nie pozwala na dyskusję na temat prawdopodobieństwa prawdziwej wartości parametru leżącego w danym przedziale. Nie oznacza to, że statystyki często są złe lub nieprzydatne, ale ważne jest, aby znać ograniczenia.
W odniesieniu do głównej aktualizacji
Nie jestem pewien, czy możemy powiedzieć: „Przed obliczeniem 95% przedziału ufności istnieje 95% prawdopodobieństwo, że obliczany przedział obejmie prawdziwy parametr”. w ramach częstych. Istnieje tutaj domyślny wniosek, że częstotliwość długoterminowa, z którą prawdziwa wartość parametru leży w przedziałach ufności skonstruowanych przez określoną metodę, jest również prawdopodobieństwem, że prawdziwa wartość parametru będzie leżeć w przedziale ufności dla konkretnej próbki danych, które będziemy wykorzystywać. Jest to całkowicie rozsądne wnioskowanie, ale jest to wnioskowanie bayesowskie, a nie częste, ponieważ prawdopodobieństwo, że prawdziwa wartość parametru leży w przedziale ufności, który tworzymy dla konkretnej próbki danych, nie ma częstotliwości długofalowej, ponieważ mamy tylko jedną próbkę danych.
Możemy jednak „wysunąć jakiś nieczęsto argumentujący argument, że jesteśmy w 95% pewni, że prawdziwy parametr będzie leżał w [a, b]”, to jest dokładnie taki przedział wiarygodności Bayesa, a dla wielu problemów wiarygodny przedział Bayesa dokładnie pokrywa się z częstym przedziałem ufności.
„Nie chcę, aby była to debata na temat filozofii prawdopodobieństwa”, niestety jest to nieuniknione, ponieważ nie można przypisywać częstemu prawdopodobieństwu tego, czy prawdziwa wartość statystyki leży w przedziale ufności, jest bezpośrednią konsekwencją częstej filozofii prawdopodobieństwa. Częstotliwości mogą przypisywać prawdopodobieństwa tylko rzeczom, które mogą mieć częstotliwości długofalowe, ponieważ tak często definiują prawdopodobieństwo w swojej filozofii. To nie czyni błędnej filozofii częstym, ale ważne jest, aby zrozumieć granice narzucone przez definicję prawdopodobieństwa.
„Zanim wprowadziłem hasło i zobaczyłem interwał (ale po tym, jak komputer go już obliczył), jakie jest prawdopodobieństwo, że interwał będzie zawierał prawdziwy parametr? To 95%, a ta część nie podlega dyskusji:„ To jest niepoprawny, a przynajmniej składając takie oświadczenie, odszedłeś od ram statystyki częstokroć i dokonałeś wnioskowania bayesowskiego, co wiąże się z pewnym prawdopodobieństwem prawdziwości stwierdzenia, a nie z częstotliwością długoterminową. Jednak, jak powiedziałem wcześniej, jest to całkowicie rozsądne i naturalne wnioskowanie.
Nic się nie zmieniło przed ani po wprowadzeniu hasła, ponieważ do innego zdarzenia można przypisać częste prawdopodobieństwo. Statystyki częstokroć mogą być raczej sprzeczne z intuicją, ponieważ często chcemy zadawać pytania o stopień wiarygodności stwierdzeń dotyczących konkretnych wydarzeń, ale nie leży to w zakresie statystyki częstokroć i jest to przyczyną większości błędnych interpretacji procedur częstokroć.
źródło
Ważna aktualizacja, ważna nowa odpowiedź. Pozwól, że postaram się wyraźnie rozwiązać ten problem, ponieważ na tym polega problem:
„Jeśli argumentujesz, że„ po zobaczeniu przedziału pojęcie prawdopodobieństwa nie ma już sensu ”, to dobrze, popracujmy nad interpretacją prawdopodobieństwa, w którym ma on sens”.
Zasady prawdopodobieństwa nie zmieniają się, ale zmienia się twój model wszechświata. Czy chcesz skwantyfikować swoje wcześniejsze przekonania na temat parametru przy użyciu rozkładu prawdopodobieństwa? Czy aktualizacja rozkładu prawdopodobieństwa po zobaczeniu danych jest rozsądnym rozwiązaniem? Jeśli tak uważasz, możesz tworzyć takie zdania jak . Mój wcześniejszy podział może reprezentować moją niepewność co do prawdziwego stanu przyrody , a nie tylko przypadkowościP.( θ ∈ [ L ( X) , U( X) ] | X= x ) jak to jest powszechnie rozumiane - to znaczy, jeśli przydzielę wcześniejszy rozkład liczby czerwonych piłek w urnie, to nie znaczy, że uważam, że liczba czerwonych piłek jest losowa. Jest naprawiony, ale nie jestem tego pewien.
Kilka osób, w tym ja, powiedziałem to, ale jeśli nie chcesz wywołać zmiennej losowej, wówczas instrukcja P ( θ ∈ [ L ( X ) , U ( X ) ] | X = x ) nie ma znaczenia. Jeśli jestem częstym, traktuję θ jako stałą ilość ORAZ nie mogę przypisać jej rozkładu prawdopodobieństwa. Dlaczego? Ponieważ jest ustalony, a moja interpretacja prawdopodobieństwa dotyczy częstotliwości długofalowych. Liczba czerwonych kulek w urnie nigdy się nie zmienia. θ jest tym, co θθ P.( θ ∈ [ L ( X) , U( X) ] | X= x ) θ θ θ jest. Jeśli wyciągnę kilka piłek, mam losową próbkę. Mogę zapytać, co by się stało, gdybym wziął kilka losowych próbek - to znaczy, że mogę mówić o ponieważ interwał zależy od próbki, która jest (poczekaj na to!) losowo.P.( θ ∈ [ L ( X) , U( X) ] )
Ale tego nie chcesz. Chcesz - jakie jest prawdopodobieństwo, że ten przedział, który zbudowałem z moją zaobserwowaną (i teraz ustaloną) próbką, zawiera parametr. Jednak gdy uznasz, że X = x to dla mnie, częstego, nie ma już nic losowego i zdania P ( θ ∈ [ L ( X ) , U ( X ) ] |P.( θ ∈ [ L ( X) , U( X) ] | X= x ) X= x nie ma żadnego sensu.P.( θ ∈ [ L ( X) , U( X) ] | X= x )
Jedynym zasadowym sposobem (IMO) do złożenia oświadczenia o jest oszacowanie naszej niepewności co do parametru z (wcześniejszym) rozkładem prawdopodobieństwa i zaktualizowanie tego dystrybucja z nowymi informacjami za pośrednictwem Twierdzenia Bayesa. Każde inne podejście, które widziałem, jest niefrasobliwym przybliżeniem do Bayesa. Z pewnością nie możesz tego zrobić z częstej perspektywy.P.( θ ∈ [ L ( X) , U( X) ] | X= x )
Nie oznacza to, że nie można oceniać tradycyjnych procedur częstokroć z perspektywy bayesowskiej (często przedziały ufności są tylko wiarygodnymi przedziałami, na przykład w ramach jednolitych priorytetów), lub że ocena estymatorów bayesowskich / rzetelnych przedziałów z częstości nie jest cenna (Myślę, że może być). Nie oznacza to, że klasyczne / częste statystyki nie są przydatne, ponieważ nie są. Tak właśnie jest i nie powinniśmy próbować robić tego więcej.
Czy uważasz, że uzasadnione jest wcześniejsze podanie parametru w celu przedstawienia swoich przekonań na temat wszechświata? To brzmi jak z twoich komentarzy; z mojego doświadczenia wynika, że większość ludzi by się zgodziła (to mały żart, który napisałem w komentarzu do @G. Jay Kerns). Jeśli tak, paradygmat bayesowski zapewnia logiczny, spójny sposób wypowiadania się na temat . Podejście częsterzy po prostu tego nie robi.P.( θ ∈ [ L ( X) , U( X) ] | X= x )
źródło
OK, teraz rozmawiasz! Głosowałem za usunięciem mojej poprzedniej odpowiedzi, ponieważ nie ma to sensu w przypadku tego ważnego, zaktualizowanego pytania.
W tym nowym, zaktualizowanym pytaniu z komputerem, który oblicza 95% przedziały ufności, zgodnie z ortodoksyjną interpretacją częstokroć, oto odpowiedzi na twoje pytania:
(Nawiasem mówiąc, w świecie rzeczywistym eksperymentator nigdy nie wie, że , co oznacza, że eksperymentator nigdy nie może wiedzieć, czy prawdziwe prawdopodobieństwo [ 1 , 3 ] obejmuje θ jest równe zero, czy jeden. (S) może tylko powiedzieć, że to musi być jedno albo drugie). to, plus eksperymentator może powiedzieć, że 95% z przerwami przez komputer jako pokrycie θ , ale wiedzieliśmy, że już.θ=7 [1,3] θ θ
Duch twojego pytania powraca do wiedzy obserwatora i tego, w jaki sposób odnosi się to do tego, gdzie leży . To (przypuszczalnie) dlatego mówiłeś o haśle, o tym, że komputer oblicza interwał, jeszcze go nie widząc itp . Widziałem w swoim komentarzu do odpowiedzi, które wydaje się niezadowalający / unseemly być zobowiązany do popełniania 0 lub 1, mimo wszystko, dlaczego nie mogliśmy uwierzyć, że to jest 87%, lub 15 / 16 , a nawet 99% ?? ? Ale taka jest właśnie siła - i jednocześnie pięta achillesowa - częstych ram: subiektywna wiedza / przekonanie obserwatora nie ma znaczenia. Liczy się tylko częstotliwość względna w długim okresie. Nic dodać nic ująć.θ 15/16
Na koniec: jeśli zmienisz swoją interpretację prawdopodobieństwa (której celowo nie zdecydowałeś się zrobić w przypadku tego pytania), nowe odpowiedzi to:
(Ale w celu pełnego ujawnienia opisana konfiguracja nie pasuje zbyt dobrze do subiektywnej interpretacji. Na przykład zwykle mamy 95% wcześniej wiarygodny odstęp, zanim nawet włączymy komputer, a następnie uruchamiamy go i zatrudniamy komputer, aby dać nam 95% wiarygodny przedział czasowy, który jest zwykle znacznie szczuplejszy niż poprzedni).
źródło
Wrzucę moje dwa centy (być może przepisuję niektóre z wcześniejszych odpowiedzi). Dla częstego użytkownika sam przedział ufności jest w istocie dwuwymiarową zmienną losową: jeśli powtórzyłbyś eksperyment razy gazillion, przedział ufności, który oszacowałeś (tj. Za każdym razem obliczaj na podstawie nowo znalezionych danych), będzie się różnił . Jako takie dwie granice przedziału są zmiennymi losowymi.
Zatem 95% CI oznacza nic więcej niż pewność (biorąc pod uwagę wszystkie założenia, które prowadzą do tego CI są prawidłowe), że ten zestaw zmiennych losowych będzie zawierał prawdziwą wartość (wyrażenie bardzo częste) w 95% przypadków.
Możesz łatwo obliczyć przedział ufności dla średniej 100 losowań ze standardowego rozkładu normalnego. Następnie, jeśli narysujesz 10000 razy 100 wartości z tego standardowego rozkładu normalnego i za każdym razem obliczysz przedział ufności dla średniej, rzeczywiście zobaczysz, że 0 jest tam około 9500 razy.
Fakt, że zostały stworzone przedział ufności tylko raz (z danych rzeczywistych) rzeczywiście nie zmniejsza prawdopodobieństwa prawdziwej wartości będącej w tym przedziale do 0 lub 1, ale to nie zmienia prawdopodobieństwa przedziału ufności jako zmienna losowa zawierająca prawdziwą wartość.
Podsumowując: prawdopodobieństwo dowolnego (tj. Średnio) 95% przedziału ufności zawierającego prawdziwą wartość (95%) nie zmienia się, podobnie jak prawdopodobieństwo określonego przedziału (CI lub cokolwiek innego) zawierającego prawdziwą wartość (0 lub 1). Prawdopodobieństwo przedziału czasu, który komputer zna, ale ty nie, wynosi w rzeczywistości 0 lub 1 (ponieważ jest to konkretny przedział), ale ponieważ go nie znasz (i często nie jesteś w stanie ponownie obliczyć tego samego przedziału nieskończenie wiele razy z tych samych danych), jedyne, co musisz zrobić, to prawdopodobieństwo dowolnego interwału.
źródło
Przyczyną tego, że przedział ufności nie określa „prawdopodobieństwa, że prawdziwy parametr leży w przedziale”, jest to, że po określeniu przedziału parametr leży w nim lub nie. Jednak na przykład dla 95% przedziału ufności masz 95% szansy na utworzenie przedziału ufności, który zawiera tę wartość. Jest to dość trudny do uchwycenia pomysł, więc może nie sformułuję go dobrze. Więcej informacji można znaleźć na stronie http://frank.itlab.us/datamodel/node39.html .
źródło
Nie sądzę, by częsty mógł powiedzieć, że istnieje jakiekolwiek prawdopodobieństwo prawdziwej (populacyjnej) wartości statystyki leżącej w przedziale ufności dla konkretnej próbki. To jest albo nie jest, ale nie ma długiej częstotliwości dla konkretnego zdarzenia, tylko populacja zdarzeń, które można uzyskać, powtarzając wykonywanie procedury statystycznej. Dlatego musimy trzymać się takich stwierdzeń, jak: „95% tak zbudowanych przedziałów ufności będzie zawierało prawdziwą wartość statystyki”, ale nie „istnieje prawdopodobieństwo, że prawdziwa wartość leży w przedziale ufności obliczonym dla tego konkretnego próba". Jest to prawdą w przypadku dowolnej wartości p, po prostu nie jest możliwe w przypadku częstej definicji prawdopodobieństwa. Bayesian może jednak złożyć takie oświadczenie, używając wiarygodnego odstępu czasu.
źródło
Sposób, w jaki stawiasz problem, jest trochę zagmatwany. Weźmy to zdanie: Niech będzie zdarzeniem, w którym prawdziwy parametr przypada w przedziale [ a , b ] . To stwierdzenie nie ma znaczenia z częstej perspektywy; parametr jest parametrem i nigdzie nie spada, po prostu jest. P (E) jest bez znaczenia, P (E | C) jest bez znaczenia i dlatego twój przykład się rozpada. Problemem nie jest też warunkowanie zestawu miar zerowych; problem polega na tym, że próbujesz złożyć oświadczenia o prawdopodobieństwie dotyczące czegoś, co nie jest zmienną losową.E [a,b]
Częstochowiec powiedziałby coś w stylu: Niech będzie zdarzeniem, w którym przedział ( L ( X ) , U ( X ) ) zawiera prawdziwy parametr. Jest to coś, do czego częsty może przypisać prawdopodobieństwo.E~ (L(X),U(X))
Edycja: @G. Jay Kerns sprawia, że kłótnia jest lepsza ode mnie i pisze szybciej, więc prawdopodobnie po prostu idź dalej :)
źródło
W statystykach częstych zdarzenie jest stałe - parametr albo znajduje się w [ a , b ], albo nie. Zatem E jest niezależne od C i C ', a zatem zarówno P ( E | C ) = P ( E ), jak i P ( E | C ' ) = P ( E ) .E [a,b] E C C′ P(E|C)=P(E) P(E|C′)=P(E)
(W twoim argumencie wydaje ci się, że i P ( E | C ′ ) = 0 , co jest niepoprawne.)P(E|C)=1 P(E|C′)=0
źródło
Jest tu tyle długich wyjaśnień, że nie mam czasu ich czytać. Myślę jednak, że odpowiedź na podstawowe pytanie może być krótka i słodka. Jest to różnica między prawdopodobieństwem, które jest bezwarunkowe dla danych. Prawdopodobieństwo 1-alfa przed zebraniem dat jest prawdopodobieństwem, że dobrze zdefiniowana procedura będzie zawierać parametr. Po zebraniu danych i poznaniu określonego przedziału czasu, który został wygenerowany, przedział jest ustalony, więc ponieważ parametr jest stały, prawdopodobieństwo warunkowe wynosi 0 lub 1. Ale ponieważ nie znamy rzeczywistej wartości parametru, nawet po zebraniu danych nie wiemy, jaką to wartość.
Rozszerzenie postu przez Michaela Chernicka skopiowane komentarze z formularza:
istnieje patologiczny wyjątek od tego, który można nazwać doskonałym oszacowaniem. Załóżmy, że mamy autoregresyjny proces pierwszego rzędu podany przez X (n) = pX (n-1) + en. Jest stacjonarny, więc wiemy, że p nie jest 1 lub -1 i jest <1 w wartości bezwzględnej. Teraz en są niezależne, identycznie rozmieszczone z rozkładem mieszanym, istnieje dodatnie prawdopodobieństwo q, że en = 0
Istnieje patologiczny wyjątek, który można nazwać doskonałym oszacowaniem. Załóżmy, że mamy autoregresyjny proces pierwszego rzędu podany przez X (n) = pX (n-1) + en. Jest stacjonarny, więc wiemy, że p nie jest 1 lub -1 i jest <1 w wartości bezwzględnej.
Teraz en są niezależne, identycznie rozmieszczone z rozkładem mieszanym, istnieje prawdopodobieństwo dodatnie q, że en = 0, a przy prawdopodobieństwie 1-q ma absolutnie ciągły rozkład (powiedzmy, że gęstość nie jest zerowa w przedziale ograniczonym od 0. Wtedy zbieraj dane z szeregów czasowych kolejno i dla każdej kolejnej pary wartości oszacuj p przez X (i) / X (i-1). Teraz, gdy ei = 0, stosunek będzie równy p dokładnie.
Ponieważ q jest większe niż 0, w końcu stosunek powtórzy wartość, a ta wartość musi być dokładną wartością parametru p, ponieważ jeśli nie jest to wartość ei, która nie jest równa 0, powtórzy się z prawdopodobieństwem 0 i ei / x (i -1) się nie powtórzy.
Tak więc reguła sekwencyjnego zatrzymywania polega na próbkowaniu, aż stosunek się powtórzy dokładnie, a następnie użyj wartości powtarzanej jako oszacowania p. Ponieważ jest to dokładnie ten sam przedział, który jest konstruowany w tym oszacowaniu, ma prawdopodobieństwo 1 włączenia prawdziwego parametru. Chociaż jest to patologiczny przykład, który nie jest praktyczny, istnieją stacjonarne procesy stochastyczne o właściwościach, których wymagamy do rozkładu błędów
źródło
Dwie uwagi na temat wielu pytań i odpowiedzi, które mogą pomóc.
Część zamieszania wynika z glosowania głębszej matematyki teorii prawdopodobieństwa, która, nawiasem mówiąc, nie była oparta na solidnych podstawach matematycznych aż do około 1940 roku. Wchodzi w to, co stanowi przestrzenie próbki, przestrzenie prawdopodobieństwa itp.
Po pierwsze, stwierdziliście, że po rzucie monetą wiemy, że istnieje 0% prawdopodobieństwa, że nie wyskoczyłoby do reszki, gdyby wyszło na głowę. W tym momencie mówienie o prawdopodobieństwie nie ma sensu; co się stało, i wiemy o tym. Prawdopodobieństwo dotyczy nieznanego w przyszłości, nieznanego w teraźniejszości.
Jako następstwo tego, co tak naprawdę oznacza zerowe prawdopodobieństwo, rozważ to: zakładamy, że rzetelna liczba ma prawdopodobieństwo 0,5 zbliżających się głów i 0,5 zbliżających się ogonów. Oznacza to, że ma 100% szans na pojawienie się albo głów, albo ogonów, ponieważ wyniki te są MECE (wzajemnie wykluczające się i całkowicie wyczerpujące). Ma jednak zerową zmianę w zestawianiu głów i ogonów : nasze pojęcia „głów” i „ogonów” są takie, że wykluczają się one wzajemnie. Zatem ma to zerową szansę, ponieważ jest to niemożliwe w naszym rozumieniu (lub zdefiniowaniu) „rzucania monetą”. I jest to niemożliwe przed i po rzucie.
Jako następstwo tego wszystkiego możliwe jest wszystko, co z definicji nie jest niemożliwe. W prawdziwym świecie nienawidzę, gdy prawnicy pytają „czy to możliwe, że podpisaliście ten dokument i zapomnieliście o nim?” ponieważ odpowiedź zawsze brzmi „tak” ze względu na charakter pytania. W tym przypadku odpowiedź brzmi „tak” na pytanie „czy nie jest możliwe, że zostałeś przetransportowany przez dematerializację na planetę Remulak 4 i zmuszony do zrobienia czegoś, a następnie przetransportowany z powrotem bez pamięci?”. Prawdopodobieństwo może być bardzo niskie, ale to, co nie jest niemożliwe, jest możliwe. W naszej zwykłej koncepcji prawdopodobieństwa, kiedy mówimy o rzucie monetą, może ona przynieść głowę; może pojawić się ogon; i może nawet stać na końcu lub (jakoś tak, jakbyśmy zostali wciągnięci w statek kosmiczny podczas odurzenia i zabrania na orbitę) unosić się w powietrzu na zawsze. Ale przed lub po rzucie ogony jednocześnie: są one wzajemnie wykluczającymi się wynikami w przestrzeni próbki eksperymentu (patrz „przestrzenie próbki prawdopodobieństwa” i „sigma-algebry”).
Po drugie, w całej tej filozofii bayesowskiej / częstościowej dotyczącej przedziałów ufności prawdą jest, że odnosi się ona do częstotliwości, jeśli ktoś działa jako częsty. Tak więc, gdy mówimy, że przedział ufności dla próbkowanej i oszacowanej średniej wynosi 95%, nie mówimy, że jesteśmy w 95% pewni, że „rzeczywista” wartość leży między granicami. Mówimy, że gdybyśmy mogli powtarzać ten eksperyment w kółko, w 95% przypadków stwierdzilibyśmy, że średnia rzeczywiście była między granicami. Kiedy robimy to za jednym razem, przyjmujemy skrót myślowy i mówimy „mamy 95% pewności, że mamy rację”.
Wreszcie, nie zapomnij o standardowej konfiguracji testu hipotezy opartego na eksperymencie. Jeśli chcemy wiedzieć, czy hormon wzrostu roślin przyspiesza wzrost roślin, być może najpierw określamy średnią wielkość pomidora po 6 miesiącach wzrostu. Następnie powtarzamy, ale z hormonem i uzyskujemy średni rozmiar. Nasza hipoteza zerowa jest „hormonem nie działa” i testujemy że . Ale jeśli badane rośliny są średnio większe, z 99% pewnością, oznacza to, że „zawsze będzie przypadkowa zmienność ze względu na rośliny i to, jak dokładnie ważymy, ale ilość losowości, która by to wyjaśniła, wystąpiłaby mniej niż jeden czas na sto ”.
źródło
Zagadnienie to można scharakteryzować jako pomieszanie prawdopodobieństwa wcześniejszego i późniejszego, a może jako niezadowolenie z nieznajomości wspólnego rozkładu niektórych zmiennych losowych.
Kondycjonowanie
Nieuzależnianie od dowodów oznacza ignorowanie dowodów. Możemy jednak uzależnić tylko to, co można wyrazić w modelu probabilistycznym. W naszym przykładzie z dwiema kulkami z urny nie możemy zależeć od pogody ani tego, jak się dzisiaj czujemy. Jeśli mamy powody, by sądzić, że takie dowody są istotne dla eksperymentu, musimy najpierw zmienić nasz model, aby umożliwić nam wyrażenie tego dowodu jako zdarzenia formalnego.
Przedział ufności
Dowiedz się więcej, wiedząc mniej
źródło
Jeśli powiem, że prawdopodobieństwo, że Knicks zdobył między xbar - 2sd (x) a xbar + 2sd (x) wynosi około 0,95 w danym meczu w przeszłości, jest to rozsądne stwierdzenie, biorąc pod uwagę pewne szczególne założenie dystrybucyjne dotyczące rozkładu wyników koszykówki . Jeśli zbieram dane o wynikach danej próby gier i obliczam ten przedział, prawdopodobieństwo, że uzyskali wyniki w tym przedziale w danym dniu w przeszłości, wynosi wyraźnie zero lub jeden, i możesz przejrzeć wynik gry, aby się dowiedzieć. Jedyne pojęcie, że utrzymuje niezerowe lub jedno prawdopodobieństwo dla częstego, pochodzi z powtarzania próbkowania, a realizacja oszacowania przedziału dla konkretnej próbki jest magicznym punktem, w którym to się stało lub nie podała oszacowania przedziału dla tej próbki . To nie jest miejsce, w którym wpisujesz hasło,
To właśnie argumentuje Dikran powyżej i głosowałem za jego odpowiedzią. Punktem, w którym powtarzane próbki nie są brane pod uwagę, jest punkt w paradygmacie częstych, w którym niedyskretne prawdopodobieństwo staje się nieosiągalne , nie wtedy, gdy wpiszesz hasło jak w powyższym przykładzie lub gdy przejdziesz do wyniku w moim przykładzie Gra Knicks, ale moment, w którym liczba próbek = 1.
źródło
Modelowanie
Krok (1) może dać trochę swobody. Właściwość modelowania można czasem przetestować, porównując prawdopodobieństwo pewnych zdarzeń z tym, czego byśmy intuicyjnie oczekiwali. W szczególności przyjrzenie się pewnym marginalnym lub warunkowym prawdopodobieństwom może pomóc zorientować się, jak właściwe jest modelowanie.
Estymator przedziału ufności
Preferencje
Przykład z prostym przeorem
źródło
Gdybyśmy mogli powiedzieć „prawdopodobieństwo, że prawdziwy parametr leży w tym przedziale ufności”, nie wzięlibyśmy pod uwagę wielkości próbki. Bez względu na to, jak duża jest próbka, o ile średnia jest taka sama, przedział ufności byłby równie szeroki. Ale kiedy mówimy „jeśli powtórzę to 100 razy, to oczekiwałbym, że w 95 przypadkach prawdziwy parametr znajdzie się w przedziale czasowym”, bierzemy pod uwagę wielkość próbki i to, jak pewne jest nasze oszacowanie . Im większy rozmiar próbki, tym mniejsza wariancja będzie miała średnia wartość szacunkowa. Nie zmieni się to tak bardzo, a kiedy powtarzamy procedurę 100 razy, nie potrzebujemy dużego odstępu, aby upewnić się, że w 95 przypadkach prawdziwy parametr znajduje się w tym przedziale.
źródło