Jaka jest różnica między przedziałem ufności a przedziałem wiarygodności?

229

Joris i Srikant za wymianę tutaj got me zastanawiasz się (ponownie), czy moje wewnętrzne wyjaśnienia dotyczące różnicy pomiędzy przedziałami ufności i wiarygodnych odstępach były właociwe. Jak wytłumaczysz różnicę?

bayesian confidence-interval frequentist credible-interval fiducial Matt Parker
źródło

313

Zgadzam się całkowicie z wyjaśnieniem Srikant. Aby nadać mu bardziej heurystyczny obrót:

Podejścia klasyczne ogólnie zakładają, że świat jest jednokierunkowy (np. Parametr ma jedną konkretną prawdziwą wartość) i próbują przeprowadzić eksperymenty, których wynik - niezależnie od prawdziwej wartości parametru - będzie poprawny z co najmniej pewnym minimum prawdopodobieństwo.

W rezultacie, aby wyrazić niepewność w naszej wiedzy po eksperymencie, częste podejście stosuje „przedział ufności” - zakres wartości zaprojektowany w celu uwzględnienia prawdziwej wartości parametru z pewnym minimalnym prawdopodobieństwem, powiedzmy 95%. Częsty specjalista zaprojektuje eksperyment i procedurę 95% przedziału ufności, tak aby na każde 100 przeprowadzonych eksperymentów zaczynało się kończyć, należy oczekiwać, że co najmniej 95 z uzyskanych przedziałów ufności będzie zawierać prawdziwą wartość parametru. Pozostałe 5 może być nieco błędne lub mogą być kompletnymi bzdurami - formalnie rzecz biorąc, jest to w porządku, jeśli chodzi o podejście, o ile 95 na 100 wnioskowania jest poprawnych. (Oczywiście wolelibyśmy, aby były nieco w błędzie, a nie totalne bzdury.)

Podejścia bayesowskie inaczej formułują problem. Zamiast powiedzieć, że parametr ma po prostu jedną (nieznaną) prawdziwą wartość, metoda bayesowska mówi, że wartość parametru jest stała, ale została wybrana z pewnego rozkładu prawdopodobieństwa - znanego jako wcześniejszy rozkład prawdopodobieństwa. (Innym sposobem jest stwierdzenie, że przed wykonaniem jakichkolwiek pomiarów Bayesian przypisuje rozkład prawdopodobieństwa, który nazywają stanem przekonania, na podstawie tego, jaka jest prawdziwa wartość parametru.) Ten „uprzedni” może być znany (wyobraź sobie próbowanie oszacować wielkość ciężarówki, jeśli znamy ogólny rozkład wielkości ciężarówek z DMV) lub może to być założenie wyciągnięte z powietrza. Wnioskowanie bayesowskie jest prostsze - zbieramy niektóre dane, a następnie obliczamy prawdopodobieństwo różnych wartości parametru PODAJ dane. Ten nowy rozkład prawdopodobieństwa nazywa się „prawdopodobieństwem a posteriori” lub po prostu „posteriori”. Podejścia bayesowskie mogą podsumować ich niepewność, podając zakres wartości dla tylnego rozkładu prawdopodobieństwa, który obejmuje 95% prawdopodobieństwa - nazywa się to „przedziałem wiarygodności 95%”.

Bayesiański partyzant może skrytykować częsty przedział ufności w następujący sposób: „A co, jeśli 95 na 100 eksperymentów da przedział ufności obejmujący prawdziwą wartość? ZROBIŁEM. Twoja reguła pozwala, aby 5 ze 100 było kompletnymi bzdurami [wartości ujemne, wartości niemożliwe], o ile pozostałe 95 są poprawne; to niedorzeczne ”.

Częstotliwy zagorzały może skrytykować przedział wiarygodności bayesowskiej w następujący sposób: „A co, jeśli 95% prawdopodobieństwa a posteriori zostanie uwzględnione w tym zakresie? Co jeśli prawdziwa wartość to, powiedzmy, 0,37? Jeśli tak, to zastosuj swoją metodę zacznie się kończyć, będzie W 75% przypadków NIEPRAWIDŁOWYCH. Twoja odpowiedź brzmi: „No cóż, to w porządku, ponieważ według wcześniejszych przypadków bardzo rzadko wartość wynosi 0,37”, i może tak być, ale chcę metody, która działa dla KAŻDEJ możliwej wartości parametru. Nie obchodzi mnie 99 wartości parametru, KTÓRE NIE Mają, zależy mi na jednej prawdziwej wartości, jaką MASZ. Och, tak przy okazji, twoje odpowiedzi są tylko poprawne jeśli wcześniejsze jest poprawne. Jeśli wyciągniesz go z powietrza, ponieważ wydaje się to właściwe, możesz być daleko ”.

W pewnym sensie obaj partyzanci mają rację w swoich krytycznych ocenach metod, ale zachęcam do matematycznego myślenia o rozróżnieniu - jak wyjaśnia Srikant.

Oto rozszerzony przykład z tego przemówienia, który pokazuje różnicę właśnie w dyskretnym przykładzie.

Kiedy byłem dzieckiem, moja matka czasami mnie zaskakiwała, zamawiając słoik ciasteczek z kawałkami czekolady, które należy dostarczyć pocztą. Firma dostarczająca zaopatrzyła się w cztery różne rodzaje słoików z ciasteczkami - typ A, typ B, typ C i typ D, wszystkie były na tej samej ciężarówce i nigdy nie byłeś pewien, jaki typ otrzymasz. Każdy słoik miał dokładnie 100 ciastek, ale cechą wyróżniającą różne słoiki z ciastkami była ich odpowiednia dystrybucja kawałków czekolady na ciasteczko. Jeśli sięgniesz do słoika i wyjmiesz losowo jedno ciasteczko jednolicie, są to rozkłady prawdopodobieństwa, które otrzymasz na liczbę żetonów:

alternatywny tekst

Na przykład słoik z ciastkami typu A ma 70 ciastek z dwoma żetonami, i nie ma ciastek z czterema lub więcej żetonami! Słoik na ciastka typu D ma 70 ciastek z jednym chipem. Zauważ, że każda pionowa kolumna jest funkcją masy prawdopodobieństwa - warunkowe prawdopodobieństwo liczby żetonów, które otrzymasz, biorąc pod uwagę, że jar = A, B, C lub D, a każda kolumna sumuje się do 100.

Uwielbiałem grać w grę, gdy tylko dostawca dostarczył mój nowy pojemnik na ciastka. Wyciągnąłem losowo jedno ciasteczko ze słoika, policzyłem żetony na ciastku i spróbowałem wyrazić moją niepewność - na poziomie 70% - jakie to może być słoiki. Zatem to tożsamość słoika (A, B, C lub D) jest wartością szacowanego parametru . Liczba żetonów (0, 1, 2, 3 lub 4) jest wynikiem, obserwacją lub próbką.

Początkowo grałem w tę grę z częstym, 70% przedziałem ufności. Taki interwał musi gwarantować, że bez względu na prawdziwą wartość parametru, czyli bez względu na to, który słoik z ciasteczkami mam, przedział ten pokryje tę prawdziwą wartość z prawdopodobieństwem co najmniej 70%.

Przedział to oczywiście funkcja, która wiąże wynik (wiersz) z zestawem wartości parametru (zestawem kolumn). Ale aby skonstruować przedział ufności i zagwarantować 70% pokrycie, musimy pracować „pionowo” - patrząc kolejno na każdą kolumnę i upewniając się, że 70% funkcji masy prawdopodobieństwa jest pokryte, aby w 70% przypadków tożsamość kolumny będzie częścią przedziału, który się pojawi. Pamiętaj, że to pionowe kolumny tworzą pmf

Po wykonaniu tej procedury skończyłem z następującymi interwałami:

wprowadź opis zdjęcia tutaj

Na przykład, jeśli liczba żetonów na wylosowanym przeze mnie pliku cookie wynosi 1, mój przedział ufności wyniesie {B, C, D}. Jeśli liczba wynosi 4, mój przedział ufności wyniesie {B, C}. Zauważ, że ponieważ każda kolumna sumuje się do 70% lub więcej, to bez względu na to, w której kolumnie naprawdę się znajdujemy (bez względu na to, w którym słoju dostarczono dostawcę), odstęp czasu wynikający z tej procedury będzie obejmować prawidłowy słoik z prawdopodobieństwem co najmniej 70%.

Zauważ też, że procedura, którą zastosowałem przy konstruowaniu przedziałów, była dość dyskretna. W kolumnie dotyczącej typu B równie łatwo mogłem się upewnić, że przedziały zawierające B wyniosłyby 0,1,2,3 zamiast 1,2,3,4. Spowodowałoby to 75% pokrycie słoików typu B (12 + 19 + 24 + 20), wciąż spełniających dolną granicę 70%.

Moja siostra Bayesia uważała jednak, że takie podejście jest szalone. „Musisz rozważyć dostawcę jako część systemu” - powiedziała. „Bawmy tożsamość słoiku jako samej zmiennej losowej, a niech zakładają , że deliverman wybiera spośród nich równomiernie - co oznacza, że ma wszystkie cztery na jego samochodu, a kiedy dostaje się do naszego domu, który wybiera jeden losowo, każdy z jednolite prawdopodobieństwo ”.

„Przy takim założeniu przyjrzyjmy się teraz wspólnym prawdopodobieństwom całego zdarzenia - typowi słoika i liczbie żetonów pobranych z pierwszego pliku cookie”, powiedziała, rysując następującą tabelę:

wprowadź opis zdjęcia tutaj

Zauważ, że cała tabela jest teraz funkcją masy prawdopodobieństwa - co oznacza, że cała tabela sumuje się do 100%.

„Ok”, powiedziałem, „dokąd zmierzasz?”

„Patrzyłeś na warunkowe prawdopodobieństwo liczby żetonów, biorąc pod uwagę słoik,” powiedział Bayesia. „To wszystko źle! Naprawdę zależy ci na warunkowym prawdopodobieństwie, który to jest słoik, biorąc pod uwagę liczbę żetonów na ciasteczku! Twój 70% interwał powinien po prostu obejmować słoiki z listami, które łącznie mają 70% prawdopodobieństwa bycia prawdziwy słój. Czy to nie jest o wiele prostsze i bardziej intuicyjne? ”

„Jasne, ale jak to obliczyć?” Zapytałam.

„Powiedzmy, że wiemy , że masz 3 żetony. Następnie możemy zignorować wszystkie pozostałe wiersze w tabeli i po prostu potraktować ten wiersz jako funkcję masy prawdopodobieństwa. Musimy proporcjonalnie zwiększyć prawdopodobieństwo, aby każdy wiersz sumował się do 100 , chociaż." Ona zrobiła:

wprowadź opis zdjęcia tutaj

„Zauważ, że każdy rząd ma teraz wartość pmf i sumuje się do 100%. Odwróciliśmy prawdopodobieństwo warunkowe od tego, od czego zacząłeś - teraz jest to prawdopodobieństwo, że mężczyzna rzuci pewien słoik, biorąc pod uwagę liczbę żetonów na pierwsze ciasteczko ”.

„Interesujące” - powiedziałem. „Więc teraz po prostu zakreślamy tyle słoików w każdym rzędzie, aby uzyskać do 70% prawdopodobieństwa?” Zrobiliśmy to, robiąc te przedziały wiarygodności:

wprowadź opis zdjęcia tutaj

Każdy interwał zawiera zestaw słoików, które, a posteriori , sumują się do 70% prawdopodobieństwa bycia prawdziwym słoikiem.

„Cóż, poczekaj,” powiedziałem. „Nie jestem przekonany. Połóżmy dwa rodzaje odstępów obok siebie i porównajmy je pod kątem zasięgu, zakładając, że dostawca wybiera każdy rodzaj słoika z jednakowym prawdopodobieństwem i wiarygodnością.”

Tutaj są:

Przedziały ufności:

wprowadź opis zdjęcia tutaj

Przedziały wiarygodności:

wprowadź opis zdjęcia tutaj

„Zobacz, jak szalone są twoje przedziały ufności?” powiedziała Bayesia. „Nawet nie masz rozsądnej odpowiedzi, kiedy narysujesz ciastko z zerowymi żetonami! Po prostu mówisz, że to pusty przedział. Ale to oczywiście nie tak - musi to być jeden z czterech rodzajów słoików. Jak możesz z tym żyć sam, określając przedział na koniec dnia, gdy wiesz, że przedział jest nieprawidłowy? I to samo, gdy wyciągniesz ciasteczko z 3 żetonami - przedział jest prawidłowy tylko w 41% przypadków. Nazywając to „70%” pewnością interwał to bzdury. ”

„Hej,” odpowiedziałem. „Jest to poprawne w 70% przypadków, bez względu na to, który słoik został dostarczony przez dostawcę. To o wiele więcej, niż możesz powiedzieć o przedziałach wiarygodności. Co zrobić, jeśli słoik jest typu B? W takim razie twój przedział będzie nieprawidłowy w 80% przypadków i poprawia tylko 20% czasu! ”

„To wydaje się dużym problemem,” kontynuowałem, „ponieważ twoje błędy będą skorelowane z rodzajem słoika. Jeśli wyślesz 100 robotów„ bayesowskich ”, aby ocenić, jaki masz typ słoika, każdy robot próbkuje jedno ciasteczko, „Mówię mi, że w dni typu B 80 robotów otrzyma złą odpowiedź, z których każdy ma> 73% wiary w jej błędne zakończenie! To kłopotliwe, szczególnie jeśli chcesz, aby większość robotów zgodziła się na poprawna odpowiedź."

„PLUS musieliśmy przyjąć założenie, że dostawca zachowuje się jednolicie i wybiera losowo każdy rodzaj słoika” - powiedziałem. „Skąd to się wzięło? Co jeśli to nie tak? Nie rozmawiałeś z nim; nie przeprowadzałeś z nim wywiadu. Jednak wszystkie twoje stwierdzenia prawdopodobieństwa a posteriori opierają się na tym oświadczeniu o jego zachowaniu. Nie musiałem wszelkie takie założenia, a mój przedział spełnia kryterium nawet w najgorszym przypadku. ”

„To prawda, że mój przedział wiarygodności działa słabo na słoikach typu B” - powiedział Bayesia. „Ale co z tego? Słoiki typu B zdarzają się tylko w 25% przypadków. Równoważy to moje dobre omówienie słoików typu A, C i D. I nigdy nie publikuję bzdur.”

„To prawda, że mój przedział ufności działa słabo, gdy narysowałem ciasteczko z zerowymi układami scalonymi” - powiedziałem. „Ale co z tego? Ciasteczka bezwiórowe zdarzają się co najwyżej 27% czasu w najgorszym przypadku (słoik typu D). Mogę sobie pozwolić na bzdury dla tego wyniku, ponieważ ŻADNY słoik nie da błędnej odpowiedzi więcej niż 30 % czasu. ”

„Kolumna sumuje znaczenie” - powiedziałem.

„Wiersz sumuje znaczenie” - powiedziała Bayesia.

„Widzę, że jesteśmy w impasie” - powiedziałem. „Obaj mamy poprawne stwierdzenia matematyczne, które wypowiadamy, ale nie zgadzamy się co do właściwego sposobu oceny niepewności”.

„To prawda”, powiedziała moja siostra. „Chcesz ciasteczka?”

Keith Winstein
źródło

17

Dobra odpowiedź - tylko jeden drobny punkt, mówisz „.... Zamiast powiedzieć, że parametr ma jedną prawdziwą wartość, metoda bayesowska mówi, że wartość jest wybrana z pewnego rozkładu prawdopodobieństwa .....” To nie jest prawda. Bayesian pasuje do rozkładu prawdopodobieństwa, aby wyrazić niepewność dotyczącą prawdziwej, nieznanej, stałej wartości. To mówi, które wartości są prawdopodobne, biorąc pod uwagę to, co było znane przed obserwacją danych. Rzeczywiste zestawienie prawdopodobieństwa to

, gdzie

jest wartością prawdziwą, a

hipotetyczną, opartą na informacjach

P r [θ_{0} \in (θ, θ + d θ) | I]

$Pr[\theta_0\in (\theta,\theta+d\theta)|I]$

θ_{0}

$\theta_0$

θ

$\theta$

.

I

$I$

Prawdopodobieństwo

1

... kont. ... ale o wiele wygodniej jest po prostu napisać

, rozumiejąc, co to znaczy „w tle”. Oczywiście może to powodować wiele zamieszania.

p (θ)

$p(\theta)$

prawdopodobieństwo prawdopodobieństwo

16

przepraszam, że ożywiam ten super stary post, ale szybkie pytanie, w swoim poście w sekcji, w której częsty krytykuje Bayesowskie podejście, mówisz: „A jeśli prawdziwa wartość to, powiedzmy, 0,37? Jeśli tak, to twoja metoda, uruchom start na zakończenie będzie W 75% przypadków NIEPRAWIDŁOWY. ” Skąd masz te liczby? w jaki sposób 0,37 odpowiada 75% błędowi? Czy jest to wyłączone z jakiejś krzywej prawdopodobieństwa? Dzięki

BYS2,

1

Fajna ilustracja! Jak zmieniono by przedziały ufności i wiarygodności modelu chipa czekoladowego, gdybyśmy mogli próbować n ciasteczek ze słoika? Czy możemy ocenić dokładność tych dwóch podejść, gromadząc dane o względnej częstotliwości. dostarczonych słoików? Domyślam się, że podejście bayesowskie da lepsze prognozy, gdy będziemy dość pewni co do wcześniejszej dystrybucji (powiedzmy po ~ 30 dostawach?). Ale jeśli poprzedni dbn miałby się gwałtownie zmienić (powiedzmy, że nowy dostawca podejmuje pracę), wówczas podejście częstokrzyskiego miałoby tę przewagę.

RobertF

4

@ BYS2, gdy autor tak mówi "What if the true value is, say, 0.37? If it is, then your method, run start to finish, will be WRONG 75% of the time", podają tylko numery, które wymyślili . W tym konkretnym przypadku odnoszą się one do pewnego wcześniejszego rozkładu, który miał bardzo niską wartość 0,37, a większość jego gęstości prawdopodobieństwa gdzie indziej. Zakładamy, że nasza przykładowa dystrybucja działałaby bardzo słabo, gdy prawdziwa wartość parametru wynosi 0,37, podobnie jak w przypadku przedziałów wiarygodności Bayesii nieszczęśliwie, gdy słoik był typu B.

Garrett,

32

Moje rozumienie jest następujące:

tło

$x$ $\theta$ $x$ $\theta$ $x$ $f(x|\theta)$

Problem wnioskowania

$\theta$ $x$

Przedziały ufności

$\theta$ $x$ $\theta$ $\hat{\theta}$

$x$

$I \equiv [lb(x), ub(x)]$

$P(\theta \in I) = 0.95$

Przedział skonstruowany w taki sposób jest nazywany przedziałem ufności. Ponieważ wartość true jest nieznana, ale ustalona, wartość true znajduje się w przedziale lub poza przedziałem. Przedział ufności jest zatem stwierdzeniem o prawdopodobieństwie, że uzyskany przedział ma rzeczywiście wartość parametru. Tak więc instrukcja prawdopodobieństwa dotyczy raczej przedziału (tj. Szansy na ten przedział, który ma prawdziwą wartość lub nie), a nie lokalizacji położenia prawdziwej wartości parametru.

W tym paradygmacie nie ma sensu mówić o prawdopodobieństwie, że prawdziwa wartość jest mniejsza lub większa od pewnej wartości, ponieważ prawdziwa wartość nie jest zmienną losową.

Wiarygodne odstępy czasu

$f(\theta)$

$f(\theta|-) \propto f(\theta) f(x|\theta)$

Następnie dochodzimy do oszacowania punktowego z wykorzystaniem rozkładu tylnego (np. Użyj średniej rozkładu tylnego). Ponieważ jednak w ramach tego paradygmatu prawdziwy wektor parametrów jest zmienną losową, chcemy również poznać zakres niepewności, jaki mamy w naszym oszacowaniu punktowym. W ten sposób konstruujemy przedział tak, aby:

$P(l(\theta) \le {\theta} \le ub(\theta)) = 0.95$

Powyżej jest wiarygodny przedział.

Podsumowanie

Wiarygodne odstępy czasu wychwytują naszą obecną niepewność co do lokalizacji wartości parametrów, a zatem mogą być interpretowane jako probabilistyczne stwierdzenie dotyczące parametru.

Natomiast przedziały ufności wychwytują niepewność dotyczącą uzyskanego przedziału (tj. Czy zawiera on prawdziwą wartość, czy nie). Dlatego nie można ich interpretować jako probabilistycznego stwierdzenia o prawdziwych wartościach parametrów.

źródło

2

95% przedział ufności z definicji obejmuje prawdziwą wartość parametru w 95% przypadków, jak prawidłowo wskazałeś. Zatem prawdopodobieństwo, że przedział obejmuje rzeczywistą wartość parametru, wynosi 95%. Czasami możesz powiedzieć coś o prawdopodobieństwie, że parametr jest większy lub mniejszy niż dowolna z granic, w oparciu o założenia przyjęte podczas konstruowania przedziału (często normalny rozkład oszacowania). Możesz obliczyć P (theta> ub) lub P (ub <theta). Stwierdzenie dotyczy rzeczywiście granicy, ale możesz to zrobić.

Joris Meys,

9

Joris, nie mogę się zgodzić. Tak, dla każdej wartości parametru istnieje prawdopodobieństwo> 95%, że wynikowy przedział obejmie prawdziwą wartość. Nie oznacza to, że po przeprowadzeniu określonej obserwacji i obliczeniu przedziału nadal istnieje 95% prawdopodobieństwa warunkowego, biorąc pod uwagę dane, że przedział ten pokrywa prawdziwą wartość. Jak powiedziałem poniżej, formalnie byłoby całkowicie akceptowalne, aby przedział ufności wypluł [0, 1] 95% czasu, a pusty ustawi pozostałe 5%. Czasami masz pusty zestaw jako przedział, nie ma 95% prawdopodobieństwa, że prawdziwa wartość jest w środku!

Keith Winstein,

@ Keith: Rozumiem, o co ci chodzi, chociaż pusty zestaw z definicji nie jest interwałem. Przeciwnie, prawdopodobieństwo przedziału ufności również nie zależy od danych. Każdy przedział ufności pochodzi z innej losowej próbki, więc prawdopodobieństwo, że twoja próbka zostanie narysowana w taki sposób, że 95% CI, na którym jest oparta, nie pokrywa prawdziwej wartości parametru, wynosi tylko 5%, niezależnie od danych.

Joris Meys,

1

Joris, używałem „danych” jako synonimu „próbki”, więc myślę, że się zgadzamy. Chodzi mi o to, że po pobraniu próbki można znaleźć się w sytuacjach, w których można z absolutną pewnością udowodnić, że interwał jest błędny - że nie obejmuje on prawdziwej wartości. Nie oznacza to, że nie jest to prawidłowy przedział ufności 95%. Nie można więc powiedzieć, że parametr ufności (95%) mówi cokolwiek o prawdopodobieństwie pokrycia określonego przedziału po wykonaniu eksperymentu i uzyskaniu przedziału. Tylko prawdopodobieństwo a posteriori, poinformowane przez przeora, może do tego przemówić.

Keith Winstein,

4

θ

$\theta$

θ

$\theta$

θ

$\theta$

θ

$\theta$

θ

$\theta$

f (θ)

$f(\theta)$

P r (θ is in the interval (θ, θ + d θ) | I) = f (θ) d θ

$Pr(\theta\text{ is in the interval } (\theta,\theta+d\theta)|I)=f(\theta)d\theta$

X

$X$

13

Nie zgadzam się z odpowiedzią Srikanta w jednym zasadniczym punkcie. Srikant stwierdził:

„Problem wnioskowania: Twoim problemem wnioskowania jest: Jakie wartości θ są rozsądne, biorąc pod uwagę zaobserwowane dane x?”

W rzeczywistości jest to BAYESIAN INFERENCE PROBLEM. W statystyce bayesowskiej staramy się obliczyć P (θ | x), tj. Prawdopodobieństwo wartości parametru przy danych obserwowanych (próbie). WIARYGODNY ODLEGŁOŚĆ to przedział θ, który ma 95% szansy (lub innej) na zawarcie prawdziwej wartości θ, biorąc pod uwagę kilka założeń leżących u podstaw problemu.

PROBLEM Z WYKORZYSTANIEM CZĘSTOTLIWOŚCI:

Czy zaobserwowane dane x są rozsądne, biorąc pod uwagę hipotetyczne wartości θ?

W statystyce częstokrzyskiej staramy się obliczyć P (x | θ), tj. Prawdopodobieństwo obserwacji danych (próbki) przy hipotetycznych wartościach parametrów. INTERWAŁ ZAUFANIA (być może mylący) jest interpretowany jako: jeśli eksperyment, który wygenerował losową próbkę x powtórzono wiele razy, 95% (lub inne) takich przedziałów zbudowanych z tych losowych próbek zawierałoby prawdziwą wartość parametru.

Bałagan w głowie? Taki jest problem ze statystyką częstokroć, a najważniejsze jest to, co dzieje się w statystykach bayesowskich.

Jak zauważa Sikrant, P (θ | x) i P (x | θ) są powiązane w następujący sposób:

P (θ | x) = P (θ) P (x | θ)

Gdzie P (θ) jest naszym wcześniejszym prawdopodobieństwem; P (x | θ) jest prawdopodobieństwem danych zależnych od tego wcześniejszego, a P (θ | x) jest prawdopodobieństwem późniejszym. Wcześniejsze P (θ) jest z natury subiektywne, ale taka jest cena wiedzy o Wszechświecie - w bardzo głębokim sensie.

Pozostałe części odpowiedzi zarówno Sikranta, jak i Keitha są doskonałe.

Thylacoleo
źródło

Technicznie masz rację, ale zwróć uwagę, że przedział ufności podaje zestaw wartości parametrów, dla których hipoteza zerowa jest prawdziwa. Zatem „czy obserwowane dane są rozsądne, biorąc pod uwagę naszą hipotezę o theta?” można ponownie sformułować jako „Jakie prawdziwe wartości theta byłyby zgodną hipotezą, biorąc pod uwagę zaobserwowane dane x?” Zauważ, że ponownie sformułowane pytanie niekoniecznie oznacza, że theta jest uważana za zmienną losową. Ponownie sformułowane pytanie wykorzystuje fakt, że przeprowadzamy testy zerowej hipotezy, sprawdzając, czy hipotetyczna wartość mieści się w przedziale ufności.

@svadali - przedziały ufności oceniają dane pod kątem ustalonej hipotezy. Tak więc, zmieniając „stałą” część równania, jeśli nie uwzględnisz prawdopodobieństwa hipotezy przed zaobserwowaniem twoich danych, z pewnością dojdziesz do niespójności i niespójnych wyników. Prawdopodobieństwo warunkowe nie jest „ograniczone” przy zmianie warunków (np. Zmieniając warunki można zmienić prawdopodobieństwo warunkowe z 0 na 1). Wcześniejsze prawdopodobieństwo uwzględnia tę arbitralność. Uwarunkowanie na X zostało wykonane, ponieważ jesteśmy pewni, że X wystąpiło - obserwowaliśmy X!

probabilityislogic

13

Odpowiedzi udzielone wcześniej są bardzo pomocne i szczegółowe. Oto moje 0,25 USD.

Przedział ufności (CI) jest koncepcją opartą na klasycznej definicji prawdopodobieństwa (zwanej także „definicją Frequentist”), że prawdopodobieństwo jest podobne do proporcji i oparte na systemie aksjomatycznym Kołmogrowa (i innych).

Wiarygodne odstępy czasu (najwyższa gęstość boczna, HPD) można uznać za mające swoje korzenie w teorii decyzji, opartej na pracach Walda i de Finetti (i znacznie rozszerzonych przez innych).

Ponieważ ludzie w tym wątku wykonali świetną robotę, podając przykłady i różnicę hipotez w przypadku bayesowskim i częstym, podkreślę tylko kilka ważnych punktów.

CI opierają się na fakcie, że wnioskowanie MUSI być dokonywane na wszystkich możliwych powtórzeniach eksperymentu, które można zobaczyć, a NIE tylko na obserwowanych danych, gdzie jako HPD CAŁKOWICIE opierają się na obserwowanych danych (i oczywiście naszych wcześniejszych założeniach).
Ogólnie CI nie są spójne (wyjaśnione później), ponieważ jako HPD są spójne (ze względu na swoje korzenie w teorii decyzji). Koherencja (jak wyjaśniłabym mojej babci) oznacza: biorąc pod uwagę problem z zakładaniem wartości parametru, jeśli klasyczny statystyk (częsty) stawia zakłady na CI, a bayesowski obstawia na HPD, częsty JEST ZWIĄZANY z przegraną (z wyjątkiem trywialnego przypadku gdy HPD = CI). Krótko mówiąc, jeśli chcesz podsumować wyniki eksperymentu jako prawdopodobieństwo oparte na danych, prawdopodobieństwo MUSI być prawdopodobieństwem późniejszym (na podstawie wcześniejszego). Istnieje twierdzenie (por. Heath i Sudderth, Annals of Statistics, 1978), które (z grubsza) stwierdza: Przypisanie prawdopodobieństwa do $\theta$
Ponieważ elementy CI nie warunkują obserwowanych danych (zwanych również „zasadą warunkowości” CP), mogą istnieć paradoksalne przykłady. Fisher był wielkim zwolennikiem CP, a także znalazł wiele paradoksalnych przykładów, kiedy NIE było to przestrzegane (jak w przypadku CI). To jest powód, dla którego użył wartości p do wnioskowania, w przeciwieństwie do CI. Jego zdaniem wartości p były oparte na obserwowanych danych (wiele można powiedzieć o wartościach p, ale nie o to tu chodzi). Dwa z bardzo znanych paradoksalnych przykładów to: (4 i 5)
$X_i \sim \mathcal{N}(\mu, \sigma^2)$ $i\in\{1,\dots,n\}$ $\mu$ $n$ $0.5\sigma^2+0.0005\sigma^2$ $n = 1000$ $0.001\sigma^2$ $0.5\sigma^2+0.0005\sigma^2$ $0.001\sigma^2$ $n=1000$ $n$ $\mu$ $\sigma$ $n$ $n$
$n$ $n=2$ $X_1, X_2 \sim \mathcal{U}(\theta - 1/2, \theta +1/2)$ $\theta$ $X_1 - \theta \sim \mathcal{U}(-1/2, 1/2)$ $\frac{1}{2}(X_1 + X_2) {\bar x} - \theta$ $\theta$ $c > 0$ $\text{Prob}_\theta(-c <= {\bar x} - \theta <= c) = 1-\alpha (\approx 99\%)$ $({\bar x} - c, {\bar x} + c)$ $\theta$ ${\bar x}$ $\theta$ $\theta$ $X_1 = 0$ $X_2=1$ $|X_1 - X_2|=1$ $(X_1, X_2)$ $\theta$ $\text{Prob}(|X_1 - X_2|=1) = 0$ $|X_1 - X_2|$ $|X_1 - X_2|$ $|X_1 - X_2|$
$X_2-X_1$ $X_2-X_1$ $\theta$ $X_2-X_1$ $\theta$ $X_2-X_1$ $\theta$ (zwany także jego największą porażką, por. Zabell, Stat. Sci. 1992), ale nie stał się popularny z powodu braku ogólności i elastyczności. Fisher próbował znaleźć sposób odmienny zarówno od klasycznych statystyk (szkoły Neymana), jak i szkoły bayesowskiej (stąd słynne powiedzenie Savage'a: „Fisher chciał zrobić omlet z Bayesa (tj. Używając CP) bez rozbijania jaj Bayesa”) . Folklor (bez dowodu) mówi: Fisher w swoich debatach zaatakował Neymana (za błędy typu I i II oraz CI), nazywając go raczej facetem kontroli jakości niż naukowcem , ponieważ metody Neymana nie zależały od obserwowanych danych, zamiast tego wyglądały przy wszystkich możliwych powtórzeniach.
Statystycy chcą również stosować zasadę wystarczalności (SP) oprócz CP. Ale SP i CP razem implikują zasadę prawdopodobieństwa (LP) (por. Birnbaum, JASA, 1962), tzn. Biorąc pod uwagę CP i SP, należy zignorować przestrzeń próbki i spojrzeć tylko na funkcję prawdopodobieństwa. Dlatego musimy tylko spojrzeć na dane i NIE na całą przestrzeń próbki (patrząc na całą przestrzeń próbki jest w sposób podobny do powtarzania próbkowania). Doprowadziło to do powstania koncepcji takiej jak Observed Fisher Information (por. Efron i Hinkley, AS, 1978), która mierzy informacje o danych z częstej perspektywy. Ilość informacji w danych to koncepcja bayesowska (a zatem związana z HPD) zamiast CI.
Kiefer podjął pewne fundamentalne prace nad CI pod koniec lat siedemdziesiątych, ale jego rozszerzenia nie stały się popularne. Dobrym źródłem informacji jest Berger („Could Fisher, Neyman i Jeffreys zgadzają się co do testowania hipotez”, Stat Sci, 2003).

Podsumowanie:

(Jak wskazali Srikant i inni)
CI nie mogą być interpretowane jako prawdopodobieństwo i nie mówią nic o nieznanym parametrze PODAJ obserwowane dane. CI to stwierdzenia dotyczące powtarzanych eksperymentów.

HPD są przedziałami probabilistycznymi opartymi na rozkładzie tylnym nieznanego parametru i mają interpretację opartą na prawdopodobieństwie na podstawie podanych danych.

Właściwość częstokroć (powtarzane próbkowanie) jest właściwością pożądaną, a HPD (z odpowiednimi priorytetami) i CI mają je. Warunki HPD na podanych danych również w odpowiedziach na pytania dotyczące nieznanego parametru

(Cel NIE Subiektywny) Bayesianie zgadzają się z klasycznymi statystykami, że istnieje jedna PRAWDA wartość parametru. Jednak oba różnią się sposobem wnioskowania o tym prawdziwym parametrze.

Bayesowskie HPD dają nam dobry sposób na uzależnienie od danych, ale jeśli nie zgadzają się z częstymi właściwościami CI, nie są bardzo przydatne (analogia: osoba, która używa HPD (z pewnymi wcześniejszymi) bez dobrej właściwości częstokształtnej, jest związana być zgubionym jak stolarz, który dba tylko o młotek i zapomina śrubokręta)

W końcu widziałem ludzi w tym wątku (komentarze dr Jorisa: „... założone założenia sugerują rozproszony uprzedni, tj. Całkowity brak wiedzy o prawdziwym parametrze.”) Mówiące o braku wiedzy o prawdziwym parametrze równoważne z użyciem rozproszonego wcześniej. Nie wiem, czy mogę zgodzić się z tym stwierdzeniem (Dr. Keith zgadza się ze mną). Na przykład, w przypadku podstawowych modeli liniowych, niektóre rozkłady można uzyskać, stosując wcześniejsze jednolite (co niektórzy nazywają rozproszeniem), ALE NIE oznacza to, że jednolity rozkład można uznać za NIŻSZY INFORMACJĘ. Ogólnie rzecz biorąc, wcześniejsza niż INFORMACYJNA (Cel) nie oznacza, że ma niską informację o parametrze.

Uwaga:Wiele z tych punktów opiera się na wykładach jednego z wybitnych bayesianów. Nadal jestem studentem i mogłem go w jakiś sposób źle zrozumieć. Proszę przyjąć moje przeprosiny z góry.

suncoolsu
źródło

„częsty przegrywa”. Patrząc na najczęściej głosowaną odpowiedź, zakładam, że zależy to od funkcji użyteczności (np. nie jeśli trwa optymalizacja żalu). Intuicyjnie może to zależeć również od umiejętności określenia wcześniejszej funkcji ...

Abel Molina

4

„częsty przegrywa”… * pod warunkiem posiadania odpowiedniego wcześniejszego * (co ogólnie nie jest takie łatwe). Idealny przykład: uzależnieni od hazardu są w 99% pewni, że tym razem ich szczęście się zmieni. Ci, którzy uwzględniają to wcześniej w analizie decyzji, zwykle nie radzą sobie tak dobrze na dłuższą metę.

Cliff AB

1

Nie sądzę, że powinieneś skracać przedziały ufności jako CI w odpowiedzi na temat rozróżnienia między przedziałami wiarygodności a przedziałami ufności.

Hugh

10

Zawsze fajnie jest zaangażować się w odrobinę filozofii. Bardzo podoba mi się odpowiedź Keitha, ale powiedziałbym, że zajmuje stanowisko „zapominalskiego pana Bayesia”. Złe pokrycie, gdy typ B i typ C może wystąpić tylko wtedy, gdy stosuje on ten sam rozkład prawdopodobieństwa na każdej próbie i odmawia wcześniejszej aktualizacji swojego (jej).

Widać to dość wyraźnie, ponieważ słoiki typu A i typu D dają „określone prognozy”, że tak powiem (odpowiednio dla 0-1 i 2-3 żetonów), podczas gdy słoiki typu B i C w zasadzie dają jednolity rozkład żetonów. Tak więc przy powtórzeniach eksperymentu z jakimś ustalonym „prawdziwym słoikiem” (lub jeśli pobraliśmy inny herbatnik), równomierny rozkład wiórów dostarczy dowodów na słoiki typu B lub C.

$KL(B||C) \approx 0.006 \approx KL(C||B)$ $1$ $\sqrt{2\times 0.006}=0.11$

Co dzieje się z tymi wiarygodnymi przedziałami? W rzeczywistości mamy teraz 100% pokrycia „B lub C”! Co z częstymi interwałami? Zasięg jest niezmieniony, ponieważ wszystkie przedziały zawierały zarówno B, jak i C, lub żaden, więc nadal podlega krytyce w odpowiedzi Keitha - 59% i 0% dla zaobserwowanych 3 i 0 żetonów.

$(0+99+99+59+99)/5=71.2$ $(98+60+66+97)/4=80.3$

Inną kwestią, na którą chciałbym podkreślić, jest to, że Bayesian nie mówi, że „parametr jest losowy”, przypisując rozkład prawdopodobieństwa. Dla Bayesian (cóż, przynajmniej dla mnie) rozkład prawdopodobieństwa jest opisem tego, co wiadomo o tym parametrze. Pojęcie „przypadkowości” tak naprawdę nie istnieje w teorii bayesowskiej, tylko pojęcia „poznania” i „niewiedzy”. „Znani” przechodzą w warunki, a „nieznane” obliczamy prawdopodobieństwa, jeśli są interesujące, i marginalizujemy, jeśli są uciążliwe. Wiarygodny interwał opisuje więc to, co wiadomo o stałym parametrze, uśredniając to, czego nie wiadomo o nim. Gdybyśmy zajęli pozycję osoby, która spakowała słoik z ciasteczkami i wiedziała, że jest to typ A, ich przedział wiarygodności wynosiłby po prostu [A], niezależnie od próbki i bez względu na liczbę pobranych próbek. I byłyby w 100% dokładne!

Przedział ufności oparty jest na „losowości” lub wariacji, która występuje w różnych możliwych próbach. Jako takie jedyne zmiany, które biorą pod uwagę, to zmiany w próbie. Tak więc przedział ufności pozostaje niezmieniony dla osoby, która spakowała słoik z ciasteczkami i nowy, że był to typ A. Więc jeśli wyciągnąłeś herbatnik z 1 chipem ze słoika typu A, częsty stwierdziłby z 70% pewnością, że ten typ był nie A, chociaż wiedzą, że słoik jest typu A! (jeśli utrzymali swoją ideologię i zignorowali zdrowy rozsądek). Aby zobaczyć, że tak jest, należy zauważyć, że nic w tej sytuacji nie zmieniło rozkładu próbkowania - po prostu przyjęliśmy perspektywę innej osoby z informacją o parametrze opartą na „braku danych”.

Przedziały ufności będą się zmieniać tylko w przypadku zmiany danych lub zmian modelu / rozkładu próbkowania. przedziały wiarygodności mogą ulec zmianie, jeśli zostaną wzięte pod uwagę inne istotne informacje.

Zauważ, że to szalone zachowanie z pewnością nie jest tym, co faktycznie zrobiłby zwolennik przedziałów ufności; ale pokazuje słabość filozofii leżącej u podstaw tej metody w konkretnym przypadku. Przedziały ufności działają najlepiej, gdy niewiele wiesz o parametrze poza informacjami zawartymi w zbiorze danych. Ponadto przedziały wiarygodności nie będą w stanie znacznie poprawić przedziałów ufności, chyba że istnieją wcześniejsze informacje, których przedział ufności nie może wziąć pod uwagę, lub znalezienie wystarczających i pomocniczych statystyk jest trudne.

prawdopodobieństwo prawdopodobieństwa
źródło

m

$m$

m

$m$

m

$m$

m

$m$

m \to \infty

$m\to\infty$

Tak, w limicie. Zatem dla jednej lub kilku próbek CI nie mają znaczenia, prawda? Jaki jest zatem sens obliczania CI, jeśli nie mam ton próbek?

awokado

3

@loganecolss - dlatego jestem Bayesianinem.

probabilityislogic

2

@nazka - w pewnym sensie. Powiedziałbym, że zawsze najlepiej jest stosować podejście bayesowskie, niezależnie od tego, ile masz danych. Jeśli można to dobrze oszacować za pomocą procedury częstokrzyskiej, użyj tego. Bayesian nie jest synonimem slow.

prawdopodobieństwo

6

Jak rozumiem: wiarygodny przedział to zestawienie zakresu wartości dla statystyki, która pozostaje prawdopodobna, biorąc pod uwagę konkretną próbkę danych, którą faktycznie zaobserwowaliśmy. Przedział ufności jest określeniem częstotliwości, z jaką prawdziwa wartość leży w przedziale ufności, gdy eksperyment powtarza się wiele razy, za każdym razem z inną próbką danych z tej samej populacji podstawowej.

Zwykle pytanie, na które chcemy odpowiedzieć, brzmi: „jakie wartości statystyki są zgodne z obserwowanymi danymi”, a wiarygodny przedział daje bezpośrednią odpowiedź na to pytanie - prawdziwa wartość statystyki leży w 95% wiarygodnym przedziale z prawdopodobieństwem 95 % Przedział ufności nie daje bezpośredniej odpowiedzi na to pytanie; nie jest słuszne twierdzenie, że prawdopodobieństwo, że prawdziwa wartość statystyki mieści się w 95% przedziale ufności, wynosi 95% (chyba że zdarza się, że pokrywa się z wiarygodnym przedziałem). Jest to jednak bardzo częsta błędna interpretacja częstego przedziału ufności, ponieważ interpretacja ta byłaby bezpośrednią odpowiedzią na pytanie.

Dokument Jayne'a, który omawiam w innym pytaniu, stanowi dobry przykład tego (przykład # 5), w którym konstruowany jest idealnie poprawny przedział ufności, w którym konkretna próbka danych, na których jest oparta, wyklucza jakąkolwiek możliwość prawdziwej wartości statystyki znajdują się w 95% przedziale ufności! Jest to problem tylko wtedy, gdy przedział ufności jest błędnie interpretowany jako zestaw prawdopodobnych wartości statystyki na podstawie konkretnej próbki, którą zaobserwowaliśmy.

Na koniec dnia chodzi o „konie na kursy”, a najlepszy interwał zależy od pytania, na które chcesz odpowiedzieć - po prostu wybierz metodę, która bezpośrednio odpowie na to pytanie.

Podejrzewam, że przedziały ufności są bardziej przydatne podczas analizy [określonych] powtarzalnych eksperymentów (ponieważ jest to tylko założenie leżące u podstaw przedziału ufności), a wiarygodne przedziały są lepsze podczas analizy danych obserwacyjnych, ale to tylko opinia (używam obu rodzajów przedziałów w moja własna praca, ale nie opisałbym siebie jako eksperta w obu).

Dikran Torbacz
źródło

6

Problem z przedziałami ufności w powtarzanych eksperymentach polega na tym, że aby mogły one działać, warunki powtarzalnego eksperymentu muszą pozostać takie same (i kto by w to uwierzył?), Podczas gdy przedział Bayesa (jeśli jest właściwie stosowany) warunki na obserwowane dane, a tym samym uwzględniają zmiany zachodzące w świecie rzeczywistym (za pośrednictwem danych). Myślę, że to właśnie warunki warunkowania statystyki bayesowskiej sprawiają, że tak trudno jest osiągać lepsze wyniki (myślę, że jest to niemożliwe: można osiągnąć tylko równoważność), a automatyczna maszyneria, która to osiąga, sprawia, że wydaje się to tak śliskie.

prawdopodobieństwo prawdopodobieństwo

3

$P(\theta\in CI)$

Więc tak, możesz powiedzieć „Jeśli powtórzysz eksperyment wiele razy, około 95% z 95% CI pokryje prawdziwy parametr”. Chociaż w języku Bayesian można powiedzieć, że „prawdziwa wartość statystyki leży w 95% wiarygodnym przedziale z prawdopodobieństwem 95%”, to samo prawdopodobieństwo 95% (w języku bayesowskim) jest jedynie szacunkiem. (Pamiętaj, że jest to oparte na rozkładzie warunku, biorąc pod uwagę te konkretne dane, a nie na rozkładzie próbkowania). Ten estymator powinien zawierać losowy błąd związany z losową próbką.

Bayesian stara się uniknąć problemu z błędem typu I. Bayesian zawsze mówi, że nie ma sensu mówić o błędzie typu I w języku Bayesian. To nie do końca prawda. Statystycy zawsze chcą zmierzyć możliwość lub błąd, że „Twoje dane sugerują podjęcie decyzji, ale populacja sugeruje inaczej”. Bayesian nie jest w stanie odpowiedzieć (szczegóły pominięto tutaj). Niestety może to być najważniejsza rzecz, na którą statystyk powinien odpowiedzieć. Statystyki nie tylko sugerują decyzję. Statystycy powinni również być w stanie ustalić, jak bardzo decyzja może pójść źle.

Muszę wymyślić poniższą tabelę i terminy, aby wyjaśnić tę koncepcję. Mam nadzieję, że pomoże to wyjaśnić różnicę między przedziałem ufności a wiarygodnym zestawem.

$P(\theta_0|Data_n)$ $\theta_0$ $P(\theta_0)$ $P(Data_n; \theta)$ $\hat{\theta}$ $P(\hat{\theta}_n; \theta)$ $n$ $P(Data_n | \theta)$ $P(Data_n; \theta)$ $P(\hat{\theta}_n; \theta)$ $P(\theta_0|Data_n)$

Przedział ufności a zestaw wiarygodny

„???????” wyjaśnia, dlaczego nie jesteśmy w stanie ocenić błędu typu I (ani niczego podobnego) w języku Bayesian.

Należy również pamiętać, że w pewnych okolicznościach można użyć wiarygodnych zestawów do przybliżenia przedziałów ufności. Jest to jednak tylko przybliżenie matematyczne. Interpretacja powinna iść z częstym. Interpretacja bayesowska w tym przypadku już nie działa.

$P(x|\theta)$

Zgadzam się z wnioskiem Dikrana Marsupiala . Jeśli jesteś recenzentem FDA, zawsze chcesz wiedzieć o możliwości zatwierdzenia wniosku o narkotyki, ale tak naprawdę lek nie jest skuteczny. Jest to odpowiedź, której Bayesian nie może udzielić, przynajmniej w klasycznym / typowym języku Bayesian.

Chester Lin
źródło

3

Ogólne i spójne zaufanie i wiarygodne regiony. http://dx.doi.org/10.6084/m9.figshare.1528163 z kodem na http://dx.doi.org/10.6084/m9.figshare.1528187

Zawiera opis wiarygodnych przedziałów i przedziałów ufności dla wyboru zestawu wraz z ogólnym kodem R do obliczania zarówno przy uwzględnieniu funkcji prawdopodobieństwa, jak i niektórych zaobserwowanych danych. Ponadto proponuje statystyki testowe, które dają wiarygodne i pewne przedziały ufności o optymalnym rozmiarze, które są ze sobą zgodne.

W skrócie i unikając formuł. Wiarygodny przedział bayesowski opiera się na prawdopodobieństwie parametrów podanych danych . Zbiera parametry o wysokim prawdopodobieństwie do wiarygodnego zestawu / przedziału. 95% wiarygodny przedział zawiera parametry, które razem mają prawdopodobieństwo 0,95 biorąc pod uwagę dane.

Częstościowym przedział ufności opiera się na prawdopodobieństwie danych podanych niektóre parametry . Dla każdego (możliwie nieskończenie wielu) parametru Najpierw generuje zestaw danych, który prawdopodobnie będzie obserwowany przy danym parametrze. Następnie sprawdza dla każdego parametru, czy wybrane dane o wysokim prawdopodobieństwie zawierają dane obserwowane. Jeśli dane o wysokim prawdopodobieństwie zawierają dane obserwowane, odpowiedni parametr jest dodawany do przedziału ufności. Przedział ufności jest zatem zbiorem parametrów, dla których nie możemy wykluczyć możliwości wygenerowania danych przez parametr. Daje to taką zasadę, że przy wielokrotnym stosowaniu do podobnych problemów przedział ufności 95% będzie zawierał prawdziwą wartość parametru w 95% przypadków.

95% wiarygodny zbiór i 95% pewność ustawiony na przykład z ujemnego rozkładu dwumianowego

user36160
źródło

Opis przedziałów ufności jest nieprawidłowy. „95%” pochodzi z prawdopodobieństwa, że próbka z populacji wytworzy przedział, który zawiera prawdziwą wartość parametru.

jlimahaverford

@jlimahaverford - Opis jest poprawny, podobnie jak twój. Aby utworzyć link do tego, co opisujesz, dodałem: „Daje to zasadę, że przy wielokrotnym stosowaniu do podobnych problemów 95% wiarygodny przedział będzie zawierał prawdziwą wartość parametru w 95% przypadków”.

user36160

1

Nie mówiłem o twoim opisie wiarygodnych przedziałów, mówiłem o przedziałach ufności. Zauważam teraz, że w środku akapitu dotyczącego przedziałów ufności znów zaczynasz mówić o wiarygodności i myślę, że to pomyłka. Ważną ideą jest to, że „Gdyby to była prawdziwa wartość parametru, jakie jest prawdopodobieństwo, że narysowałbym próbkę tak ekstremalnie lub więcej. Jeśli odpowiedź jest większa niż 5%, jest to przedział ufności”.

jlimahaverford

@jlimahaverford - zgadzam się i poprawiłem - Dzięki.

36160

hmm, nie widzę tego poprawionego.

jlimahaverford

1

To bardziej komentarz, ale za długi. W następującym artykule: http://www.stat.uchicago.edu/~lekheng/courses/191f09/mumford-AMS.pdf Mumford ma następujący interesujący komentarz:

Podczas gdy wszystkie te naprawdę ekscytujące zastosowania były wykorzystywane w statystykach, większość samych statystyk, pod przewodnictwem Sir RA Fishera, wiązała ręce za plecami, twierdząc, że statystyki nie można wykorzystać w żadnej, ale całkowicie odtwarzalnej sytuacji, a następnie tylko przy użyciu dane empiryczne. Jest to tak zwana szkoła „częstych”, która walczyła ze szkołą bayesowską, która wierzyła, że można wykorzystać priorytety i znacznie rozszerzyć stosowanie wnioskowania statystycznego. Podejście to zaprzecza, że wnioskowanie statystyczne może mieć cokolwiek wspólnego z rzeczywistą myślą, ponieważ sytuacje z życia codziennego są zawsze zakryte zmiennymi kontekstowymi i nie można ich powtórzyć. Na szczęście szkoła bayesowska nie umarła całkowicie, kontynuując ją DeFinetti, ET Jaynes i inni.

kjetil b halvorsen
źródło

Jaka jest różnica między przedziałem ufności a przedziałem wiarygodności?

Odpowiedzi:

Podsumowanie: