Jaki jest powód, dla którego funkcja wiarygodności nie jest plikiem pdf?

57

Jaki jest powód, dla którego funkcja prawdopodobieństwa nie jest pdf (funkcja gęstości prawdopodobieństwa)?

nieznany z nazwiska
źródło
6
Funkcja prawdopodobieństwa jest funkcją nieznanego parametru θ ( zależnego od danych). Jako taki zazwyczaj nie ma obszaru 1 (tzn. Całka wszystkich możliwych wartości θ nie wynosi 1), a zatem z definicji nie jest pdf.
MånsT
3
To samo pytanie dotyczące MO 2 lata temu: mathoverflow.net/questions/10971/…
Douglas Zare
3
Ciekawe referencje, @Douglas. Odpowiedzi są raczej niezadowalające, IMHO. Zaakceptowany zakłada rzeczy, które po prostu nie są prawdziwe („zarówno p(X|m) i p(m|X) są plikami pdf”: nie !), A pozostałe tak naprawdę nie rozumieją problemów statystycznych.
whuber
2
+1 whuber. To zadziwiające, że pomimo tak wysokiego poziomu matematycznego w witrynie przepływu matematyki są tak złe odpowiedzi!
Stéphane Laurent
1
@Stephane: To prawda, ale statystycy, a nawet probabiliści wydają się być dość nieliczni i daleko od MO, z pewnymi znaczącymi wyjątkami. Pytanie to pochodzi z dość wczesnego okresu istnienia MO, kiedy zarówno ogólnie dopuszczalne pytania, jak i jakość odpowiedzi były zasadniczo różne.
kardynał

Odpowiedzi:

61

Zaczniemy od dwóch definicji:

  • 1

  • Prawdopodobieństwo jest zdefiniowane jako łączna gęstość obserwowanych danych w funkcji parametru. Ale, jak wskazano w nawiązaniu do Lehmanna autorstwa @whuber w komentarzu poniżej, funkcja wiarygodności jest funkcją tylko parametru, a dane są przechowywane jako stała stała. Zatem fakt, że jest to gęstość jako funkcja danych, nie ma znaczenia.

Dlatego funkcja wiarygodności nie jest plikiem pdf, ponieważ jej całka w odniesieniu do parametru niekoniecznie musi wynosić 1 (i może wcale nie być całką całkowitą, jak wskazano w innym komentarzu z @whuber).

xBernoulli(θ)

L(θ)=θx(1θ)1x

01L(θ)dθ=1/2x=1L(θ)=θ

01L(θ)dθ=01θ dθ=1/2

x=0L(θ)

Być może nawet ważniejsze niż ten techniczny przykład pokazujący, dlaczego prawdopodobieństwo nie jest gęstością prawdopodobieństwa, polega na wskazaniu, że prawdopodobieństwo nie jest prawdopodobieństwem poprawności wartości parametru lub czymkolwiek podobnym - jest to prawdopodobieństwo (gęstość) danych biorąc pod uwagę wartość parametru , co jest zupełnie inną rzeczą. Dlatego nie należy oczekiwać, że funkcja prawdopodobieństwa będzie zachowywać się jak gęstość prawdopodobieństwa.

Makro
źródło
12
dθψ=log(θ/(1θ))
3
Tak można to ująć: MLE są niezmienne w transformacjach monotonicznych, ale gęstości prawdopodobieństwa nie są, QED! To był dokładnie argument Fishera, który naszkicowałem w komentarzu do odpowiedzi @Michaela Chernicka.
whuber
4
dθσ
1
Df
1
(+1) Pozwól mi być pierwszym, który pogratuluje ci osiągnięcia 10 000 powtórzeń! Niezła odpowiedź; W szczególności podoba mi się podany przez ciebie przykład. Twoje zdrowie. :)
kardynał
2

Okej, ale funkcją prawdopodobieństwa jest łączna gęstość prawdopodobieństwa dla obserwowanych danych, biorąc pod uwagę parametr . Jako taki może być znormalizowany w celu utworzenia funkcji gęstości prawdopodobieństwa. Jest to w zasadzie plik pdf.θ

Michael Chernick
źródło
3
Wskazujesz więc, że prawdopodobieństwo jest całkowalne w odniesieniu do parametru (czy to zawsze prawda?). Przypuszczam, że możesz odwoływać się do związku prawdopodobieństwa z rozkładem bocznym, gdy używa się płaskiego przeora, ale bez dalszych wyjaśnień ta odpowiedź pozostaje dla mnie tajemnicza.
Makro
6
Integracja z jednością nie ma znaczenia. Fisher, w artykule z 1922 r. O matematycznych podstawach statystyki teoretycznej, zauważył, że rzeczywiście prawdopodobieństwo może być „znormalizowane” w celu włączenia do jedności po pomnożeniu przez odpowiednią funkcję tak że . Co mu się sprzeciwił jest arbitralność : istnieje wiele że działa. „... słowo prawdopodobieństwo jest błędnie użyte w takim połączeniu: prawdopodobieństwo jest stosunkiem częstotliwości, a o częstotliwościach takich wartości nic nie wiemy”. L(θ)p(θ)L(θ)p(θ)dθ=1p
whuber
1
@ Néstor (i Michael) - wydaje się, że zarówno whuber, jak i ja zinterpretowaliśmy to pytanie jako pytanie, dlaczego prawdopodobieństwo nie jest funkcją gęstości, jako funkcjęθ więc wydaje się, że odpowiadamy na różne pytania. Oczywiście prawdopodobieństwem jest funkcja gęstości obserwacji (biorąc pod uwagę wartość parametru) - tak to się definiuje.
Makro
2
Michael, myślę, że interpretowaliśmy to w ten sposób, ponieważ prawdopodobieństwo jest funkcją więc jeśli byłaby to gęstość, to byłaby to gęstość w . Mogę sobie wyobrazić interpretację tego w taki sposób, jak ty, ale taka możliwość nie przyszła mi do głowy po przeczytaniu komentarza Nestora. θθ
Makro
4
Uważam, że ta odpowiedź tworzy dwuznaczność, ale nie jest obecna w pytaniu. Jak wskazuje @Macro, prawdopodobieństwo jest funkcją tylko parametru. ( Np. „Gęstość , uważana za stałą jako funkcję , nazywa się funkcją prawdopodobieństwa : EL Lehmann, Teoria szacowania punktów , sekcja 6.2 ). Zatem pytanie jest jasne. Odpowiedź zatem, że „prawdopodobieństwo jest łączną gęstością prawdopodobieństwa” nie wyjaśnia, ale f(x1,θ)f(xn,θ)xθ
dezorientuje
1

Nie jestem statystykiem, ale rozumiem, że chociaż sama funkcja prawdopodobieństwa nie jest plikiem PDF w odniesieniu do parametrów, to jest bezpośrednio związana z tym plikiem PDF według reguły Bayesa. Funkcja prawdopodobieństwa P (X | theta) i rozkład tylny f (theta | X) są ściśle powiązane; wcale nie „zupełnie inna rzecz”.

santayana
źródło
1
Witamy na naszej stronie! W komentarzach do innych odpowiedzi w tym wątku możesz znaleźć interesujący materiał. Niektóre z nich wskazują, dlaczego Reguła Bayesa nie ma zastosowania, chyba że zostanie wyraźnie wprowadzona dodatkowa maszyneria matematyczna (np. Pole Sigma dla parametru).
whuber
Dzięki @whuber. Nie zauważyłem żadnych odniesień do Reguły Bayesa gdzie indziej w tym wątku, ale przypuszczam, że w komentarzach są aluzje, zakładając, że ktoś jest wystarczająco biegły w prawdopodobieństwie na poziomie absolwenta, aby je wychwycić (czego nie jestem). Czy nie zgodziłbyś się, że umieszczenie funkcji prawdopodobieństwa w kontekście Reguły Bayesa zapewnia użyteczną intuicję dla pytania PO?
santayana
Zastosowanie reguły Bayesa nie jest możliwe bez przyjęcia rozkładu prawdopodobieństwa dla : różnica między tym rozkładem a rozkładem danych w funkcji jest tym, o co właściwie chodzi w tym wątku. Domniemane założenie, że istnieje lub może być taki rozkład, jest źródłem zamieszania omawianego w wątku komentarza do odpowiedzi Michaela Chernicka. W związku z tym zgodziłbym się, że jasna i staranna dyskusja na ten temat może być pomocna, ale wszystko to może powodować większe zamieszanie. θθ
whuber
Przepraszam, na pierwszy rzut oka ta nitka wydawała się niewiele więcej niż nieporozumieniem, ale teraz widzę odpowiednie komentarze, do których się odwołujesz, w szczególności cytat z Fisher. Ale czy nie sprowadza się to do debaty Bayesian przeciwko częstotliwościom? Czy nie ma wielu praktyków wnioskowania bayesowskiego, którzy opowiadaliby się za rozkładem prawdopodobieństwa dla theta? (to, czy się z nimi zgadzasz, to inna sprawa ...)
santayana
1
Tak, czai się tutaj debata B vs. F. Przemyślany częstościowym chętnie wykorzystywać regułę Bayesa, gdy istnieje podstawa do przyjęcia wcześniejszej dystrybucji dla , ale spółka części z Bayesians zaprzeczając, że należy przyjąć przed. Możemy wywnioskować, jak sformułowano to pytanie. Gdyby zamiast tego zapytał „dlaczego można traktować funkcję prawdopodobieństwa jako plik PDF (dla parametrów)”, prowadziłby tę rozmowę wzdłuż linii Bayesa. Ale zadając to pytanie przecząco, PO szukał nas, byśmy zbadali prawdopodobieństwo z częstego punktu widzenia. θ
whuber
1

Prawdopodobieństwo jest zdefiniowane jako , gdzie jeśli f (x; θ) jest funkcją masy prawdopodobieństwa , wówczas prawdopodobieństwo jest zawsze mniejsze niż jeden, ale jeśli f (x; θ) jest funkcją gęstości prawdopodobieństwa, prawdopodobieństwo może być większe niż jeden, ponieważ gęstości mogą być większe niż jeden.L(θ;x1,...,xn)=f(x1,...,xn;θ)

Zwykle próbki są traktowane iid, a następnie:
L(θ;x1,...,xn)=f(x1,...,xn;θ)=jf(xj;θ)

Zobaczmy jego oryginalną formę:

Zgodnie z wnioskiem bayesowskim utrzymuje, to jest . Zauważ, że oszacowanie maksymalnego prawdopodobieństwa traktuje stosunek dowodów do wcześniejszych jako stałą (patrz odpowiedzi na to pytanie ), co pomija wcześniejsze przekonania. Prawdopodobieństwo ma dodatnią korelację z tylną, która opiera się na szacowanych parametrach. może być plikiem pdf, ale nie jest, ponieważ jest tylko częścią która jest trudna do rozwiązania. f(x1,...,xn;θ)=f(θ;x1,...,xn)f(x1,...,xn)f(θ)L^=posteriorevidencepriorL LL LL^LLL^

Na przykład nie znam średniej i standardowej wariancji rozkładu Gaussa i chcę je uzyskać, trenując przy użyciu wielu próbek z tego rozkładu. Najpierw inicjalizuję średnią i wariancję standardową losowo (która definiuje rozkład Gaussa), a następnie pobieram jedną próbkę i dopasowuję się do rozkładu szacowanego i mogę uzyskać prawdopodobieństwo z oszacowanego rozkładu. Następnie kontynuuję wprowadzanie próbki i otrzymuję wiele różnych prawdopodobieństw, a następnie mnożę te prawdopodobieństwa i otrzymuję wynik. Ten rodzaj wyniku to prawdopodobieństwo. Prawdopodobnie nie jest to prawdopodobieństwo określonego pliku pdf.

Lerner Zhang
źródło