Jaki jest powód, dla którego funkcja prawdopodobieństwa nie jest pdf (funkcja gęstości prawdopodobieństwa)?
likelihood
pdf
nieznany z nazwiska
źródło
źródło
Odpowiedzi:
Zaczniemy od dwóch definicji:
Prawdopodobieństwo jest zdefiniowane jako łączna gęstość obserwowanych danych w funkcji parametru. Ale, jak wskazano w nawiązaniu do Lehmanna autorstwa @whuber w komentarzu poniżej, funkcja wiarygodności jest funkcją tylko parametru, a dane są przechowywane jako stała stała. Zatem fakt, że jest to gęstość jako funkcja danych, nie ma znaczenia.
Dlatego funkcja wiarygodności nie jest plikiem pdf, ponieważ jej całka w odniesieniu do parametru niekoniecznie musi wynosić 1 (i może wcale nie być całką całkowitą, jak wskazano w innym komentarzu z @whuber).
Być może nawet ważniejsze niż ten techniczny przykład pokazujący, dlaczego prawdopodobieństwo nie jest gęstością prawdopodobieństwa, polega na wskazaniu, że prawdopodobieństwo nie jest prawdopodobieństwem poprawności wartości parametru lub czymkolwiek podobnym - jest to prawdopodobieństwo (gęstość) danych biorąc pod uwagę wartość parametru , co jest zupełnie inną rzeczą. Dlatego nie należy oczekiwać, że funkcja prawdopodobieństwa będzie zachowywać się jak gęstość prawdopodobieństwa.
źródło
Okej, ale funkcją prawdopodobieństwa jest łączna gęstość prawdopodobieństwa dla obserwowanych danych, biorąc pod uwagę parametr . Jako taki może być znormalizowany w celu utworzenia funkcji gęstości prawdopodobieństwa. Jest to w zasadzie plik pdf.θ
źródło
Nie jestem statystykiem, ale rozumiem, że chociaż sama funkcja prawdopodobieństwa nie jest plikiem PDF w odniesieniu do parametrów, to jest bezpośrednio związana z tym plikiem PDF według reguły Bayesa. Funkcja prawdopodobieństwa P (X | theta) i rozkład tylny f (theta | X) są ściśle powiązane; wcale nie „zupełnie inna rzecz”.
źródło
Prawdopodobieństwo jest zdefiniowane jako , gdzie jeśli f (x; θ) jest funkcją masy prawdopodobieństwa , wówczas prawdopodobieństwo jest zawsze mniejsze niż jeden, ale jeśli f (x; θ) jest funkcją gęstości prawdopodobieństwa, prawdopodobieństwo może być większe niż jeden, ponieważ gęstości mogą być większe niż jeden.L(θ;x1,...,xn)=f(x1,...,xn;θ)
Zwykle próbki są traktowane iid, a następnie:
L(θ;x1,...,xn)=f(x1,...,xn;θ)=∏jf(xj;θ)
Zobaczmy jego oryginalną formę:
Zgodnie z wnioskiem bayesowskim utrzymuje, to jest . Zauważ, że oszacowanie maksymalnego prawdopodobieństwa traktuje stosunek dowodów do wcześniejszych jako stałą (patrz odpowiedzi na to pytanie ), co pomija wcześniejsze przekonania. Prawdopodobieństwo ma dodatnią korelację z tylną, która opiera się na szacowanych parametrach. może być plikiem pdf, ale nie jest, ponieważ jest tylko częścią która jest trudna do rozwiązania.f(x1,...,xn;θ)=f(θ;x1,...,xn)∗f(x1,...,xn)f(θ) L^=posterior∗evidenceprior L LL LL^ L L L^
Na przykład nie znam średniej i standardowej wariancji rozkładu Gaussa i chcę je uzyskać, trenując przy użyciu wielu próbek z tego rozkładu. Najpierw inicjalizuję średnią i wariancję standardową losowo (która definiuje rozkład Gaussa), a następnie pobieram jedną próbkę i dopasowuję się do rozkładu szacowanego i mogę uzyskać prawdopodobieństwo z oszacowanego rozkładu. Następnie kontynuuję wprowadzanie próbki i otrzymuję wiele różnych prawdopodobieństw, a następnie mnożę te prawdopodobieństwa i otrzymuję wynik. Ten rodzaj wyniku to prawdopodobieństwo. Prawdopodobnie nie jest to prawdopodobieństwo określonego pliku pdf.
źródło