Co w praktyce oznacza „prawdopodobieństwo zdefiniowane tylko do multiplikatywnej stałej proporcjonalności”?

19

Czytam artykuł, w którym autorzy prowadzą dyskusję o oszacowaniu maksymalnego prawdopodobieństwa do twierdzenia Bayesa, rzekomo jako wstęp dla początkujących.

Jako przykład prawdopodobieństwa zaczynają się od rozkładu dwumianowego:

p (x | n, θ) = (\binom{n}{x}) θ^{x} (1 - θ)^{n - x}

$p(x|n,\theta) = \binom{n}{x}\theta^x(1-\theta)^{n-x}$

a następnie zaloguj obie strony

ℓ (θ | x, n) = x \ln (θ) + (n - x) \ln (1 - θ)

$\ell(\theta|x, n) = x \ln (\theta) + (n-x)\ln (1-\theta)$

z uzasadnieniem, że:

„Ponieważ prawdopodobieństwo jest zdefiniowane tylko do multiplikatywnej stałej proporcjonalności (lub stałej addytywnej dla logarytmu prawdopodobieństwa), możemy przeskalować ... przez obniżenie współczynnika dwumianowego i zapisanie logarytmu prawdopodobieństwa w miejsce prawdopodobieństwa”

Matematyka ma sens, ale nie rozumiem, co należy rozumieć przez „prawdopodobieństwo definiuje się tylko do multiplikatywnej stałej proporcjonalności” i jak pozwala to na obniżenie współczynnika dwumianowego i przejście od $p(x|n,\theta)$ do $\ell(\theta|x,n)$ .

Podobna terminologia pojawiła się w innych pytaniach ( tu i tutaj ), ale nadal nie jest jasne, jakie praktycznie jest prawdopodobieństwo zdefiniowane lub doprowadzające informacje do multiplikatywnej stałej. Czy można to wyjaśnić w kategoriach laika?

bayesian likelihood definition philosophical kmm
źródło

18

Chodzi o to, że czasami różne modele (dla tych samych danych) mogą prowadzić do funkcji prawdopodobieństwa, które różnią się stałą multiplikatywną, ale treść informacji musi być wyraźnie taka sama. Przykład:

Modelujemy niezależnych eksperymentów Bernoulliego, prowadzących do danych , każdy z rozkładem Bernoulliego z parametrem (prawdopodobieństwa) . Prowadzi to do funkcji prawdopodobieństwa Lub możemy podsumować dane przez zmienną dwumianową , który ma rozkład dwumianowy, co prowadzi do funkcji prawdopodobieństwa która jako funkcja nieznanego parametru jest proporcjonalna do poprzedniej funkcji prawdopodobieństwa . Dwie funkcje wiarygodności wyraźnie zawierają te same informacje i powinny prowadzić do tych samych wniosków! $n$ $X_1, \dots, X_n$ $p$

\prod_{i = 1}^{n} p^{x_{i}} (1 - p)^{1 - x_{i}}

$\prod_{i=1}^n p^{x_i} (1-p)^{1-x_i}$

Y = X_{1} + X_{2} + \dots + X_{n}

$Y=X_1+X_2+\dotsm+X_n$

(\binom{n}{y}) p^{y} (1 - p)^{n - y}

$\binom{n}{y} p^y (1-p)^{n-y}$

p

$p$

I rzeczywiście, z definicji są one uważane za tę samą funkcję prawdopodobieństwa.

Kolejny punkt widzenia: zauważ, że gdy w rachunku Bayesa używane są funkcje prawdopodobieństwa, co jest potrzebne do analizy bayesowskiej, takie multiplikatywne stałe po prostu kasują! więc są one wyraźnie nieistotne dla wnioskowania bayesowskiego. Podobnie, anuluje się przy obliczaniu ilorazów wiarygodności, stosowanych w optymalnych testach hipotez (lemat Neymana-Pearsona). I nie będzie miało wpływu na wartość estymatorów maksymalnego prawdopodobieństwa. Widzimy więc, że w wielu wnioskach częstych nie może odgrywać żadnej roli.

Możemy się kłócić z jeszcze innego punktu widzenia. Funkcja prawdopodobieństwa Bernoulliego (dalej używamy terminu „gęstość”) powyżej jest tak naprawdę gęstością w odniesieniu do miary zliczania, to jest miary liczb całkowitych nieujemnych o masie jeden dla każdej liczby całkowitej nieujemnej. Ale moglibyśmy zdefiniować gęstość w odniesieniu do innej dominującej miary. W tym przykładzie będzie to wydawać się (i jest) sztuczne, ale w większych przestrzeniach (przestrzeniach funkcyjnych) jest to naprawdę fundament! Dla celów ilustracji użyjmy określonego rozkładu geometrycznego, zapisanego , z , , i wkrótce. Następnie gęstość rozkładu Bernoulliego w odniesieniu do $\lambda$ $\lambda(0)=1/2$ $\lambda(1)=1/4$ $\lambda(2)=1/8$ $\lambda$ jest podane przez co oznacza, że Z tą nową, dominującą miarą funkcja prawdopodobieństwa staje się (z notacją z góry) zwróć uwagę na dodatkowy czynnik . Tak więc przy zmianie miary dominującej stosowanej w definicji funkcji prawdopodobieństwa powstaje nowa stała multiplikatywna, która nie zależy od nieznanego parametru

f_{λ} (x) = p^{x} (1 - p)^{1 - x} \cdot 2^{x + 1}

$f_{\lambda}(x) = p^x (1-p)^{1-x}\cdot 2^{x+1}$

P (X = x) = f_{λ} (x) \cdot λ (x)

$P(X=x)= f_\lambda(x) \cdot \lambda(x)$

\prod_{i = 1}^{n} p^{x_{i}} (1 - p)^{1 - x_{i}} 2^{x_{i} + 1} = p^{y} (1 - p)^{n - y} 2^{y + n}

$\prod_{i=1}^n p^{x_i} (1-p)^{1-x_i} 2^{x_i+1} = p^y (1-p)^{n-y} 2^{y+n}$

2^{y + n}

$2^{y+n}$

p

$p$ i jest wyraźnie nieistotny. To kolejny sposób na sprawdzenie, jak stałe multiplikatywne muszą być nieistotne. Argument ten można uogólnić za pomocą pochodnych Radon-Nikodym (jako argument powyżej jest przykładem.)

kjetil b halvorsen
źródło

„treść informacji musi być oczywiście taka sama” Jest to prawdą tylko wtedy, gdy wierzysz w zasadę prawdopodobieństwa!

jsk

Tak, może, ale pokazałem, jak wynika to z zasad bayesowskich.

kjetil b halvorsen

@kjetilbhalvorsen Dziękujemy za przemyślaną odpowiedź! Nadal jestem zdezorientowany, dlaczego prawdopodobieństwo dystrybucji bernoulli nie uwzględnia współczynnika dwumianowego. Twoja odpowiedź wyjaśnia, dlaczego to nie ma znaczenia, ale nie rozumiem, dlaczego w ogóle pominięto prawdopodobieństwo.

jvans

@jvans: To dlatego, że dwumianowy współczynnik nie zależy od nieznanego parametru, więc nie może wpływać na kształt funkcji prawdopodobieństwa

kjetil b halvorsen

12

Zasadniczo oznacza to, że liczy się tylko względna wartość pliku PDF. Na przykład standardowy normalny (gaussowski) plik PDF to: , twoja książka mówi, że mogą użyć , ponieważ nie dbają o skalę, tj. . $f(x)=\frac{1}{\sqrt{2\pi}}e^{-x^2/2}$ $g(x)=e^{-x^2/2}$ $c=\frac{1}{\sqrt{2\pi}}$

Dzieje się tak dlatego, że funkcja maksymalnego prawdopodobieństwa i i będą mieć ten sam maksymalny. Stąd maksimum będzie takie samo jak dla . Więc nie przejmują się skalą. $c\cdot g(x)$ $g(x)$ $e^{-x^2/2}$ $f(x)$

Aksakal
źródło

6

Nie mogę wyjaśnić znaczenia cytatu, ale dla oszacowania maksymalnego prawdopodobieństwa nie ma znaczenia, czy zdecydujemy się znaleźć maksimum funkcji prawdopodobieństwa (traktowanej jako funkcja lub maksimum gdzie jest pewną stałą. Jest tak, ponieważ nie interesuje nas maksymalna wartość a raczej wartość gdzie występuje to maksimum, a zarówno i osiągają maksymalną wartość przy tym samym $L(\mathbf x; \theta)$ $\theta$ $aL(\mathbf x; \theta)$ $a$ $L(\mathbf x; \theta)$ $\theta_{\text{ML}}$ $L(\mathbf x; \theta)$ $aL(\mathbf x; \theta)$ $\theta_{\text{ML}}$ . Stałe multiplikatywne można więc zignorować. Podobnie, możemy wybrać dowolną funkcję monotoniczną (taką jak logarytm) funkcji wiarygodności , określić maksimum i wywnioskuj z tego wartość . Dla logarytmu stała multiplikatywna staje się stałą addytywną i to również można zignorować w procesie znajdowania położenia maksimum: jest zmaksymalizowane w tym samym punkcie co . $g(\cdot)$ $L(\mathbf x; \theta)$ $g(L(\mathbf x;\theta))$ $\theta_{\text{ML}}$ $a$ $\ln(a)$ $\ln(a)+\ln(L(\mathbf x; \theta)$ $\ln(L(\mathbf x; \theta)$

Przechodząc do maksymalnej oceny prawdopodobieństwa a posteriori (MAP), jest uważana za realizację zmiennej losowej z funkcją gęstości a priori , dane są uważane za realizację zmienna losowa , a funkcja prawdopodobieństwa jest uważana za wartość gęstości warunkowej z uwarunkowanej na ; wspomniana funkcja gęstości warunkowej jest oceniana w . The $\theta$ $\Theta$ $f_{\Theta}(\theta)$ $\mathbf x$ $\mathbf X$ $f_{\mathbf X\mid \Theta}(\mathbf x\mid \Theta=\theta)$ $\mathbf X$ $\Theta = \theta$ $\mathbf x$ gęstość a posteriori dla wynosi w którym rozpoznajemy licznik jako łączną gęstość danych i szacowanego parametru. Punkt gdzie osiąga maksymalną wartość, jest oszacowaniem MAP , i przy użyciu tych samych argumentów jak w akapicie widzimy, że możemy zignorować po prawej stronie $\Theta$

\begin{matrix} (1) & f_{Θ ∣ X} (θ ∣ x) = \frac{f_{X ∣ Θ} (x ∣ Θ = θ) f_{Θ} (θ)}{f_{X} (x)} \end{matrix}

$f_{\Theta\mid \mathbf X}(\theta \mid \mathbf x) = \frac{f_{\mathbf X\mid \Theta}(\mathbf x\mid \Theta=\theta)f_\Theta(\theta)}{f_{\mathbf X}(\mathbf x)} \tag{1}$

f_{X, Θ} (x, θ)

$f_{\mathbf X, \Theta}(\mathbf x, \theta)$

θ_{MAP}

$\theta_{\text{MAP}}$

f_{Θ ∣ X} (θ ∣ x)

$f_{\Theta\mid \mathbf X}(\theta \mid \mathbf x)$

θ

$\theta$

[f_{X} (x)]^{- 1}

$[f_{\mathbf X}(\mathbf x)]^{-1}$

(1)

$(1)$ jako stała multiplikatywna, tak jak możemy ignorować stałe multiplikatywne zarówno w iw . Podobnie, gdy wykorzystywane są prawdopodobieństwa dziennika, możemy zignorować stałe addytywne.

f_{X ∣ Θ} (x ∣ Θ = θ)

$f_{\mathbf X\mid \Theta}(\mathbf x\mid \Theta=\theta)$

f_{Θ} (θ)

$f_\Theta(\theta)$

Dilip Sarwate
źródło

Taki sposób myślenia można również zrealizować za pomocą bayesa: jeśli wstawisz lub do twierdzenia Bayesa, nie ma to znaczenia, anuluje się, więc tył jest taki sam.

L

$L$

a L

$aL$

a

$a$

kjetil b halvorsen

5

Mówiąc ogólnie, często szukasz maksymalnego prawdopodobieństwa, a i dzielą te same punkty krytyczne. $f(x)$ $kf(x)$

Sergio
źródło

3

Podobnie i ale nie byłyby to równoważne funkcje wiarygodności

f (x)

$f(x)$

f (x) + 2

$f(x)+2$

Henry

Proszę, jak pisze Alecos Papadopoulos w swojej odpowiedzi: „prawdopodobieństwo jest najpierw wspólną funkcją gęstości prawdopodobieństwa”. Ze względu na założenie iid dla próbek losowych, ta funkcja połączenia jest produktem prostych funkcji gęstości, więc powstają mnożniki, a nie sumy.

Sergio

1

Wspólna funkcja jest takim produktem wtedy i tylko wtedy, gdy dane są niezależne. Ale MLE obejmuje zmienne zależne, więc argument produktu wydaje się nieprzekonywający.

whuber

1

Sugerowałbym, aby nie pomijać żadnych stałych terminów w funkcji prawdopodobieństwa (tj. Terminów, które nie zawierają parametrów). W zwykłych okolicznościach nie wpływają one na prawdopodobieństwa, jak już wspomniano. Ale: $\text {argmax}$

Mogą zaistnieć niezwykłe okoliczności, kiedy będziesz musiał zmaksymalizować prawdopodobieństwo z zastrzeżeniem pułapu - a wtedy powinieneś „pamiętać” o uwzględnieniu jakichkolwiek stałych w obliczeniach jego wartości.

Ponadto możesz przeprowadzać testy wyboru modelu dla modeli nie zagnieżdżonych, wykorzystując wartość prawdopodobieństwa w procesie - a ponieważ modele nie są zagnieżdżone, dwa prawdopodobieństwa będą miały różne stałe.

Poza tym zdanie

„Ponieważ prawdopodobieństwo jest określone tylko do multiplikatywnej stałej proporcjonalności (lub dodatkowej stałej dla logarytmu prawdopodobieństwa)”

jest źle , bo prawdopodobieństwo jest pierwszy wspólna funkcja gęstości prawdopodobieństwa , a nie tylko „any” funkcja celu mają być zmaksymalizowane.

Alecos Papadopoulos
źródło

3

θ

$\theta$

θ

$\theta$

3

Myślę, że musisz być bardziej ostrożny z językiem. Prawdopodobieństwo jest funkcją parametrów stałej próbki, ale jest równoważne gęstości połączenia w przestrzeni próbki . Oznacza to, że Spowoduje to całkowanie do w przestrzeni próbki, ale niekoniecznie przypadku integracji w przestrzeni parametrów. Kiedy mówisz „prawdopodobieństwo to gęstość, postrzegana jako funkcja parametrów”, brzmi to tak, jakbyś miał na myśli „gęstość względem parametrów”, co nie jest.

L (θ ∣ x) = f (x ∣ θ) .

$L(\boldsymbol \theta \mid \boldsymbol x) = f(\boldsymbol x \mid \boldsymbol \theta).$

1

$1$

1

$1$

heropup

1

@heropup Już napisałem, że niekoniecznie integruje się z jednością w przestrzeni parametrów, a więc natychmiast nie można go uznać za „funkcję gęstości”, gdy jest postrzegana jako „funkcja parametrów”.

Alecos Papadopoulos

1

Tak, wiem. Chodzi mi o to, że zwrot „Funkcja prawdopodobieństwa jest funkcją gęstości, postrzeganą jako funkcja parametrów”, jest myląca. Bardziej precyzyjnie byłoby powiedzieć coś takiego: „Funkcja prawdopodobieństwa jest funkcją parametrów dla stałej próbki i jest równoważna (lub proporcjonalna) gęstości złącza w przestrzeni próbki”.

heropup

1

@heropup Twoje pożądane stwierdzenie, że „Funkcja prawdopodobieństwa ... jest równoważna (lub proporcjonalna) do gęstości złącza w przestrzeni próbki” byłaby rzeczywiście znacznie bardziej precyzyjna, ale równie niepoprawna. Funkcja prawdopodobieństwa nie jest ani równoważna, ani proporcjonalna do gęstości złącza, ponieważ „współczynnik proporcjonalności” nie jest stały (chyba że wcześniejszy rozkład nieznanego parametru jest równomiernie rozłożony w przedziale). Gęstość połączenia wynosi gdzie jest prawdopodobieństwem, a jest wcześniejszym rozkładem parametru.

L (x ∣ θ) f (θ)

$L(x\mid \theta)f(\theta)$

L

$L$

f (θ)

$f(\theta)$

Dilip Sarwate

Co w praktyce oznacza „prawdopodobieństwo zdefiniowane tylko do multiplikatywnej stałej proporcjonalności”?

Odpowiedzi: