Dlaczego w twierdzeniu Bayesa wymagany jest czynnik normalizujący?

20

Twierdzenie Bayesa idzie

P.(Model|dane)=P.(Model)×P.(dane|Model)P.(dane)

Wszystko w porządku. Ale gdzieś przeczytałem:

Zasadniczo P (dane) jest tylko stałą normalizującą, tj. Stałą, która powoduje zintegrowanie gęstości tylnej z jedną.

Wiemy, że i . 0 P ( dane | model ) 10P.(Model)10P.(dane|Model)1

Dlatego musi mieć wartość od 0 do 1. W takim przypadku, dlaczego potrzebujemy stałej normalizującej, aby zintegrować tylną z jedną?P.(Model)×P.(dane|Model)

Sreejith Ramakrishnan
źródło
4
Kiedy pracujesz z gęstościami prawdopodobieństwa , jak wspomniano w tym poście, nie możesz już wnioskować 0 <= P(model) <= 1ani 0 <= P(data/model) <= 1, ponieważ jeden (lub nawet oba!) Z nich może przekroczyć (a nawet być nieskończony). Zobacz stats.stackexchange.com/questions/4220 . 1
whuber
1
Nie jest tak, że ponieważ ta niejasna notacja reprezentuje zintegrowane prawdopodobieństwo danych, a nie prawdopodobieństwo.
P.(dane|Model)1
Xi'an,

Odpowiedzi:

15

Po pierwsze , całka „prawdopodobieństwa x wcześniej” nie jest koniecznie 1 .

Nie jest prawdą, że jeśli:

0P.(Model)1 i0P.(dane|Model)1

wówczas całka tego produktu w odniesieniu do modelu (rzeczywiście do parametrów modelu) wynosi 1.

Demonstracja. Wyobraź sobie dwie odrębne gęstości:

P.(Model)=[0,5,0,5] (to się nazywa „wcześniejsze”)P.(dane | Model)=[0,80,0.2] (nazywa się to „prawdopodobieństwem”)

Jeśli pomnożymy je oba, otrzymamy: co nie jest prawidłową gęstością, ponieważ nie integruje się z jedną: 0,40 + 0,25 = 0,65

[0,40,0,25]
0,40+0,25=0,65

model_paramsP.(Model)P.(dane | Model)=model_paramsP.(model, dane)=P.(dane)=0,65

(przepraszam za kiepską notację. Napisałem trzy różne wyrażenia tego samego, ponieważ można je wszystkie zobaczyć w literaturze)

Po drugie , „prawdopodobieństwo” może być dowolne, a nawet jeśli jest gęstością, może mieć wartości wyższe niż 1 .

Jak powiedział @whuber, czynniki te nie muszą wynosić od 0 do 1. Potrzebują, aby ich całka (lub suma) wynosiła 1.

Po trzecie [dodatkowe] „koniugaty” to twoi przyjaciele, którzy pomogą ci znaleźć stałą normalizującą .

P.(Model|dane)P.(dane|Model)P.(Model)
Alberto
źródło
+1. To jedyna odpowiedź, która faktycznie odpowiada pierwotnemu pytaniu, dlaczego stała normalizacyjna jest potrzebna, aby zintegrować z nią tylną . To, co robisz później z późniejszym (np. Wnioskowanie MCMC lub obliczanie prawdopodobieństw bezwzględnych) to inna sprawa.
Pedro Mediano
P.(moremil)=[0,5,0,5]σ2)=1μP.(μ)=[0,5,0,5]
μ
12

Krótka odpowiedź na twoje pytanie jest taka, że ​​bez mianownika wyrażenie po prawej stronie jest jedynie prawdopodobieństwem , a nie prawdopodobieństwem , które może mieścić się w zakresie od 0 do 1. „Stała normalizująca” pozwala nam uzyskać prawdopodobieństwo wystąpienie zdarzenia, a nie tylko względne prawdopodobieństwo tego zdarzenia w porównaniu z innym.

heropup
źródło
8

Masz już dwie prawidłowe odpowiedzi, ale pozwól mi dodać dwa centy.

Twierdzenie Bayesa jest często definiowane jako:

P.(Model | dane)P.(Model)×P.(dane | Model)

ponieważ jedynym powodem, dla którego potrzebujesz stałej jest integracja z 1 (zobacz odpowiedzi innych). Nie jest to potrzebne w większości podejść symulacyjnych MCMC do analizy bayesowskiej, a zatem stała jest usuwana z równania. W przypadku większości symulacji nie jest to nawet wymagane.

Ja kocham opisu przez Kruschke : ostatni szczeniak (stały) jest senna, bo nie ma nic do zrobienia w tej formule.

wprowadź opis zdjęcia tutaj

Również niektórzy, jak Andrew Gelman, uważają stałą za „przereklamowaną” i „w zasadzie bez znaczenia, gdy ludzie używają płaskich priorów” (zobacz dyskusję tutaj ).

Tim
źródło
9
+1 do wprowadzenia szczeniąt. „Żadne zwierzęta nie zostały skrzywdzone podczas pisania tej odpowiedzi” :)
alberto,