Po co rozkładać mianownik w twierdzeniu Bayesa?

23

(Jestem nowicjuszem w statystykach. Jestem matematykiem i programistą i staram się zbudować coś w rodzaju naiwnego bayesowskiego filtra antyspamowego).

Zauważyłem w wielu miejscach, że ludzie mają tendencję do rozkładania mianownika w równaniu z twierdzenia Bayesa. Zamiast tego:

P.(ZA|b)P.(b)P.(ZA)

Przedstawiono nam to:

P.(ZA|b)P.(b)P.(ZA|b)P.(b)+P.(ZA|¬b)P.(¬b)

Możesz zobaczyć, że ta konwencja jest używana w tym artykule w Wikipedii oraz w tym wnikliwym poście Tim Peters.

Jestem tym zaskoczony. Dlaczego mianownik jest tak podzielony? Jak to w ogóle pomaga? Co jest takiego skomplikowanego w obliczaniu , które w przypadku filtrów spamowych byłoby ?P.(ZA)The probability that the word "cheese" appears in an email, regardless of whether it's spam or not

Ram Rachum
źródło
Podejrzewam, że odpowiedź jest specyficzna dla domeny (tj. Dotyczy filtrów spamowych). Jeśli możesz obliczyć składniki P (A | B) itp., Powinieneś być w stanie obliczyć prostsze P (A), jak już powiedziałeś. Być może odpowiedź dotyczy pedagogiki, aby czytelnicy rozumieli związek między P (A) i jego rozkładem w kategoriach P (A | B), P (B) itp.
1
Nie mam silnej odpowiedzi, ale mogę powiedzieć, że popełniłem głupie błędy w testach, w których mogłem po prostu podłączyć dane do wyraźnego mianownika, ale myślałem, że znam P (A) i się myliłem.
Wayne,

Odpowiedzi:

16

Krótka odpowiedź na twoje pytanie brzmi: „przez większość czasu nie wiemy, co to jest P (ser), i często (względnie) trudno to obliczyć”.

Dłuższa odpowiedź na pytanie, dlaczego reguła / twierdzenie Bayesa jest zwykle wyrażona w sposób, w jaki napisałeś, to dlatego, że w problemach bayesowskich mamy - siedząc na kolanach - wcześniejszy rozkład (P (B) powyżej) i prawdopodobieństwo (P (A | B), P (A | notB) powyżej) i względnie prosta kwestia mnożenia polega na obliczeniu tylnej (P (B | A)). Trudność ponownego wyrażenia P (A) w jego skróconej formie jest wysiłkiem, który można by wydać gdzie indziej.

Może to nie wydawać się tak skomplikowane w kontekście wiadomości e-mail, ponieważ, jak słusznie zauważyłeś, to tylko P (ser), prawda? Problem polega na tym, że przy bardziej zaangażowanych problemach bayesowskich na polu bitwy mianownik jest brzydką całką, która może mieć rozwiązanie w formie zamkniętej. W rzeczywistości czasami potrzebujemy wyrafinowanych metod Monte Carlo tylko do przybliżenia całki, a ubijanie liczb może być prawdziwym bólem z tyłu.

Co więcej, zwykle nie obchodzi nas nawet, czym jest P (ser). Pamiętaj, że staramy się podnieść naszą wiarę w to, czy wiadomość e-mail jest spamem , i nie przejmowaliśmy się marginalnym rozkładem danych (P (A) powyżej). W każdym razie jest to tylko stała normalizacyjna, która nie zależy od parametru; czynność sumowania usuwa wszystkie informacje o parametrze. Stała jest uciążliwa do obliczenia i jest ostatecznie nieistotna, jeśli chodzi o sprawdzenie naszych przekonań na temat tego, czy spam e-mail jest, czy nie. Czasami jesteśmy zobowiązani do obliczenia tego, w którym to przypadku najszybszym sposobem jest skorzystanie z informacji, które już mamy: wcześniejsze i prawdopodobieństwo.


źródło
Czy ktoś mógłby podać przykład „nieestetycznej całki, która może mieć rozwiązanie w formie zamkniętej” lub nie, która byłaby użyta w niektórych problemach?
PaulG
8

Jednym z powodów korzystania z reguły całkowitego prawdopodobieństwa jest to, że często mamy do czynienia z prawdopodobieństwami składowymi w tym wyrażeniu i łatwo jest znaleźć krańcowe prawdopodobieństwo po prostu wprowadzając wartości. Aby to zilustrować, zobacz następujący przykład na Wikipedii:

Innym powodem jest uznanie równoważnych form Reguły Bayesa poprzez manipulowanie tym wyrażeniem. Na przykład:

P.(b|ZA)=P.(ZA|b)P.(b)P.(ZA|b)P.(b)+P.(ZA|¬b)P.(¬b)

Podziel przez RHS przez licznik:

P.(b|ZA)=11+P.(ZA|¬b)P.(ZA|b)P.(¬b)P.(b)

Co jest ładną równoważną formą dla Reguły Bayesa, jeszcze bardziej przydatną, odejmując ją od pierwotnego wyrażenia, aby uzyskać:

P.(¬b|ZA)P.(b|ZA)=P.(ZA|¬b)P.(ZA|b)P.(¬b)P.(b)

Jest to reguła Bayesa podana w kategoriach kursów, tj. Szansa późniejsza przeciwko B = współczynnik Bayesa w stosunku do B razy poprzedni kurs w stosunku do B. (Lub można odwrócić, aby uzyskać wyrażenie w kategoriach szans dla B.) Czynnikiem Bayesa jest stosunek prawdopodobieństwa twoich modeli. Ponieważ nie jesteśmy pewni co do mechanizmu generowania danych, obserwujemy dane i aktualizujemy nasze przekonania.

Nie jestem pewien, czy uznasz to za przydatne, ale mam nadzieję, że nie jest to zaskakujące; oczywiście powinieneś pracować z wyrażeniem, które działa najlepiej w twoim scenariuszu. Może ktoś inny może wpaść z jeszcze lepszych powodów.

ars
źródło
Możesz pójść o krok dalej i wziąć dzienniki. Następnie masz stosunek log-posterior = stosunek logarytm poprzedzający + współczynnik logarytm wiarygodności
prawdopodobieństwo
6

P.(ZA)

P.(ZA)P.(ZA|b)bP.(ZA|b)P.(ZA|¬b)b¬bP.(ZA|b)P.(ZA|¬b)P.(b)P.(¬b)

P.(ZA)=P.(ZA|b)P.(b)+P.(ZA|¬b)P.(¬b)
suncoolsu
źródło