(Jestem nowicjuszem w statystykach. Jestem matematykiem i programistą i staram się zbudować coś w rodzaju naiwnego bayesowskiego filtra antyspamowego).
Zauważyłem w wielu miejscach, że ludzie mają tendencję do rozkładania mianownika w równaniu z twierdzenia Bayesa. Zamiast tego:
Przedstawiono nam to:
Możesz zobaczyć, że ta konwencja jest używana w tym artykule w Wikipedii oraz w tym wnikliwym poście Tim Peters.
Jestem tym zaskoczony. Dlaczego mianownik jest tak podzielony? Jak to w ogóle pomaga? Co jest takiego skomplikowanego w obliczaniu , które w przypadku filtrów spamowych byłoby ?The probability that the word "cheese" appears in an email, regardless of whether it's spam or not
Odpowiedzi:
Krótka odpowiedź na twoje pytanie brzmi: „przez większość czasu nie wiemy, co to jest P (ser), i często (względnie) trudno to obliczyć”.
Dłuższa odpowiedź na pytanie, dlaczego reguła / twierdzenie Bayesa jest zwykle wyrażona w sposób, w jaki napisałeś, to dlatego, że w problemach bayesowskich mamy - siedząc na kolanach - wcześniejszy rozkład (P (B) powyżej) i prawdopodobieństwo (P (A | B), P (A | notB) powyżej) i względnie prosta kwestia mnożenia polega na obliczeniu tylnej (P (B | A)). Trudność ponownego wyrażenia P (A) w jego skróconej formie jest wysiłkiem, który można by wydać gdzie indziej.
Może to nie wydawać się tak skomplikowane w kontekście wiadomości e-mail, ponieważ, jak słusznie zauważyłeś, to tylko P (ser), prawda? Problem polega na tym, że przy bardziej zaangażowanych problemach bayesowskich na polu bitwy mianownik jest brzydką całką, która może mieć rozwiązanie w formie zamkniętej. W rzeczywistości czasami potrzebujemy wyrafinowanych metod Monte Carlo tylko do przybliżenia całki, a ubijanie liczb może być prawdziwym bólem z tyłu.
Co więcej, zwykle nie obchodzi nas nawet, czym jest P (ser). Pamiętaj, że staramy się podnieść naszą wiarę w to, czy wiadomość e-mail jest spamem , i nie przejmowaliśmy się marginalnym rozkładem danych (P (A) powyżej). W każdym razie jest to tylko stała normalizacyjna, która nie zależy od parametru; czynność sumowania usuwa wszystkie informacje o parametrze. Stała jest uciążliwa do obliczenia i jest ostatecznie nieistotna, jeśli chodzi o sprawdzenie naszych przekonań na temat tego, czy spam e-mail jest, czy nie. Czasami jesteśmy zobowiązani do obliczenia tego, w którym to przypadku najszybszym sposobem jest skorzystanie z informacji, które już mamy: wcześniejsze i prawdopodobieństwo.
źródło
Jednym z powodów korzystania z reguły całkowitego prawdopodobieństwa jest to, że często mamy do czynienia z prawdopodobieństwami składowymi w tym wyrażeniu i łatwo jest znaleźć krańcowe prawdopodobieństwo po prostu wprowadzając wartości. Aby to zilustrować, zobacz następujący przykład na Wikipedii:
Innym powodem jest uznanie równoważnych form Reguły Bayesa poprzez manipulowanie tym wyrażeniem. Na przykład:
Podziel przez RHS przez licznik:
Co jest ładną równoważną formą dla Reguły Bayesa, jeszcze bardziej przydatną, odejmując ją od pierwotnego wyrażenia, aby uzyskać:
Jest to reguła Bayesa podana w kategoriach kursów, tj. Szansa późniejsza przeciwko B = współczynnik Bayesa w stosunku do B razy poprzedni kurs w stosunku do B. (Lub można odwrócić, aby uzyskać wyrażenie w kategoriach szans dla B.) Czynnikiem Bayesa jest stosunek prawdopodobieństwa twoich modeli. Ponieważ nie jesteśmy pewni co do mechanizmu generowania danych, obserwujemy dane i aktualizujemy nasze przekonania.
Nie jestem pewien, czy uznasz to za przydatne, ale mam nadzieję, że nie jest to zaskakujące; oczywiście powinieneś pracować z wyrażeniem, które działa najlepiej w twoim scenariuszu. Może ktoś inny może wpaść z jeszcze lepszych powodów.
źródło
źródło