Dlaczego naiwny klasyfikator Bayesa jest optymalny dla straty 0-1?

13

Klasyfikator Naive Bayes jest klasyfikatorem, który przypisuje przedmioty do klasy oparciu o maksymalizację tylnego dla członkostwa w klasie i zakłada, że ​​cechy przedmiotów są niezależne.C P ( C | x )xCP(C|x)

Strata 0-1 to strata, która przypisuje każdej błędnej klasyfikacji stratę „1”, a stratę „0” dowolnej poprawnej klasyfikacji.

Często czytam (1), że klasyfikator „Naive Bayes” jest optymalny dla straty 0-1. Dlaczego to prawda?

(1) Jedno przykładowe źródło: klasyfikator Bayesa i błąd Bayesa


źródło
2
Czy możesz podać odniesienie do swojego stwierdzenia: „ Często czytam, że klasyfikator„ Naive Bayes ”jest optymalny dla straty 0-1 ”? Na przykład, gdzie mógłbyś przeczytać tego rodzaju stwierdzenie w przeszłości
Jon
1
edytowane, dodano przykładowe źródło

Odpowiedzi:

16

W rzeczywistości jest to dość proste: klasyfikator Bayesa wybiera klasę, która ma największe prawdopodobieństwo wystąpienia a posteriori (tzw. Oszacowanie maksimum a posteriori ). Funkcja utraty 0-1 penalizuje błędne klasyfikowanie, tzn. Przypisuje najmniejszą stratę rozwiązaniu, które ma największą liczbę poprawnych klasyfikacji. W obu przypadkach mówimy o trybie szacowania . Przypomnij sobie, że tryb jest najczęstszą wartością w zbiorze danych lub najbardziej prawdopodobną wartością , więc zarówno maksymalizacja prawdopodobieństwa a posteriori, jak i minimalizacja straty 0-1 prowadzi do oszacowania trybu.

Jeśli potrzebujesz formalnego dowodu, ten jest podany we wstępie do dokumentu Bayesian Theoryory autorstwa Angeli J. Yu:

Funkcja utraty binarnej 0-1 ma następującą postać:

lx(s^,s)=1δs^s={1ifs^s0otherwise

gdzie to funkcja Delta Kroneckera. (...) oczekiwana strata wynosi:δ

Lx(s^)=slx(s^,s)P(s=sx)=s(1δs^s)P(s=sx)=sP(s=sx)dssδs^sP(s=sx)=1P(s=sx)

Dotyczy to ogólnie oceny maksymalnej a posteriori. Więc jeśli znasz rozkład tylny, a następnie zakładając stratę 0-1, najbardziej optymalną regułą klasyfikacji jest przyjęcie trybu rozkładu tylnego, nazywamy to optymalnym klasyfikatorem Bayesa . W prawdziwym życiu zwykle nie znamy rozkładu tylnego, ale raczej go oceniamy. Naiwny klasyfikator Bayesa przybliża optymalny klasyfikator, patrząc na rozkład empiryczny i zakładając niezależność predyktorów. Tak naiwny klasyfikator Bayesa nie jest sam w sobie optymalny, ale przybliża optymalne rozwiązanie. W swoim pytaniu wydajesz się mylić te dwie rzeczy.

Tim
źródło
Myślę, że rozumiem: więc formalny dowód byłby czymś w rodzaju straty (akcja_1) = 1-P (akcja_2 | dane) <--- chcemy to zminimalizować. Zminimalizowanie tego jest znów równoznaczne z maksymalizacją pierwszeństwa poprawnej klasy (tj. Maksymalizacją P (action_2 | data)). Co mnie jednak myli, to dlaczego nie każdy klasyfikator byłby optymalny pod tym względem - ponieważ wydaje się to najbardziej podstawowym wymogiem do przypisania próbki danych do klasy. Czy więc jeśli zawsze wybieramy przypisywanie próbki danych do klasy z wyższą pozycją tylną, to czy nie jesteśmy automatycznie w
@TestGuest sprawdź moją edycję pod kątem formalnego potwierdzenia.
Tim
To najbardziej skomplikowany formalizm, jaki widziałem dla takiego dowodu :)) dziękuję jednak, mam nadzieję, że pomaga również innym.