próg obliczeniowy dla minimalnego klasyfikatora ryzyka?

11

Załóżmy, że dwie klasy i mają atrybut i mają rozkład i . jeśli mamy równe wcześniejsze dla następującej macierzy kosztów:C1C2xN(0,0.5)N(1,0.5)P(C1)=P(C2)=0.5

L=[00.510]

dlaczego jest progiem dla minimalnego klasyfikatora ryzyka (kosztu)?x0<0.5

Oto mój przykład notatki, który źle rozumiem (tj. W jaki sposób osiąga się ten próg?)

Edycja 1: Myślę, że dla progów współczynnika wiarygodności możemy użyć P (C1) / P (C2).

Edycja 2: Dodam z Dudy Book on Pattern trochę tekstu o progu. wprowadź opis zdjęcia tutaj

użytkownik153695
źródło

Odpowiedzi:

4

Dla macierzy kosztów

L=[00.510]c1c2predictionc1c2truth

utrata przewidywania klasy gdy prawda jest klasy wynosi , a koszt przewidywania klasy gdy prawda jest klasy wynosi . Poprawne prognozy nie żadnymi kosztami, . Ryzyko warunkowe do przewidywania każdej klasy jest zatemc 2 L 12 = 0,5 c 2 c 1 L 21 = 1 L 11 = L 22 = 0 R kc1c2L12=0.5c2c1L21=1L11=L22=0Rk

R(c1|x)=L11Pr(c1|x)+L12Pr(c2|x)=L12Pr(c2|x)R(c2|x)=L22Pr(c2|x)+L21Pr(c1|x)=L21Pr(c1|x)
Dla odniesienie patrz te uwagi na stronie 15.

Aby zminimalizować ryzyko / stratę, przewidujesz jeśli koszt spowodowany błędem zrobienia tego (to utrata błędnej prognozy razy tylne prawdopodobieństwo, że prognoza jest błędna ) wynosi mniejszy niż koszt błędnego przewidywania alternatywy,c1L12Pr(c2|x)

L12Pr(c2|x)<L21Pr(c1|x)L12Pr(x|c2)Pr(c2)<L21Pr(x|c1)Pr(c1)L12Pr(c2)L21Pr(c1)<Pr(x|c1)Pr(x|c2)
gdzie druga linia używa reguły Bayesa . Biorąc pod uwagę równe wcześniejsze prawdopodobieństwa otrzymujesz Pr(c2|x)Pr(x|c2)Pr(c2)Pr(c1)=Pr(c2)=0.5
12<Pr(x|c1)Pr(x|c2)

więc decydujesz się sklasyfikować obserwację jako gdy współczynnik prawdopodobieństwa przekracza ten próg. Teraz nie jest dla mnie jasne, czy chcesz znać „najlepszy próg” pod względem współczynników prawdopodobieństwa, czy też pod względem atrybutu . Odpowiedź zmienia się zgodnie z funkcją kosztu. Używanie Gaussa w nierówności z i , , c1xσ1=σ2=σμ1=0μ2=1

12<12πσexp[12σ2(xμ1)2]12πσexp[12σ2(xμ2)2]log(12)<log(12πσ)12σ2(x0)2[log(12πσ)12σ2(x1)2]log(12)<x22σ2+x22σ22x2σ2+12σ2xσ2<12σ2log(12)x<12log(12)σ2
więc próg predykcji pod względemxpodczas wyszukiwania można osiągnąć tylko wtedy, gdy straty z fałszywych prognoz są takie same, tj. ponieważ tylko wtedy możesz mieć a otrzymasz .L12=L21log(L12L21)=log(1)=0x0<12
Andy
źródło
Dobra odpowiedź, ale mnie zdezorientował! jeśli chcesz wybrać lub , który z nich jest poprawny? x0=0.5x0<0.5
użytkownik153695,
Tak więc na granicy decyzji nie można dokładnie powiedzieć, czy obserwacja powinna być w klasie pierwszej czy dwóch (ponieważ jest dokładnie na granicy). Więc wybór faktu, czy obserwację powinny być w klasie 1 jeśli lub należy do Ciebie. Przy wystarczająco dużych próbkach powinno się to zdarzyć przy bardzo niewielu obserwacjach, więc na marginesie będzie miało znaczenie ściółka dla twojego wyniku. x0=0.5ix00.5x0<0.5
Andy,
cały mój problem, który dał mu nagrodę, że mój prof. obliczone i nie akceptują proszę zobaczyć moją edycję w pytaniu, ja cienki próg powinien wynosić . x0<0.5x0=0.5x0<0.5
użytkownik153695,
może 0,5-ln :)
użytkownik153695
1
@ Whuber dzięki, całkowicie mi tego brakowało, więc zacząłem od zupełnie złego końca.
Andy,