Dla macierzy kosztów
L=[010.50]c1c2predictionc1c2truth
utrata przewidywania klasy gdy prawda jest klasy wynosi , a koszt przewidywania klasy gdy prawda jest klasy wynosi . Poprawne prognozy nie żadnymi kosztami, . Ryzyko warunkowe do przewidywania każdej klasy jest zatemc 2 L 12 = 0,5 c 2 c 1 L 21 = 1 L 11 = L 22 = 0 R kc1c2L12=0.5c2c1L21=1L11=L22=0Rk
R(c1|x)R(c2|x)=L11Pr(c1|x)+L12Pr(c2|x)=L12Pr(c2|x)=L22Pr(c2|x)+L21Pr(c1|x)=L21Pr(c1|x)
Dla odniesienie patrz te
uwagi na stronie 15.
Aby zminimalizować ryzyko / stratę, przewidujesz jeśli koszt spowodowany błędem zrobienia tego (to utrata błędnej prognozy razy tylne prawdopodobieństwo, że prognoza jest błędna ) wynosi mniejszy niż koszt błędnego przewidywania alternatywy,c1L12Pr(c2|x)
L12Pr(c2|x)L12Pr(x|c2)Pr(c2)L12Pr(c2)L21Pr(c1)<L21Pr(c1|x)<L21Pr(x|c1)Pr(c1)<Pr(x|c1)Pr(x|c2)
gdzie druga linia używa reguły Bayesa . Biorąc pod uwagę równe wcześniejsze prawdopodobieństwa otrzymujesz
Pr(c2|x)∝Pr(x|c2)Pr(c2)Pr(c1)=Pr(c2)=0.512<Pr(x|c1)Pr(x|c2)
więc decydujesz się sklasyfikować obserwację jako gdy współczynnik prawdopodobieństwa przekracza ten próg. Teraz nie jest dla mnie jasne, czy chcesz znać „najlepszy próg” pod względem współczynników prawdopodobieństwa, czy też pod względem atrybutu . Odpowiedź zmienia się zgodnie z funkcją kosztu. Używanie Gaussa w nierówności z i , ,
c1xσ1=σ2=σμ1=0μ2=1
12log(12)log(12)xσ2x<12π√σexp[−12σ2(x−μ1)2]12π√σexp[−12σ2(x−μ2)2]<log(12π−−√σ)−12σ2(x−0)2−[log(12π−−√σ)−12σ2(x−1)2]<−x22σ2+x22σ2−2x2σ2+12σ2<12σ2−log(12)<12−log(12)σ2
więc próg predykcji pod względem
xpodczas wyszukiwania można osiągnąć tylko wtedy, gdy straty z fałszywych prognoz są takie same, tj. ponieważ tylko wtedy możesz mieć a otrzymasz .
L12=L21log(L12L21)=log(1)=0x0<12