Statistics.com opublikowało problem tygodnia: Wskaźnik oszustw związanych z ubezpieczeniami mieszkaniowymi wynosi 10% (jedno na dziesięć roszczeń jest nieuczciwe). Konsultant zaproponował system uczenia maszynowego do przeglądu roszczeń i zaklasyfikowania ich jako oszustwo lub zakaz oszustwa. System jest w 90% skuteczny w wykrywaniu fałszywych roszczeń, ale tylko w 80% skuteczny w prawidłowej klasyfikacji roszczeń niezwiązanych z oszustwami (błędnie określa jeden na pięciu jako „oszustwo”). Jeśli system klasyfikuje roszczenie jako nieuczciwe, jakie jest prawdopodobieństwo, że rzeczywiście jest ono nieuczciwe?
https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true
Razem z moim kolegą wymyśliliśmy tę samą odpowiedź niezależnie i nie pasuje ona do opublikowanego rozwiązania.
Nasze rozwiązanie:
(.9 * .1) / ((. 9 * .1) + (. 2 * .9)) = 1/3
Ich rozwiązanie:
Jest to problem z prawdopodobieństwem warunkowym. (Jest to także problem bayesowski, ale zastosowanie formuły w regule Bayesa pomaga jedynie zaciemnić to, co się dzieje). Rozważ 100 twierdzeń. 10 będzie nieuczciwych, a system poprawnie oznaczy 9 z nich jako „oszustwo”. 90 roszczeń będzie w porządku, ale system nieprawidłowo sklasyfikuje 72 (80%) jako „oszustwo”. Tak więc w sumie 81 roszczeń zostało oznaczonych jako oszukańcze, ale tylko 9 z nich, 11%, faktycznie są oszukańcze.
Kto miał rację
źródło
Odpowiedzi:
Uważam, że ty i twój kolega macie rację. Statistics.com ma prawidłowy tok myślenia, ale popełnia prosty błąd. Spośród 90 wniosków „OK” oczekujemy, że 20% z nich zostanie nieprawidłowo sklasyfikowanych jako oszustwo, a nie 80%. 20% z 90 to 18, co prowadzi do 9 prawidłowo zidentyfikowanych roszczeń i 18 nieprawidłowych roszczeń, przy stosunku 1/3, dokładnie to, co daje reguła Bayesa.
źródło
Masz rację. Rozwiązanie, które opublikowała strona internetowa, opiera się na błędnym odczytaniu problemu, ponieważ 80% nieuczciwych roszczeń jest klasyfikowanych jako fałszywe zamiast podanych 20%.
źródło