Czy Statistics.com opublikowało złą odpowiedź?

28

Statistics.com opublikowało problem tygodnia: Wskaźnik oszustw związanych z ubezpieczeniami mieszkaniowymi wynosi 10% (jedno na dziesięć roszczeń jest nieuczciwe). Konsultant zaproponował system uczenia maszynowego do przeglądu roszczeń i zaklasyfikowania ich jako oszustwo lub zakaz oszustwa. System jest w 90% skuteczny w wykrywaniu fałszywych roszczeń, ale tylko w 80% skuteczny w prawidłowej klasyfikacji roszczeń niezwiązanych z oszustwami (błędnie określa jeden na pięciu jako „oszustwo”). Jeśli system klasyfikuje roszczenie jako nieuczciwe, jakie jest prawdopodobieństwo, że rzeczywiście jest ono nieuczciwe?

https://www.statistics.com/news/231/192/Conditional-Probability/?showtemplate=true

Razem z moim kolegą wymyśliliśmy tę samą odpowiedź niezależnie i nie pasuje ona do opublikowanego rozwiązania.

Nasze rozwiązanie:

(.9 * .1) / ((. 9 * .1) + (. 2 * .9)) = 1/3

Ich rozwiązanie:

Jest to problem z prawdopodobieństwem warunkowym. (Jest to także problem bayesowski, ale zastosowanie formuły w regule Bayesa pomaga jedynie zaciemnić to, co się dzieje). Rozważ 100 twierdzeń. 10 będzie nieuczciwych, a system poprawnie oznaczy 9 ​​z nich jako „oszustwo”. 90 roszczeń będzie w porządku, ale system nieprawidłowo sklasyfikuje 72 (80%) jako „oszustwo”. Tak więc w sumie 81 roszczeń zostało oznaczonych jako oszukańcze, ale tylko 9 z nich, 11%, faktycznie są oszukańcze.

Kto miał rację

ChrisG
źródło
4
Wygląda na to, poprawione rozwiązanie na swojej stronie internetowej, aby być w zgodzie z tym, co obliczono
nope
2
@ nope, cicho poprawił odpowiedź. podstępny
Aksakal,
Ciekawostki: w podejmowaniu decyzji behawioralnych problem ten jest często określany jako „problem mammograficzny”, ponieważ jego zwykła prezentacja dotyczy prawdopodobieństwa, że ​​pacjent otrzyma raka, któremu zostanie pozytywny mammografia.
Kodiolog,
„Dobrą wiadomością jest to, że nasz system klasyfikuje 90% oszustw jako oszustwo. Złą wiadomością jest to, że klasyfikuje 80% nieuczciwych oszustw”. Zauważ, że 11%, które obliczają, jest tylko nieznacznie wyższe niż 10% stawki podstawowej. Model uczenia maszynowego, w którym wskaźnik oszustw w oznaczonych przypadkach jest tylko o 10% wyższy niż wskaźnik bazowy, jest dość straszny.
Kumulacja
Jest to znane jako fałszywie pozytywny paradoks
BlueRaja - Danny Pflughoeft,

Odpowiedzi:

41

Uważam, że ty i twój kolega macie rację. Statistics.com ma prawidłowy tok myślenia, ale popełnia prosty błąd. Spośród 90 wniosków „OK” oczekujemy, że 20% z nich zostanie nieprawidłowo sklasyfikowanych jako oszustwo, a nie 80%. 20% z 90 to 18, co prowadzi do 9 prawidłowo zidentyfikowanych roszczeń i 18 nieprawidłowych roszczeń, przy stosunku 1/3, dokładnie to, co daje reguła Bayesa.

James Otto
źródło
11

Masz rację. Rozwiązanie, które opublikowała strona internetowa, opiera się na błędnym odczytaniu problemu, ponieważ 80% nieuczciwych roszczeń jest klasyfikowanych jako fałszywe zamiast podanych 20%.

Dilip Sarwate
źródło