Mam prototypową maszynę do produkcji części.
W pierwszym teście maszyna produkuje części a binarny klasyfikator mówi mi, że części d 1 są wadliwe ( d 1 < N 1 , zwykle d 1 / N 1 < 0,01 i N 1 ≈ 10 4 ) oraz N 1 - d 1 części są dobre.
Następnie technik dokonuje zmian w maszynie, aby zmniejszyć liczbę wadliwych części.
W drugim i kolejnym teście zmodyfikowana maszyna wytwarza części a ten sam binarny klasyfikator (nietknięty) mówi mi, że części d 2 są wadliwe, w każdym razie d 2 / N 2 jest dość podobne do d 1 / N 1 .
Technik chciałby wiedzieć, czy jego zmiany są skuteczne.
Zakładając, że klasyfikatory są idealne (jego czułość wynosi 100%, a swoistość wynosi 100%), mogę wykonać test proporcji (z R, po prostu piszę prop.test(c(d1,d2),c(N1,N2))
).
Ale klasyfikator nie jest doskonały, więc jak mogę wziąć pod uwagę czułość i specyficzność, zarówno nieznaną, jak i klasyfikatora, aby właściwie odpowiedzieć technikowi?
źródło
Odpowiedzi:
Czerpię to z pierwszych zasad i dlatego nie jestem pewien, czy to prawda. Oto moje przemyślenia:
EDYCJA: To nie było wcześniej. Zaktualizowałem to.
Niech oznacza oczekiwaną różnicę między rzeczywistą liczbą prawdziwie dodatnich wartości d 1 a liczbą wyprowadzoną przez binarny klasyfikator, który nazwiemy ^α d1 d1^ N α
A teraz zróbmy test rekwizytów. W standardowym teście rekwizytów najpierw obliczamy współczynnik sumaryczny zastosowany jako wartość zerową: . Więc tutaj podajemy nasze oszacowania punktowep=p1∗N1+p2∗N2N1+N2 id1N1^ d2N2^ p=d1+d2+α∗(N1+N2)N1+N2
Kilka uwag na temat interpretacji:
Model może wygenerować wyimaginowane wartości standardowego błędu. Stanie się to, kiedyp<0
Innym sposobem myślenia o tym jest to, że jeśli liczba wadliwych części mieści się w granicach błędu dla klasyfikatora, to oczywiście nie możemy stwierdzić, czy istnieje różnica: nie możemy nawet stwierdzić, czy jakieś części są wadliwe!
Włączenie błędów w oszacowaniuα
Załóżmy, że chcemy obliczyć przedział ufności z pewnościąh
źródło
prop.test(7,100)