Test proporcji i binarny klasyfikator

10

Mam prototypową maszynę do produkcji części.

W pierwszym teście maszyna produkuje części a binarny klasyfikator mówi mi, że części d 1 są wadliwe ( d 1 < N 1 , zwykle d 1 / N 1 < 0,01 i N 110 4 ) oraz N 1 - d 1 części są dobre.N1d1d1<N1d1/N1<0.01N1104N1d1

Następnie technik dokonuje zmian w maszynie, aby zmniejszyć liczbę wadliwych części.

W drugim i kolejnym teście zmodyfikowana maszyna wytwarza części a ten sam binarny klasyfikator (nietknięty) mówi mi, że części d 2 są wadliwe, w każdym razie d 2 / N 2 jest dość podobne do d 1 / N 1 .N2d2d2/N2d1/N1

Technik chciałby wiedzieć, czy jego zmiany są skuteczne.

Zakładając, że klasyfikatory są idealne (jego czułość wynosi 100%, a swoistość wynosi 100%), mogę wykonać test proporcji (z R, po prostu piszę prop.test(c(d1,d2),c(N1,N2))).

Ale klasyfikator nie jest doskonały, więc jak mogę wziąć pod uwagę czułość i specyficzność, zarówno nieznaną, jak i klasyfikatora, aby właściwie odpowiedzieć technikowi?

Alessandro Jacopson
źródło
Czy potrafisz potwierdzić wskaźnik dokładności klasyfikatora?
Michelle,
@Michelle Wiem bez błędu i D 2 , ale nie wiem ile wadliwe części zostały błędnie sklasyfikowane jako dobra. d1d2
Alessandro Jacopson,
Witaj ponownie. Czy możesz zrobić losową próbkę dobrych części z N1 i N2 oddzielnie, aby oszacować współczynnik fałszywie dodatnich?
Michelle,
1
Czy mając te informacje, możesz użyć tej metody do porównania zmian? onlinelibrary.wiley.com/doi/10.1002/sim.906/abstract również zobaczyć tutaj ncbi.nlm.nih.gov/pubmed/18224558 i inny pomysł tutaj pełny tekst: stat.colostate.edu/~bradb/papers/lrgraphfinal. pdf
Michelle,
2
(+1) to świetne pytanie!
steffen

Odpowiedzi:

4

Czerpię to z pierwszych zasad i dlatego nie jestem pewien, czy to prawda. Oto moje przemyślenia:

EDYCJA: To nie było wcześniej. Zaktualizowałem to.

  1. Niech oznacza oczekiwaną różnicę między rzeczywistą liczbą prawdziwie dodatnich wartości d 1 a liczbą wyprowadzoną przez binarny klasyfikator, który nazwiemy ^αd1d1^Nα

  2. d1N1^=d1+αN1N1

  3. d2N2^=d2+αN2N2

  4. A teraz zróbmy test rekwizytów. W standardowym teście rekwizytów najpierw obliczamy współczynnik sumaryczny zastosowany jako wartość zerową: . Więc tutaj podajemy nasze oszacowania punktowep=p1N1+p2N2N1+N2 id1N1^d2N2^p=d1+d2+α(N1+N2)N1+N2

  5. p(1p)(1N1+1N2)

  6. z=d1N1d2N2se

Kilka uwag na temat interpretacji:

  • Model może wygenerować wyimaginowane wartości standardowego błędu. Stanie się to, kiedyp<0

  • Innym sposobem myślenia o tym jest to, że jeśli liczba wadliwych części mieści się w granicach błędu dla klasyfikatora, to oczywiście nie możemy stwierdzić, czy istnieje różnica: nie możemy nawet stwierdzić, czy jakieś części są wadliwe!

Włączenie błędów w oszacowaniu α

  • αα

Załóżmy, że chcemy obliczyć przedział ufności z pewnością h

  • Oblicz empirycznie h2ααh2lowl,lowr)(highl,highr)α(highl,lowr) (który zawiera oba wcześniejsze przedziały) powinien wynosić (1-h) * 100% CI dla różnicy proporcji ... Myślę, że ...

α

John Doucette
źródło
+1, dziękuję. Czy w 6 napisałeś „statyczny”, czy miałeś na myśli „statystykę”?
Alessandro Jacopson
p<00<p<10<p<1
0.01(N1d1)100β=7100ββprop.test(7,100)
@uvts_cvs Tak, to powinna być „statystyka”. Zaraz to naprawię. W obliczeniach jest też literówka dla standardowego błędu, który zamiast tego powinien być p * (1-p). P powinno zawsze wynosić <1, chyba że twój klasyfikator jest naprawdę zły, a d jest duży. W przypadku twojego trzeciego komentarza, tak, to jest pomysł. Po prostu nie jestem pewien, jak włączyć tę ocenę do modelu. Może ktoś tu wie?
John Doucette,
αβ