Porównanie wyników dokładności dwóch klasyfikatorów dla istotności statystycznej z testem t

17

Chcę porównać dokładność dwóch klasyfikatorów dla istotności statystycznej. Oba klasyfikatory działają na tym samym zestawie danych. To prowadzi mnie do przekonania, że ​​powinienem używać testu t jednej próbki z tego, co czytałem .

Na przykład:

Classifier 1: 51% accuracy
Classifier 2: 64% accuracy
Dataset size: 78,000

Czy to właściwy test? Jeśli tak, to jak obliczyć, czy różnica w dokładności między klasyfikatorem jest znacząca?

Czy powinienem używać innego testu?

Chris
źródło

Odpowiedzi:

14

Prawdopodobnie wybrałbym test McNemara, jeśli tylko raz wyszkolisz klasyfikatorów. David Barber sugeruje również dość schludny test bayesowski, który wydaje mi się dość elegancki, ale nie jest szeroko stosowany (wspomniano go również w jego książce ).

Wystarczy dodać, jak mówi Peter Flom, odpowiedź brzmi prawie na pewno „tak”, po prostu patrząc na różnicę wydajności i wielkość próbki (biorę przytoczone liczby, to raczej wydajność zestawu testowego niż wydajność zestawu treningowego).

Nawiasem mówiąc, Japkowicz i Shah wydali niedawno książkę zatytułowaną „Ocena algorytmów uczenia się: perspektywa klasyfikacji”. Nie przeczytałem jej, ale wygląda na to przydatne odniesienie do tego rodzaju problemów.

Dikran Torbacz
źródło
1
Prowadzę 10-krotną weryfikację krzyżową, aby uzyskać te wyniki. Czy to oznacza, że ​​są to właściwie różne zestawy danych. To jest całkowity rozmiar, który jest dzielony na test / pociąg w ramach walidacji krzyżowej
Chris
4
Dokładności dla każdej zakładki nie będą niezależne, co będzie naruszać założenia większości testów statystycznych, ale prawdopodobnie nie będzie dużym problemem. Często używam 100 losowych podziałów treningowych / testowych, a następnie używam sparowanego testu rang Wilcoxona (użyj tych samych losowych podziałów dla obu klasyfikatorów). Wolę ten rodzaj testu, ponieważ często używam małych zestawów danych (ponieważ jestem zainteresowany nadmiernym dopasowaniem), więc zmienność między losowymi podziałami jest zwykle porównywalna z różnicą wydajności między klasyfikatorami.
Dikran Torbacz
2
(+1) w sparowanym podpisanym teście rang Wilcoxona (i link do książki ... jeśli toc może spełnić swoje obietnice, ta książka może stać się lekturą wszystkich ML: O)
steffen
3
Użyłem również podpisanych testów rang, a także sparowanych testów t do porównywania klasyfikatorów. Jednak za każdym razem, gdy informuję o stosowaniu jednostronnego testu do tego celu, mam trudności z recenzentami, więc wracam do korzystania z testów dwustronnych!
BGreene,
2
Biorąc pod uwagę, że OP wyjaśnił w komentarzach, że pytanie dotyczy w rzeczywistości weryfikacji krzyżowej, czy może rozważyć rozszerzenie odpowiedzi na ten temat? Możemy wtedy edytować Q. Jest to ważny temat i istnieje kilka bardzo powiązanych (lub nawet zduplikowanych) pytań, ale żadne z nich nie ma dobrej odpowiedzi. W powyższym komentarzu zaleca się stosowanie sparowanego testu szacunków CV i stwierdzenie, że nie sądzisz, że brak niezależności jest tutaj dużym problemem. Dlaczego nie? Brzmi dla mnie jak potencjalnie ogromny problem!
ameba mówi Przywróć Monikę
4

Mogę ci powiedzieć, nawet nie uruchamiając niczego, że różnica będzie bardzo istotna statystycznie. Przechodzi IOTT (test urazu międzygałkowego - uderza cię między oczy).

Jeśli jednak chcesz wykonać test, możesz to zrobić jako test dwóch proporcji - można to zrobić za pomocą testu t dwóch próbek.

Możesz jednak chcieć rozbić „dokładność” na jego elementy; czułość i swoistość lub fałszywie dodatni i fałszywie ujemny. W wielu aplikacjach koszt różnych błędów jest zupełnie inny.

Peter Flom - Przywróć Monikę
źródło
Uzgodnione - będzie to z pewnością znaczące. Nitpick: byłoby użyć -Test testowi dwa rozmiary (około) - ma to związek z zbieżności rozkładu dwumianowego do normalnej jak n wzrasta. Zobacz sekcję 5.2 en.wikipedia.org/wiki/Statistic_hypothesis_testingzn
Makro
Po zastanowieniu, test może nadal być asymptotycznie ważny przez CLT, ale musi istnieć powód, dla którego zwykle używa się testu z . tz
Makro
2
Procent dokładności, który podałem w swoim pytaniu, jest tylko przykładem.
Chris
0

Ponieważ dokładność w tym przypadku jest proporcją próbek poprawnie sklasyfikowanych, możemy zastosować test hipotezy dotyczący układu dwóch proporcji.

p^1p^2nx1x2

p^1=x1/n,p^2=x2/n

The test statistic is given by

Z=p^1p^22p^(1p^)/n where p^=(x1+x2)/2n

Our intention is to prove that the global accuracy of classifier 2, i.e., p2, is better than that of classifier 1, which is p1. This frames our hypothesis as

  • H0:p1=p2 (null hypothesis stating both are equal)
  • Ha:p1<p2 (alternative hypotyesis claiming the newer one is better than the existing)

The rejection region is given by

Z<zα (if true reject H0 and accept Ha)

where zα is obtained from a standard normal distribition that pertains to a level of significance, α. For instance z0.5=1.645 for 5% level of significance. This means that if the relation Z<1.645 is true, then we could say with 95% confidence level (1α) that classifier 2 is more accurate than classifier 1.

References:

  1. R. Johnson and J. Freund, Miller and Freund’s Probability and Statistics for Engineers, 8th Ed. Prentice Hall International, 2011. (Primary source)
  2. Test of Hypothesis-Concise Formula Summary. (Adopted from [1])
Ébe Isaac
źródło
Shouldn't p^ be the average of p^1 and p^2? So the denominator should be 2n in p^=(x1+x2)/2n.
Shiva Tp
Though I agree that a test for proportions could be used, there is nothing in the original question that suggests a one-sided test is appropriate. Moreover, "we could say with 95% confidence" is a common misinterpretation. See e.g. here: metheval.uni-jena.de/lehre/0405-ws/evaluationuebung/haller.pdf
Frans Rodenburg
@ShivaTp Indeed. Thanks for pointing the much needed typo correction. Edit confirmed.
Ébe Isaac