Chcę porównać dokładność dwóch klasyfikatorów dla istotności statystycznej. Oba klasyfikatory działają na tym samym zestawie danych. To prowadzi mnie do przekonania, że powinienem używać testu t jednej próbki z tego, co czytałem .
Na przykład:
Classifier 1: 51% accuracy
Classifier 2: 64% accuracy
Dataset size: 78,000
Czy to właściwy test? Jeśli tak, to jak obliczyć, czy różnica w dokładności między klasyfikatorem jest znacząca?
Czy powinienem używać innego testu?
Mogę ci powiedzieć, nawet nie uruchamiając niczego, że różnica będzie bardzo istotna statystycznie. Przechodzi IOTT (test urazu międzygałkowego - uderza cię między oczy).
Jeśli jednak chcesz wykonać test, możesz to zrobić jako test dwóch proporcji - można to zrobić za pomocą testu t dwóch próbek.
Możesz jednak chcieć rozbić „dokładność” na jego elementy; czułość i swoistość lub fałszywie dodatni i fałszywie ujemny. W wielu aplikacjach koszt różnych błędów jest zupełnie inny.
źródło
Ponieważ dokładność w tym przypadku jest proporcją próbek poprawnie sklasyfikowanych, możemy zastosować test hipotezy dotyczący układu dwóch proporcji.
The test statistic is given by
Our intention is to prove that the global accuracy of classifier 2, i.e.,p2 , is better than that of classifier 1, which is p1 . This frames our hypothesis as
The rejection region is given by
wherezα is obtained from a standard normal distribition that pertains to a level of significance, α . For instance z0.5=1.645 for 5% level of significance. This means that if the relation Z<−1.645 is true, then we could say with 95% confidence level (1−α ) that classifier 2 is more accurate than classifier 1.
References:
źródło