Istnieje wiele sytuacji, w których możesz trenować kilka różnych klasyfikatorów lub użyć kilku różnych metod wyodrębniania cech. W literaturze autorzy często podają średni błąd klasyfikacji nad zestawem losowych podziałów danych (tj. Po podwójnie zagnieżdżonej walidacji krzyżowej), a czasem także podają wariancje błędu w stosunku do podziałów. Jednak samo to nie wystarczy, aby powiedzieć, że jeden klasyfikator jest znacznie lepszy od drugiego. Widziałem wiele różnych podejść do tego - stosując testy chi-kwadrat, test t, ANOVA z testami post-hoc itp.
Jaką metodę należy zastosować do ustalenia istotności statystycznej? U podstaw tego pytania leży: Jakie założenia powinniśmy przyjąć w odniesieniu do rozkładu wyników klasyfikacji?
Odpowiedzi:
Oprócz doskonałej odpowiedzi @ jb., Dodam, że można użyć testu McNemara na tym samym zestawie testów, aby ustalić, czy jeden klasyfikator jest znacznie lepszy od drugiego. Będzie to działać tylko w przypadku problemów z klasyfikacją (co oryginalna praca McNemara nazywa „cechą dychotomiczną”), co oznacza, że klasyfikatorzy albo dobrze to, albo źle, bez spacji w środku.
źródło
Ponieważ rozkład błędów klasyfikacji jest rozkładem binarnym (istnieje błędna klasyfikacja lub jej brak) --- Powiedziałbym, że użycie chi-kwadrat nie jest rozsądne.
Sensowne jest również porównywanie wydajności klasyfikatorów pracujących na tych samych zestawach danych --- „Twierdzenie o braku darmowego lunchu” stwierdza, że wszystkie modele mają tę samą średnią wydajność we wszystkich zestawach danych, więc to, który model będzie lepszy, będzie zależeć tylko od tego, jakie zestawy danych były wybrani do ich szkolenia http://en.wikipedia.org/wiki/No_free_lunch_in_search_and_optimization .
Jeśli porównujesz wydajność modeli A i B z zestawem danych D, myślę, że średnia wydajność + średnia wystarczy, aby dokonać wyboru.
Co więcej, jeśli ktoś ma wiele modeli, które mają sprawność rezonansową (i są liniowo niezależne od siebie), wolę zbudować model zespołowy niż wybrać najlepszy model.
źródło
Polecam artykuł Toma Diettericha zatytułowany „Przybliżone testy statystyczne do porównywania nadzorowanych algorytmów uczenia się klasyfikacji”. Oto profil artykułu na CiteSeer: http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.37.3325 . Ze streszczenia: „W niniejszym artykule dokonano przeglądu pięciu przybliżonych testów statystycznych w celu ustalenia, czy jeden algorytm uczenia się osiąga lepsze wyniki niż inny w określonym zadaniu uczenia się. Testy te są porównywane eksperymentalnie w celu ustalenia prawdopodobieństwa nieprawidłowego wykrycia różnicy, gdy nie ma żadnej różnicy (błąd typu I ). ... Test McNemara wykazuje niski błąd typu I.… ”
źródło
IMHO nie powinno być żadnej różnicy między rozkładem wyników a dystrybucją jakiegokolwiek innego rodzaju danych. więc w zasadzie wszystko trzeba sprawdzić, czy dane są rozmieszczone prawidłowo lub nie patrz tutaj . Co więcej, istnieją świetne książki, które dokładnie omawiają to pytanie, patrz tutaj (tj. W skrócie: wszystkie testują, czy wynik dwóch klasyfikatorów jest znacząco różny .. a jeśli tak, to można je połączyć w jeden zespół)
źródło
Nie ma jednego testu odpowiedniego dla wszystkich sytuacji; Mogę polecić książkę „Ocena algorytmów uczenia się” Nathalie Japkowicz i Mohak Shah, Cambridge University Press, 2011. Fakt, że na ten temat można napisać książkę o prawie 400 stronach, sugeruje, że nie jest to prosty problem. Często stwierdziłem, że nie ma testu, który naprawdę odpowiadałby potrzebom moich badań, dlatego ważne jest, aby dobrze poznać zalety i wady dowolnej metody, która zostanie ostatecznie zastosowana.
Częstym problemem jest to, że w przypadku dużych zestawów danych można uzyskać statystycznie istotną różnicę przy wielkości efektu, która nie ma praktycznego znaczenia.
źródło