Jaki jest prawidłowy sposób przetestowania znaczenia wyników klasyfikacji

21

Istnieje wiele sytuacji, w których możesz trenować kilka różnych klasyfikatorów lub użyć kilku różnych metod wyodrębniania cech. W literaturze autorzy często podają średni błąd klasyfikacji nad zestawem losowych podziałów danych (tj. Po podwójnie zagnieżdżonej walidacji krzyżowej), a czasem także podają wariancje błędu w stosunku do podziałów. Jednak samo to nie wystarczy, aby powiedzieć, że jeden klasyfikator jest znacznie lepszy od drugiego. Widziałem wiele różnych podejść do tego - stosując testy chi-kwadrat, test t, ANOVA z testami post-hoc itp.

Jaką metodę należy zastosować do ustalenia istotności statystycznej? U podstaw tego pytania leży: Jakie założenia powinniśmy przyjąć w odniesieniu do rozkładu wyników klasyfikacji?

tdc
źródło
2
Czy możesz zamieścić przykładowe artykuły z: „Widziałem wiele różnych podejść do tego - używając testów chi-kwadrat, testu t, ANOVA z testami post-hoc itp.”? Naprawdę mnie to interesuje.
jb.

Odpowiedzi:

9

Oprócz doskonałej odpowiedzi @ jb., Dodam, że można użyć testu McNemara na tym samym zestawie testów, aby ustalić, czy jeden klasyfikator jest znacznie lepszy od drugiego. Będzie to działać tylko w przypadku problemów z klasyfikacją (co oryginalna praca McNemara nazywa „cechą dychotomiczną”), co oznacza, że ​​klasyfikatorzy albo dobrze to, albo źle, bez spacji w środku.

carlosdc
źródło
A co ze scenariuszem, w którym klasyfikator może przejść? Jak mówi, nie wie. Czy nadal możesz skorzystać z testu McNemara?
S0rin
5

Ponieważ rozkład błędów klasyfikacji jest rozkładem binarnym (istnieje błędna klasyfikacja lub jej brak) --- Powiedziałbym, że użycie chi-kwadrat nie jest rozsądne.

Sensowne jest również porównywanie wydajności klasyfikatorów pracujących na tych samych zestawach danych --- „Twierdzenie o braku darmowego lunchu” stwierdza, że ​​wszystkie modele mają tę samą średnią wydajność we wszystkich zestawach danych, więc to, który model będzie lepszy, będzie zależeć tylko od tego, jakie zestawy danych były wybrani do ich szkolenia http://en.wikipedia.org/wiki/No_free_lunch_in_search_and_optimization .

Jeśli porównujesz wydajność modeli A i B z zestawem danych D, myślę, że średnia wydajność + średnia wystarczy, aby dokonać wyboru.

Co więcej, jeśli ktoś ma wiele modeli, które mają sprawność rezonansową (i są liniowo niezależne od siebie), wolę zbudować model zespołowy niż wybrać najlepszy model.

jb.
źródło
Ale w przypadku pojedynczego klasyfikatora otrzymujesz zestaw wyników (np. MSE ponad 100 podziałów), które mogą być na przykład w zakresie [0,1]. Myślę, że byłoby o wiele za drogie brać wyniki każdego pojedynczego przebiegu i analizować je.
tdc
Tak. Ale w tym przypadku średnia + stddev wystarczy, aby sprawdzić, czy jeden jest znacznie lepszy od drugiego, podobnie jak w przypadku innych pomiarów.
jb.
2
Nie jestem tego taki pewien. Mean & stddev na początek zakłada Gaussianity, a po drugie nie bierze pod uwagę liczby porównań (np. Może być wymagana korekta Bonferroniego )
tdc
1
To samo dotyczy podstawowej teorii pomiaru. Załóżmy, że mamy mikrometr i chcemy sprawdzić, czy dwa pręty mają tę samą średnicę, wykonujemy 100 pomiarów obu prętów i sprawdzamy, czy średnia + stddev nakładają się. W obu przypadkach (pomiar prętowy i metryka modelowa) zakładamy po prostu rozkład wyników gaussowskich, jedynym sensownym argumentem jest centralne twierdzenie graniczne .
jb.
3

Polecam artykuł Toma Diettericha zatytułowany „Przybliżone testy statystyczne do porównywania nadzorowanych algorytmów uczenia się klasyfikacji”. Oto profil artykułu na CiteSeer: http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.37.3325 . Ze streszczenia: „W niniejszym artykule dokonano przeglądu pięciu przybliżonych testów statystycznych w celu ustalenia, czy jeden algorytm uczenia się osiąga lepsze wyniki niż inny w określonym zadaniu uczenia się. Testy te są porównywane eksperymentalnie w celu ustalenia prawdopodobieństwa nieprawidłowego wykrycia różnicy, gdy nie ma żadnej różnicy (błąd typu I ). ... Test McNemara wykazuje niski błąd typu I.… ”

Eric Ringger
źródło
2

IMHO nie powinno być żadnej różnicy między rozkładem wyników a dystrybucją jakiegokolwiek innego rodzaju danych. więc w zasadzie wszystko trzeba sprawdzić, czy dane są rozmieszczone prawidłowo lub nie patrz tutaj . Co więcej, istnieją świetne książki, które dokładnie omawiają to pytanie, patrz tutaj (tj. W skrócie: wszystkie testują, czy wynik dwóch klasyfikatorów jest znacząco różny .. a jeśli tak, to można je połączyć w jeden zespół)

Dow
źródło
Myślę, że prawdopodobnie nie będą normalnie dystrybuowane. W zwykłym przypadku wyniki będą dodatnie i przekrzywione w kierunku jednego końca zakresu (1 lub 0 w zależności od tego, czy do pomiaru używasz dokładności czy błędu).
tdc
@tdc: ten rozkład funkcji w funkcji (liczba błędnych klasyfikacji) -> (liczba modeli z taką liczbą błędnych klasyfikacji) często byłaby podobna do nierówności Poissona.
jb.
@Dov: Testowanie, który model jest znacznie lepszy (to jest pytanie OP) i testowanie, czy są różne, jest zupełnie inną rzeczą.
jb.
@jb. dzięki. ale powiedziałem, że znacznie różni się nie lepiej ...
Dow
@Dov Twój pierwszy link jest zepsuty - nie wiem, gdzie ma wskazywać.
Tamzin Blake,
2

Nie ma jednego testu odpowiedniego dla wszystkich sytuacji; Mogę polecić książkę „Ocena algorytmów uczenia się” Nathalie Japkowicz i Mohak Shah, Cambridge University Press, 2011. Fakt, że na ten temat można napisać książkę o prawie 400 stronach, sugeruje, że nie jest to prosty problem. Często stwierdziłem, że nie ma testu, który naprawdę odpowiadałby potrzebom moich badań, dlatego ważne jest, aby dobrze poznać zalety i wady dowolnej metody, która zostanie ostatecznie zastosowana.

Częstym problemem jest to, że w przypadku dużych zestawów danych można uzyskać statystycznie istotną różnicę przy wielkości efektu, która nie ma praktycznego znaczenia.

Dikran Torbacz
źródło