Jaka jest najbardziej odpowiednia metoda próbkowania do oceny wydajności klasyfikatora na określonym zbiorze danych i porównania go z innymi klasyfikatorami? Cross-validation wydaje się być standardową praktyką, ale przeczytałem, że metody takie jak bootstrap .632 są lepszym wyborem.
W następstwie: czy wybór metryki wydajności wpływa na odpowiedź (jeśli użyję AUC zamiast dokładności)?
Moim ostatecznym celem jest być w stanie z pewnym przekonaniem stwierdzić, że jedna metoda uczenia maszynowego jest lepsza od drugiej w przypadku określonego zestawu danych.
Odpowiedzi:
Jedną ważną różnicą w zwykłym sposobie, w jaki stosuje się metody weryfikacji krzyżowej i metody „out-of-bootstrap”, jest to, że większość osób stosuje walidację krzyżową tylko raz (tj. Każdy przypadek jest testowany dokładnie raz), podczas gdy walidacja „poza bootstrap” jest wykonywana z dużą liczbą powtórzeń / iteracji. W takiej sytuacji weryfikacja krzyżowa podlega większej wariancji z powodu niestabilności modelu. Można tego jednak uniknąć, stosując np. Powtarzaną / powtarzaną krotną walidację krzyżową. Jeśli tak się stanie, przynajmniej w przypadku zestawów danych spektroskopowych, z którymi pracowałem, całkowity błąd obu schematów ponownego próbkowania wydaje się w praktyce taki sam.k
Odradza się jednoznaczną weryfikację krzyżową, ponieważ nie ma możliwości zmniejszenia wariancji typu niestabilności modelu, a istnieją pewne klasyfikatory i problemy, w których wykazuje ona ogromne pesymistyczne nastawienie.
.632 bootstrap wykonuje rozsądną robotę, o ile zmieszany błąd ponownego próbkowania nie jest zbyt optymistyczny. (Np. W przypadku danych, z którymi pracuję, bardzo szerokie macierze z wieloma zmiennymi, to nie działa zbyt dobrze, ponieważ modele są podatne na poważne przeregulowanie). Oznacza to również, że unikałbym używania bootstrapu .632 do porównywania modeli o różnym stopniu złożoności. Z .632+ bootstrap nie mam doświadczenia: jeśli wystąpi przeregulowanie i zostanie poprawnie wykryty, będzie równy pierwotnej szacunkowej wartości po bootstrapie, więc trzymam się zwykłego oob lub iteracji / powtarzanej krzyżowej weryfikacji moich danych.
Literatura:
(Klasyczny )
Dougherty i Braga-Neto mają wiele publikacji na ten temat , np
Dougherty, ER i in. : Wydajność estymatorów błędów dla klasyfikacji Bieżąca bioinformatyka, 2010, 5, 53-67
Beleites, C. i in. : Zmniejszenie wariancji w szacowaniu błędu klasyfikacji przy użyciu rzadkich zestawów danych Chemom Intell Lab Syst, 2005, 79, 91 - 100.
Mamy porównanie przeprowadzania walidacji krzyżowej tylko raz lub powtarzania / powtarzania i porównujemy to z gotowym ładowaniem i .632 bootstrap również dla szczególnie szerokich danych z wieloma kolinearnościami.
Kim, J.-H .: Szacowanie wskaźnika błędu klasyfikacji: Powtarzana walidacja krzyżowa, powtarzane wstrzymanie i bootstrap, Statystyka obliczeniowa i analiza danych, 2009, 53, 3735 - 374 Stwierdzak
również, że powtarzana / powtarzana krotna walidacja krzyżowa i out-of-bootstrap mają podobną wydajność (w przeciwieństwie do wykonywania krzyżowej weryfikacji tylko raz).
Wybór danych:
dokładność (z której @FrankHarrell powie ci, że jest to zły wybór, ponieważ nie jest to właściwa reguła punktacji ) podlega dużej rozbieżności, ponieważ uważa każdy przypadek za całkowicie poprawny lub całkowicie niepoprawny, nawet jeśli klasyfikator przewidział np. tylko 60 % prawdopodobieństwa a posteriori przynależności do danej klasy. Właściwą zasadą punktacji jest np. Wynik Briera, który jest ściśle związany ze średnim kwadratowym błędem regresji.
Analogie średniego błędu kwadratowego są dostępne dla proporcji takich jak dokładność, czułość, swoistość, wartości predykcyjne: Beleites, C. i in. : Walidacja miękkich modeli klasyfikacji przy użyciu częściowego członkostwa w klasie: Rozszerzona koncepcja wrażliwości i spółka zastosowana do klasyfikacji tkanek gwiaździaka, Chemom Intell Lab Syst, 2013, 122, 12 - 22; DOI: 10.1016 / j.chemolab.2012.12.003 (strona podsumowująca zawierająca również link do przedruku)
Użyj testu sparowanego, aby to ocenić. Aby porównać proporcje, spójrz na test McNemara.
Na odpowiedź na to wpłynie wybór metryki. Ponieważ miary błędu typu regresji nie mają etapu „hartowania” przy podejmowaniu decyzji dotyczących cięcia z progiem, często mają mniejszą wariancję niż ich odpowiedniki klasyfikacyjne. Miary takie jak dokładność, które są w zasadzie proporcjami, będą wymagały ogromnej liczby przypadków testowych, aby ustalić wyższość jednego klasyfikatora nad drugim.
Fleiss: „Metody statystyczne dla stawek i proporcji” podaje przykłady (i tabele) dla niesparowanego porównania proporcji. Aby dać ci wyobrażenie o tym, co mam na myśli przez „ogromne rozmiary próbek”, spójrz na obraz w mojej odpowiedzi na to drugie pytanie . Sparowane testy, takie jak McNemar, wymagają mniej przypadków testowych, ale IIRC nadal w najlepszym przypadku jest w połowie (?) Wielkości próbki potrzebnej do niesparowanego testu.
Aby scharakteryzować wydajność klasyfikatora (hartowane), zwykle potrzebujesz krzywej roboczej o co najmniej dwóch wartościach, takich jak ROC (czułość vs. specyficzność) lub tym podobne.
Rzadko stosuję ogólną dokładność lub AUC, ponieważ moje aplikacje zwykle mają ograniczenia, np. Że czułość jest ważniejsza niż specyficzność, lub pewne ograniczenia tych środków powinny zostać spełnione. Jeśli wybierzesz charakterystykę sumy „pojedynczej liczby”, upewnij się, że punkt pracy modeli, na które patrzysz, znajduje się w rozsądnym zakresie.
Aby uzyskać dokładność i inne miary wydajności podsumowujące wydajność dla kilku klas zgodnie z etykietami referencyjnymi, należy wziąć pod uwagę względną częstotliwość klas, które napotkasz w aplikacji - co niekoniecznie jest takie samo jak w twojej dane szkoleniowe lub testowe.
Provost, F. i in. : Sprawa przeciw szacunkowi dokładności przy porównywaniu algorytmów indukcyjnych w postępowaniu XV Międzynarodowej Konferencji na temat Uczenia Maszynowego, 1998
edycja: porównywanie wielu klasyfikatorów
Myślałem o tym problemie przez jakiś czas, ale nie znalazłem jeszcze rozwiązania (ani nie spotkałem nikogo, kto miałby rozwiązanie).
Oto co mam do tej pory:
Problem polega na tym, że bardzo szybko wpadasz w ogromną sytuację wielokrotnego porównywania.
Można jednak powiedzieć, że w przypadku aplikacji, które mam pod ręką, wiele porównań tak naprawdę nie pogarsza sytuacji, ponieważ rzadko mam wystarczającą liczbę przypadków testowych, aby pozwolić nawet na jedno porównanie ...
Myślę, że dostrajanie hiperparametrów modelu jest specjalistyczną wersją ogólnego problemu z porównywaniem modeli, który może być łatwiejszy do rozwiązania na początku. Istnieją jednak pogłoski, że jakość modeli zależy w dużej mierze od wiedzy specjalisty, który je buduje, być może nawet bardziej niż od wyboru typu modelu
Na razie zdecydowałem, że „optymalizacja jest źródłem wszelkiego zła”, i zamiast tego podchodzę do zupełnie innego podejścia:
decyduję w jak największym stopniu na podstawie wiedzy eksperckiej na temat problemu. To w rzeczywistości pozwala dość zawęzić pewne rzeczy, dzięki czemu często mogę uniknąć porównania modeli. Kiedy muszę porównywać modele, staram się być bardzo otwarty i jasny, przypominając ludziom o niepewności oszacowania wydajności i że szczególnie wielokrotne porównywanie modeli jest AFAIK nadal nierozwiązanym problemem.
Edycja 2: sparowane testy
Wśród modeli możesz dokonać porównań między dwoma różnymi modelami (co jest ogromną sytuacją wielokrotnego porównywania), nie wiem jak to zrobić poprawnie. Jednak sparowanen 12)( n2)- n ) testu odnosi się tylko do faktu, że ponieważ wszystkie modele są testowane z dokładnie tymi samymi przypadkami testowymi, z jednej strony można podzielić przypadki na przypadki „łatwe” i „trudne”, dla których wszystkie modele osiągają prawidłowy wynik (lub zła) prognoza. Nie pomagają w rozróżnieniu modeli. Z drugiej strony istnieją „interesujące” przypadki, które są przewidywane poprawnie przez niektóre, ale nie przez inne modele. Tylko te „interesujące” przypadki muszą być brane pod uwagę w celu oceny wyższości, ani „łatwe”, ani „trudne” przypadki nie pomagają w tym. (W ten sposób rozumiem ideę stojącą za testem McNemara).
W przypadku masowo wielokrotnego porównania modeli, sądzę, że jednym problemem jest to, że jeśli nie masz szczęścia, im więcej modeli porównasz, tym mniej przypadków będziesz w stanie wykluczyć z dalszych rozważań: nawet jeśli wszystkie modele są naprawdę równe ogólna wydajność staje się coraz mniej prawdopodobne, że przypadek zawsze kończy się prawidłowym (lub zawsze błędnym) przewidywaniem przez modeli.n n
źródło
Potrzebujesz modyfikacji w bootstrapie (.632, .632+) tylko dlatego, że w oryginalnych badaniach stosowano nieciągłą niewłaściwą regułę punktacji (odsetek poprawnie sklasyfikowany). W przypadku innych wyników dokładności zwykły bootstrap optymizmu zwykle działa dobrze. Aby uzyskać więcej informacji, zobacz http://biostat.mc.vanderbilt.edu/RmS#Studies_of_Methods_Used_in_the_T
Niewłaściwe reguły punktacji wprowadzają cię w błąd w wyborze funkcji i ich wagi. Innymi słowy, wszystko, co może pójść nie tak, pójdzie nie tak.
źródło
Z „Applied Predictive Modeling., Khun. Johnson . s. 78
„Żadna metoda ponownego próbkowania nie jest jednakowo lepsza od innej; wyboru należy dokonać, biorąc pod uwagę kilka czynników. Jeśli wielkość próbki jest niewielka, zalecamy stosowanie powtarzanej 10-krotnej walidacji krzyżowej z kilku powodów; właściwości odchylenia i wariancji są dobre i podane wielkość próby, koszty obliczeniowe nie są duże. Jeśli celem jest wybór między modelami, a nie uzyskanie najlepszego wskaźnika wydajności, można uzasadnić zastosowanie jednej z procedur ładowania początkowego, ponieważ mają one bardzo niską wariancję. W przypadku dużych próbek różnice między metodami ponownego próbkowania stają się mniej wyraźne, a wydajność obliczeniowa wzrasta. ” p. 78
Ponadto, biorąc pod uwagę wybór dwóch podobnych wyników, generalnie preferowany jest bardziej interpretowalny model. Na przykład (z tego samego tekstu), używając 10-krotnego CV, klasyfikator SVM miał oszacowanie 75% dokładności z wynikami ponownego próbkowania między 66 a 82%. Te same parametry zastosowano w klasyfikatorze regresji logistycznej z dokładnością 74,9% i tym samym zakresem ponownego próbkowania. Prostszy model regresji logistycznej może być preferowany, ponieważ łatwiej interpretować wyniki.
źródło