Porównanie rozkładów wydajności uogólnienia

10

Powiedz, że mam dwie metody uczenia się dla problemu klasyfikacji , i , i że oceniam ich wydajność uogólniającą za pomocą czegoś takiego jak wielokrotne sprawdzanie poprawności lub ładowanie początkowe. Z tego procesu otrzymuję rozkład wyników i dla każdej metody w tych powtórzeniach (np. Rozkład wartości ROC AUC dla każdego modelu).B.AB P BPAPB

Patrząc na tych rozkładów, to może być to, że ale (czyli oczekiwana wydajność uogólnienie jest większe niż , ale to jest więcej o tym niepewność oszacowania).σ Aσ B A BμAμBσAσBAB

Myślę, że nazywa się to dylematem wariancji odchylenia w regresji.

Jakich metod matematycznych mogę użyć do porównania i i ewentualnie podjęcia świadomej decyzji o wyborze modelu?P BPAPB

Uwaga: Dla uproszczenia mam tu na myśli dwie metody i , ale interesują mnie metody, które można wykorzystać do porównania rozkładu wyników ~ 1000 metod uczenia się (np. Z przeszukiwania siatki) i ostatecznie ostateczna decyzja o tym, którego modelu użyć.B.AB

Amelio Vazquez-Reina
źródło
Myślę, że termin kompromis wariancji odchylenia nie ma tutaj zastosowania, ponieważ nie rozkładasz średniego kwadratu błędu na odchylenie i wariancję, i nie mówisz o wariancji estymatora, ale o wariancji wyniku.
Lucas
Dzięki @Lucas. Próbuję oszacować wynik moich klasyfikatorów i na niewidzialnych danych. Do tego, pomyślałem mogłem wziąć średnią z wynikami na obserwowanych danych jako mojego estymatorów (czyli i dla i odpowiednio). Czy wariancja tych estymatorów różni się od wariancji wyników i ? B E ( P A ) E ( P B ) A B P A P BABE(PA)E(PB)ABPAPB
Amelio Vazquez-Reina,
2
@ user815423426 Myślę, że porównanie zależy od funkcji utraty, którą masz. Diebold i Mariano (2002) mają fajny artykuł analizujący twoje pytanie. Zaproponowali kilka testów statystycznych porównujących wydajność „uogólnienia”. Nie wiem, jak skonfigurować link w komentarzach. Artykuł to: Diebold, Francis X. i Robert S. Mariano. „Porównywanie predykcyjnej dokładności”. Journal of Business & Economic Statistics 20.1 (2002): 134-144.
semibruin

Odpowiedzi:

2

Gdyby były tylko dwie metody, A i B, obliczyłbym prawdopodobieństwo, że dla arbitralnej partycji treningowej / testowej błąd (zgodnie z odpowiednimi miernikami wydajności) dla modelu A był niższy niż błąd dla modelu B. Jeśli to prawdopodobieństwo były większe niż 0,5, wybrałbym model A, a w przeciwnym razie model B (por. test U Manna-Whitneya?). Jednak mocno podejrzewam, że ostatecznie wybierze model o niższej średniej, chyba że rozkłady statystyki wydajności są bardzo nie -symetryczny.

Z drugiej strony w przypadku wyszukiwania siatki sytuacja jest nieco inna, ponieważ tak naprawdę nie porównuje się różnych metod, lecz dostosowuje (hiper-) parametry tego samego modelu, aby dopasować skończoną próbkę danych (w tym przypadku pośrednio przez krzyżowanie) -uprawomocnienie). Przekonałem się, że tego rodzaju strojenie może być bardzo podatne na nadmierne dopasowanie, patrz mój artykuł

Gavin C. Cawley, Nicola LC Talbot, „O nadmiernym dopasowywaniu w wyborze modelu i późniejszym odchyleniu wyboru w ocenie wyników”, Journal of Machine Learning Research, 11 (lipiec): 2079-2107, 2010. ( www )

Mam recenzowany artykuł, który pokazuje, że prawdopodobnie najlepiej jest zastosować stosunkowo zgrubną siatkę dla maszyn jądra (np. SVM), aby uniknąć nadmiernego dopasowania kryterium wyboru modelu. Innym podejściem (którego nie zbadałem, więc ostrożnym lektorem!) Byłoby wybranie modelu z najwyższym błędem, który nie jest statystycznie gorszy od najlepszego modelu znalezionego w wyszukiwaniu siatki (chociaż może to być dość pesymistyczne podejście, szczególnie dla małych zestawów danych).

Prawdziwym rozwiązaniem prawdopodobnie nie jest jednak optymalizacja parametrów za pomocą przeszukiwania siatki, ale uśrednianie wartości parametrów, albo w podejściu bayesowskim, albo po prostu metodą złożoną. Jeśli nie zoptymalizujesz, trudniej będzie przeregulować!

Dikran Torbacz
źródło
Dzięki Dikran. Kiedy mówisz, "average over the parameter values"myślę, że rozumiem, jak to zrobić za pomocą metody zespolonej (np. Budowanie zbioru wyjściowego jako średniej wyników klasyfikatora), ale nie jestem pewien, jak to zrobić z podejściem bayesowskim, pracując z modelem dyskryminacyjnym. Rozumiem teorię całkowicie bayesowskiego podejścia (tj. Unikaj oszacowań punktowych i marginalizuj parametry, aby zbudować końcowy tylny), ale zakładając, że mój wcześniejszy parametr jest jednolity, czy nie byłoby to równoznaczne z budowaniem zespołu uśredniającego ?
Amelio Vazquez-Reina
1
W podejściu bayesowskim modele byłyby ważone na podstawie ich krańcowego prawdopodobieństwa (tj. Dowodów bayesowskich) i wszelkich wcześniejszych wyników ponad hiperparametrami, więc byłby to szczególny przypadek uśrednienia dla zbioru z określoną metodą ważenia modeli.
Dikran Marsupial