Powiedz, że mam dwie metody uczenia się dla problemu klasyfikacji , i , i że oceniam ich wydajność uogólniającą za pomocą czegoś takiego jak wielokrotne sprawdzanie poprawności lub ładowanie początkowe. Z tego procesu otrzymuję rozkład wyników i dla każdej metody w tych powtórzeniach (np. Rozkład wartości ROC AUC dla każdego modelu).B. P B
Patrząc na tych rozkładów, to może być to, że ale (czyli oczekiwana wydajność uogólnienie jest większe niż , ale to jest więcej o tym niepewność oszacowania).σ A ≥ σ B A B
Myślę, że nazywa się to dylematem wariancji odchylenia w regresji.
Jakich metod matematycznych mogę użyć do porównania i i ewentualnie podjęcia świadomej decyzji o wyborze modelu?P B
Uwaga: Dla uproszczenia mam tu na myśli dwie metody i , ale interesują mnie metody, które można wykorzystać do porównania rozkładu wyników ~ 1000 metod uczenia się (np. Z przeszukiwania siatki) i ostatecznie ostateczna decyzja o tym, którego modelu użyć.B.
źródło
Odpowiedzi:
Gdyby były tylko dwie metody, A i B, obliczyłbym prawdopodobieństwo, że dla arbitralnej partycji treningowej / testowej błąd (zgodnie z odpowiednimi miernikami wydajności) dla modelu A był niższy niż błąd dla modelu B. Jeśli to prawdopodobieństwo były większe niż 0,5, wybrałbym model A, a w przeciwnym razie model B (por. test U Manna-Whitneya?). Jednak mocno podejrzewam, że ostatecznie wybierze model o niższej średniej, chyba że rozkłady statystyki wydajności są bardzo nie -symetryczny.
Z drugiej strony w przypadku wyszukiwania siatki sytuacja jest nieco inna, ponieważ tak naprawdę nie porównuje się różnych metod, lecz dostosowuje (hiper-) parametry tego samego modelu, aby dopasować skończoną próbkę danych (w tym przypadku pośrednio przez krzyżowanie) -uprawomocnienie). Przekonałem się, że tego rodzaju strojenie może być bardzo podatne na nadmierne dopasowanie, patrz mój artykuł
Gavin C. Cawley, Nicola LC Talbot, „O nadmiernym dopasowywaniu w wyborze modelu i późniejszym odchyleniu wyboru w ocenie wyników”, Journal of Machine Learning Research, 11 (lipiec): 2079-2107, 2010. ( www )
Mam recenzowany artykuł, który pokazuje, że prawdopodobnie najlepiej jest zastosować stosunkowo zgrubną siatkę dla maszyn jądra (np. SVM), aby uniknąć nadmiernego dopasowania kryterium wyboru modelu. Innym podejściem (którego nie zbadałem, więc ostrożnym lektorem!) Byłoby wybranie modelu z najwyższym błędem, który nie jest statystycznie gorszy od najlepszego modelu znalezionego w wyszukiwaniu siatki (chociaż może to być dość pesymistyczne podejście, szczególnie dla małych zestawów danych).
Prawdziwym rozwiązaniem prawdopodobnie nie jest jednak optymalizacja parametrów za pomocą przeszukiwania siatki, ale uśrednianie wartości parametrów, albo w podejściu bayesowskim, albo po prostu metodą złożoną. Jeśli nie zoptymalizujesz, trudniej będzie przeregulować!
źródło
"average over the parameter values"
myślę, że rozumiem, jak to zrobić za pomocą metody zespolonej (np. Budowanie zbioru wyjściowego jako średniej wyników klasyfikatora), ale nie jestem pewien, jak to zrobić z podejściem bayesowskim, pracując z modelem dyskryminacyjnym. Rozumiem teorię całkowicie bayesowskiego podejścia (tj. Unikaj oszacowań punktowych i marginalizuj parametry, aby zbudować końcowy tylny), ale zakładając, że mój wcześniejszy parametr jest jednolity, czy nie byłoby to równoznaczne z budowaniem zespołu uśredniającego ?