W swoim artykule Linear Model Selection by Cross-Validation Jun Shao pokazuje, że w przypadku problemu selekcji zmiennych w wielowymiarowej regresji liniowej metoda walidacji krzyżowej z pominięciem jednego elementu (LOOCV) jest „asymptotycznie niespójna”. W prostym języku angielskim ma tendencję do wybierania modeli ze zbyt wieloma zmiennymi. W badaniu symulacyjnym Shao pokazuje, że nawet w przypadku zaledwie 40 obserwacji LOOCV może mieć gorsze wyniki niż inne techniki walidacji krzyżowej.
Ten artykuł jest nieco kontrowersyjny i nieco ignorowany (10 lat po jego opublikowaniu moi koledzy z chemometrii nigdy o nim nie słyszeli i chętnie używali LOOCV do selekcji zmiennych ...). Istnieje również przekonanie (jestem tego winny), że jego wyniki wykraczają nieco poza pierwotnie ograniczony zakres.
Pytanie zatem: jak daleko sięgają te wyniki? Czy dotyczą następujących problemów?
- Zmienny wybór regresji logistycznej / GLM?
- Zmienny wybór do klasyfikacji Fisher LDA?
- Zmienny wybór za pomocą SVM ze skończoną (lub nieskończoną) przestrzenią jądra?
- Porównanie modeli w klasyfikacji, powiedzmy, że SVM używa różnych jąder?
- Porównanie modeli w regresji liniowej, powiedzmy, porównanie MLR z regresją Ridge'a?
- itp.
źródło
Odpowiedzi:
Musisz określić cel modelu, zanim będziesz mógł stwierdzić, czy wyniki Shao mają zastosowanie. Na przykład, jeśli celem jest przewidywanie, LOOCV ma sens, a niespójność wyboru zmiennych nie stanowi problemu. Z drugiej strony, jeśli celem jest zidentyfikowanie ważnych zmiennych i wyjaśnienie, w jaki sposób wpływają one na zmienną odpowiedzi, wyniki Shao są oczywiście ważne i LOOCV nie jest właściwe.
AIC jest asymptotycznie LOOCV, a BIC jest asymptotycznie równoważny CV CV z pominięciem gdzie --- wynik BIC tylko dla modeli liniowych. BIC zapewnia więc spójny wybór modelu. Dlatego krótkie podsumowanie wyniku Shao jest takie, że AIC jest przydatny do przewidywania, ale BIC jest użyteczny do wyjaśnienia.v = n [ 1 - 1 / ( log ( n ) - 1 ) ]v v=n[1−1/(log(n)−1)]
źródło
Nie bardzo, jest dobrze uważany, jeśli chodzi o teorię wyboru modelu, choć z pewnością jest źle interpretowany. Prawdziwym problemem jest to, jak istotne jest to w praktyce modelowania w środowisku naturalnym. Załóżmy, że wykonujesz symulacje dla przypadków, które zamierzasz zbadać i ustalisz, że LOOCV jest rzeczywiście niespójny. Jedynym powodem, dla którego możesz to uzyskać, jest to, że znasz już „prawdziwy” model, a zatem możesz ustalić, że prawdopodobieństwo odzyskania „prawdziwego” modelu nie jest zbieżne z 1. W przypadku modelowania w środowisku naturalnym, jak często jest to prawda ( że zjawiska te są opisywane przez modele liniowe, a „prawdziwy” model jest podzbiorem rozważanych)?
Artykuł Shao jest z pewnością interesujący z punktu widzenia rozwoju teoretycznych ram. Zapewnia nawet pewną jasność: jeśli rzeczywiście rozważany jest „prawdziwy” model, to mamy konsekwentne wyniki, na których można zawiesić nasze czapki. Ale nie jestem pewien, jak interesujące byłyby rzeczywiste symulacje opisywanych przypadków. To w dużej mierze dlatego większość książek, takich jak EOSL, nie koncentruje się tak bardzo na wyniku Shao, ale zamiast tego na błędzie przewidywania / generalizacji jako kryterium wyboru modelu.
EDYCJA: Bardzo krótka odpowiedź na twoje pytanie: wyniki Shao mają zastosowanie, gdy wykonujesz oszacowanie metodą najmniejszych kwadratów, funkcję straty kwadratowej. Nie szerszy. (Myślę, że był interesujący artykuł autorstwa Yanga (2005?), Który badał, czy można uzyskać spójność i skuteczność, z negatywną odpowiedzią).
źródło
źródło
1) Odpowiedź @ars wspomina o Yang (2005): „Czy można udostępniać mocne strony AIC i BIC?” . Mówiąc luźniej, wydaje się, że nie można mieć kryterium wyboru modelu, aby osiągnąć zarówno spójność (tendencję do wybierania prawidłowego modelu, jeśli rzeczywiście istnieje prawidłowy model i należy on do rozważanych modeli), jak i wydajność (osiągnięcie najniższej średniej średni błąd kwadratu wśród wybranych modeli). Jeśli wybierasz średnio odpowiedni model, czasami dostajesz nieco za małe modele ... ale często brakuje prawdziwego predyktora, robisz gorzej pod względem MSE niż ktoś, kto zawsze zawiera kilka fałszywych predyktorów.
Tak więc, jak powiedziano wcześniej, jeśli bardziej zależy Ci na robieniu dobrych prognoz niż na uzyskiwaniu właściwych zmiennych, dobrze jest nadal używać LOOCV lub AIC.
2) Ale chciałem również zwrócić uwagę na dwa inne z jego artykułów: Yang (2006) „Porównywanie metod uczenia się do klasyfikacji” i Yang (2007) „Spójność walidacji krzyżowej przy porównywaniu procedur regresji” . Te dokumenty pokazują, że nie potrzebujesz stosunku danych treningu do testowania, aby zmniejszyć się do 0, jeśli porównujesz modele, które zbiegają się wolniej niż modele liniowe.
Tak więc, aby odpowiedzieć bardziej bezpośrednio na twoje pierwotne pytania 1-6: wyniki Shao dotyczą porównania modeli liniowych ze sobą. Niezależnie od tego, czy chodzi o regresję czy klasyfikację, jeśli porównujesz modele nieparametryczne, które zbiegają się wolniej (lub nawet porównujesz jeden model liniowy z jednym modelem nieparametrycznym), możesz wykorzystać większość danych do treningu i nadal mieć CV zgodne z wyborem modelu. .. ale Yang sugeruje, że LOOCV jest zbyt ekstremalny.
źródło