Używając k-krotnie CV do wyboru spośród modeli regresji, zwykle obliczam błąd CV osobno dla każdego modelu, wraz z jego standardowym błędem SE, i wybieram najprostszy model w obrębie 1 SE modelu o najniższym błędzie CV (1 standardowa reguła błędu, patrz na przykład tutaj ). Jednak niedawno powiedziano mi, że w ten sposób przeceniam zmienność i że w konkretnym przypadku wyboru między dwoma modelami A i B powinienem naprawdę postąpić inaczej:
- dla każdego zagięcia o długości , oblicz punktowe różnice między przewidywaniami dwóch modeli. oblicz średnią różnicę kwadratową dla zagięcia
- średni pomiędzy fałdami jak zwykle i użyj tego błędu różnicy CV (wraz z jego błędem standardowym) jako estymatora błędu uogólnienia.
Pytania:
- Czy to ma dla ciebie sens? Wiem, że istnieją teoretyczne powody wykorzystania błędu CV jako estymatora błędu uogólnienia (nie wiem, które z tych powodów, ale wiem, że one istnieją!). Nie mam pojęcia, czy istnieją teoretyczne powody, dla których warto zastosować ten błąd CV różnicy.
- Nie wiem, czy można to uogólnić do porównań więcej niż dwóch modeli. Obliczanie różnic dla wszystkich par modeli wydaje się ryzykowne (wielokrotne porównania?): Co byś zrobił, gdybyś miał więcej niż dwa modele?
EDYCJA: moja formuła jest całkowicie niepoprawna, tutaj opisano prawidłową metrykę i jest ona znacznie bardziej skomplikowana. Cóż, cieszę się, że zapytałem tutaj przed oślepiającym zastosowaniem formuły! Dziękuję @Bay za pomoc w zrozumieniu jego oświecającej odpowiedzi. Prawidłowy opisany środek jest dość eksperymentalny, więc trzymam się mojego zaufanego konia roboczego, błędu CV!