Czytałem w kółko, że walidacja krzyżowa „Leave-one-out-out” ma dużą wariancję ze względu na duże nakładanie się fałdów treningowych. Nie rozumiem jednak, dlaczego tak jest: czy wydajność walidacji krzyżowej nie powinna być bardzo stabilna (niska wariancja) właśnie dlatego, że zestawy treningowe są prawie identyczne? Czy też źle rozumiem pojęcie „wariancji”?
Nie rozumiem też w pełni, w jaki sposób LOO może być bezstronny, ale mam dużą wariancję? Jeśli szacunek LOO jest równy rzeczywistej wartości estymatora w oczekiwanej długości - w jaki sposób może on mieć dużą wariancję?
Uwaga: Wiem, że istnieje podobne pytanie: Dlaczego wariancja krzyżowej walidacji (LOOCV) z pominięciem jednego pomysłu dotyczy wysokiego oszacowania błędu? Jednak osoba, która odpowiedziała, mówi później w komentarzach, że pomimo pozytywnych opinii zdał sobie sprawę, że jego odpowiedź jest błędna.
Odpowiedzi:
To pytanie prawdopodobnie zostanie zamknięte jako duplikat wariancji i stronniczości w krzyżowej walidacji: dlaczego pominięte CV ma większą wariancję? , ale zanim to nastąpi, myślę, że zamienię moje komentarze w odpowiedź.
Musisz pomyśleć o rozbieżności między różnymi realizacjami całego zestawu danych. W przypadku danego zestawu danych bezobsługowa walidacja krzyżowa rzeczywiście da bardzo podobne modele dla każdego podziału, ponieważ zestawy treningowe przecinają się tak bardzo (jak słusznie zauważyłeś), ale wszystkie te modele mogą być razem dalekie od prawdziwego modelu; we wszystkich zestawach danych będą one dalekie w różnych kierunkach, stąd duża wariancja.
Przynajmniej tak to rozumiem. Zapoznaj się z połączonymi wątkami, aby uzyskać więcej dyskusji, oraz odnośnymi artykułami, aby uzyskać więcej dyskusji.
źródło
for one particular dataset we can expect a very good estimation
. Wydaje mi się, że można to interpretować jako oznaczające, że oszacowanie jakiegoś parametru specyficznego dla zestawu danych będzie dobre. Ale ogólnie walidacja krzyżowa ma na celu oszacowanie parametru populacji : jak dobrze określony typ modelu może przewidywać zmienną zależną w populacji; i możemy nie spodziewać się bardzo dobrą ocenę niego przez LOOCV, bo z tego, co napisałaś (oszacowanie jestvery specific for this particular dataset
).Ta duża wariancja dotyczy przestrzeni zestawów treningowych. Oto dlaczego LOOCV ma dużą wariancję: w LOOCV otrzymujemy błąd prognozy dla każdej obserwacji, powiedzmy obserwacja i, wykorzystując cały obserwowany zbiór danych z wyjątkiem tej obserwacji. Tak więc przewidywana wartość dla i jest bardzo zależna od bieżącego zestawu danych. Załóżmy teraz, że obserwujemy inny niezależny zestaw danych i dopasowujemy model do tego nowego zestawu danych. Jeśli użyjemy tego nowego modelu, aby uzyskać przewidywaną wartość dla obserwacji i, przewidywana wartość może potencjalnie bardzo różnić się od wartości oszacowanej przez LOOCV (chociaż poprawna średnio (bezstronna)).
Jest to intuicja stojąca za dużą zmiennością przewidywania błędów w LOOCV.
Jeśli jednak używasz LOOCV do porównywania wyników modelu z różnymi hiperparametrami, uważam, że możesz bezpiecznie używać LOOCV do szacowania błędów prognozowania, pod warunkiem, że prawdziwa wartość błędu prognozowania nie leży w twoim interesie, to znaczy, po prostu chcesz porównaj różne modele z obserwowanym zestawem treningowym i nie obchodzi cię rzeczywisty błąd do oszacowania.
To powiedziawszy, z reguły, jeśli masz małą próbkę, użyj LOOCV, w przeciwnym razie użyj k-krotnie CV o mniejszej wartości dla k.
źródło