Duża różnorodność weryfikacji krzyżowej z pominięciem jednego z nich

15

Czytałem w kółko, że walidacja krzyżowa „Leave-one-out-out” ma dużą wariancję ze względu na duże nakładanie się fałdów treningowych. Nie rozumiem jednak, dlaczego tak jest: czy wydajność walidacji krzyżowej nie powinna być bardzo stabilna (niska wariancja) właśnie dlatego, że zestawy treningowe są prawie identyczne? Czy też źle rozumiem pojęcie „wariancji”?

Nie rozumiem też w pełni, w jaki sposób LOO może być bezstronny, ale mam dużą wariancję? Jeśli szacunek LOO jest równy rzeczywistej wartości estymatora w oczekiwanej długości - w jaki sposób może on mieć dużą wariancję?

Uwaga: Wiem, że istnieje podobne pytanie: Dlaczego wariancja krzyżowej walidacji (LOOCV) z pominięciem jednego pomysłu dotyczy wysokiego oszacowania błędu? Jednak osoba, która odpowiedziała, mówi później w komentarzach, że pomimo pozytywnych opinii zdał sobie sprawę, że jego odpowiedź jest błędna.

Pugl
źródło
2
Jestem tą osobą :-), ale pamiętaj, że po pierwsze zaktualizowałem już odpowiedź, aby usunąć zamieszanie, a po drugie cały wątek jest zamknięty jako duplikat innego wątku: stats.stackexchange.com/ pytania / 61783 . Patrzyłeś tam? Wydaje mi się, że twoje Q też jest duplikatem tego. Jeśli nie jesteś zadowolony z udzielonej tam odpowiedzi, zastanów się nad sformułowaniem pytania bardziej szczegółowo. W tej chwili będę głosować za zamknięciem, ale możesz edytować swoje Q.
amoeba mówi Przywróć Monikę
3
Cóż, to proste: niech prawdziwa wartość parametru będzie wynosić . Estymator, który daje 0,49 , 0,51 , 0,49 , 0,51 ... jest obiektywny i ma względnie niską wariancję, ale estymator, który daje 0,1 , 0,9 , 0,1 , 0,9 ... jest również obiektywny, ale ma znacznie większą wariancję. 0.50.49,0.51,0.49,0.51...0.1,0.9,0.1,0.9...
ameba mówi Przywróć Monikę
5
Odnośnie pierwszego akapitu: musisz pomyśleć o wariancji w różnych realizacjach całego zestawu danych . Dla danego zestawu danych LOOCV rzeczywiście stworzy bardzo podobne modele dla każdego podziału, ponieważ zestawy szkoleniowe przecinają się tak bardzo (jak powiedziałeś), ale wszystkie te modele mogą być razem dalekie od prawdziwego modelu; we wszystkich zestawach danych będą one dalekie w różnych kierunkach, stąd duża wariancja. Tak jakościowo to rozumiem.
ameba mówi Przywróć Monikę
2
@amoeba, dlaczego nie zamienić tych komentarzy w oficjalną odpowiedź?
gung - Przywróć Monikę

Odpowiedzi:

10

To pytanie prawdopodobnie zostanie zamknięte jako duplikat wariancji i stronniczości w krzyżowej walidacji: dlaczego pominięte CV ma większą wariancję? , ale zanim to nastąpi, myślę, że zamienię moje komentarze w odpowiedź.

Nie rozumiem też w pełni, w jaki sposób LOO może być bezstronny, ale mam dużą wariancję?

0,50,49,0,51,0,49,0,51 ...0,1,0,9,0,1,0,9 ...

Czy wydajność walidacji krzyżowej nie powinna być bardzo stabilna (niska wariancja) właśnie dlatego, że zestawy treningowe są prawie identyczne?

Musisz pomyśleć o rozbieżności między różnymi realizacjami całego zestawu danych. W przypadku danego zestawu danych bezobsługowa walidacja krzyżowa rzeczywiście da bardzo podobne modele dla każdego podziału, ponieważ zestawy treningowe przecinają się tak bardzo (jak słusznie zauważyłeś), ale wszystkie te modele mogą być razem dalekie od prawdziwego modelu; we wszystkich zestawach danych będą one dalekie w różnych kierunkach, stąd duża wariancja.

Przynajmniej tak to rozumiem. Zapoznaj się z połączonymi wątkami, aby uzyskać więcej dyskusji, oraz odnośnymi artykułami, aby uzyskać więcej dyskusji.

ameba mówi Przywróć Monikę
źródło
2
Tak więc, jak rozumiem, niskie odchylenie jest podane, ponieważ zestaw szkoleniowy jest bardzo duży - prawie identyczny z całym zestawem danych (ponieważ do testowania pominięto tylko jedną próbkę danych). Tak więc dla jednego konkretnego zestawu danych możemy spodziewać się bardzo dobrego oszacowania. Jednak ze względu na tę wysoką korelację fałdów (walidacja krzyżowa jest prawie wykonywana dla identycznych danych w swoich iteracjach) oszacowanie jest również bardzo specyficzne dla tego konkretnego zestawu danych, co powoduje dużą wariancję między wydajnością różnych zestawów danych z tego samego podstawowego rozkładu . Poprawny?
Pugl
2
Myślę, że jest to w większości poprawne, ale należy to uważać for one particular dataset we can expect a very good estimation. Wydaje mi się, że można to interpretować jako oznaczające, że oszacowanie jakiegoś parametru specyficznego dla zestawu danych będzie dobre. Ale ogólnie walidacja krzyżowa ma na celu oszacowanie parametru populacji : jak dobrze określony typ modelu może przewidywać zmienną zależną w populacji; i możemy nie spodziewać się bardzo dobrą ocenę niego przez LOOCV, bo z tego, co napisałaś (oszacowanie jest very specific for this particular dataset).
ameba mówi Przywróć Monikę
1
Powinienem dodać zastrzeżenie, że wszystko to jest moim obecnym rozumieniem, ale ogólnie uważam ten temat za dość trudny, a moje doświadczenie z walidacją krzyżową jest ograniczone. Nie jestem ekspertem.
ameba mówi Przywróć Monikę
1
Czy mogę zapytać, dlaczego uważasz to za trudne? Jestem ciekawy, ponieważ może mnie to nauczyć, jak uważać na CV lub jak pogłębiać swoją wiedzę
Pugl
2
Biorąc pod uwagę przyjętą odpowiedź w tym wątku , być może nie musisz już wspominać o dużej wariancji LOOCV w tej odpowiedzi, a mianowicie o dużej wariancji ? Zastanawiałem się przez chwilę nad tymi pytaniami i nie mogłem znaleźć żadnego teoretycznego powodu dużej zmienności LOOCV w problemach z regresją ciągłą („ciągłą”?), Chociaż rozumiem punkt Pawła w komentarzach w powiązanym wątku, że LOOCV zawodzi jeśli twoja próbka zawiera duplikaty każdego punktu.
Richard Hardy
1

Ta duża wariancja dotyczy przestrzeni zestawów treningowych. Oto dlaczego LOOCV ma dużą wariancję: w LOOCV otrzymujemy błąd prognozy dla każdej obserwacji, powiedzmy obserwacja i, wykorzystując cały obserwowany zbiór danych z wyjątkiem tej obserwacji. Tak więc przewidywana wartość dla i jest bardzo zależna od bieżącego zestawu danych. Załóżmy teraz, że obserwujemy inny niezależny zestaw danych i dopasowujemy model do tego nowego zestawu danych. Jeśli użyjemy tego nowego modelu, aby uzyskać przewidywaną wartość dla obserwacji i, przewidywana wartość może potencjalnie bardzo różnić się od wartości oszacowanej przez LOOCV (chociaż poprawna średnio (bezstronna)).

Jest to intuicja stojąca za dużą zmiennością przewidywania błędów w LOOCV.

Jeśli jednak używasz LOOCV do porównywania wyników modelu z różnymi hiperparametrami, uważam, że możesz bezpiecznie używać LOOCV do szacowania błędów prognozowania, pod warunkiem, że prawdziwa wartość błędu prognozowania nie leży w twoim interesie, to znaczy, po prostu chcesz porównaj różne modele z obserwowanym zestawem treningowym i nie obchodzi cię rzeczywisty błąd do oszacowania.

To powiedziawszy, z reguły, jeśli masz małą próbkę, użyj LOOCV, w przeciwnym razie użyj k-krotnie CV o mniejszej wartości dla k.

Mehdi Rostami
źródło