Odchylenie i wariancja w walidacji krzyżowej z pominięciem jednego wyjścia a K-krotnie

83

Jak różnią się różne metody walidacji krzyżowej pod względem wariancji modelu i stronniczości?

Moje pytanie jest częściowo motywowane tym wątkiem: optymalna liczba fałdów w krzyżowej walidacji - fold: czy pominięcie CV zawsze jest najlepszym wyborem? KK. Odpowiedź sugeruje, że modele wyuczone z krzyżową walidacją typu „pomijaj jeden” mają wyższą wariancję niż modele wyuczone przy regularnej walidacji krzyżowej typu , co czyni CV pomijanym jednym złym wyborem.K

Jednak moja intuicja podpowiada mi, że w CV z pominięciem jednego należy zauważyć względnie mniejszą wariancję między modelami niż w CV z foldem, ponieważ przesuwamy tylko jeden punkt danych między fałdami, a zatem zestawy treningowe między fałdami znacznie się pokrywają.K

Lub idąc w innym kierunku, jeśli jest niskie w krotnie CV, zestawy treningowe byłyby całkiem różne w różnych fałdach, a powstałe modele są bardziej prawdopodobne, że będą różne (stąd większa wariancja).KKK

Jeśli powyższy argument jest słuszny, dlaczego modele wyuczone z pominiętym CV mają większą wariancję?

Amelio Vazquez-Reina
źródło
2
Cześć Amelio. Należy pamiętać, że symulacje przewidziane w nowej odpowiedzi Xavier i tym starszym Q Jake Westfall stats.stackexchange.com/questions/280665 zarówno wskazują, że zmienność maleje z . Jest to bezpośrednio sprzeczne z obecnie akceptowaną odpowiedzią, a także z najbardziej pozytywną odpowiedzią (która została wcześniej zaakceptowana). Nigdzie nie widziałem żadnej symulacji, która potwierdzałaby twierdzenie, że wariancja wzrasta wraz z i jest najwyższa dla LOOCV. KKK
ameba
2
Dzięki @amoeba Oglądam postępy w obu odpowiedziach. Zrobię co w mojej mocy, aby upewnić się, że zaakceptowana odpowiedź wskazuje na najbardziej przydatną i poprawną.
Amelio Vazquez-Reina
1
@amoeba patrz researchgate.net/profile/Francisco_Martinez-Murcia/publication/…, który wykazuje wzrost wariancji z k
Hanan Shteingart
ciekawie byłoby zobaczyć, skąd bierze ten wykres, po pierwszym spojrzeniu na tezę, wygląda na to, że została ona skomponowana tak, aby pasowała do jego wyjaśnień w części wstępnej. Być może jest to rzeczywista symulacja, ale jej nie wyjaśniono, a na pewno nie jest to wynik jego rzeczywistych eksperymentów, które są niższe ...
Xavier Bourret Sicotte

Odpowiedzi:

51

dlaczego modele wyuczone z pominiętym CV mają większą wariancję?

[TL: DR] Podsumowanie ostatnich postów i debat (lipiec 2018 r.)

Temat ten był szeroko dyskutowany zarówno na tej stronie, jak i w literaturze naukowej, z sprzecznymi poglądami, intuicjami i wnioskami. Powrót w 2013 roku, gdy kwestia ta została po raz pierwszy poprosił, dominujący pogląd, że LOOCV prowadzi do większej wariancji oczekiwanego błędu generalizacji algorytmu treningowego produkującej modele z próbek o rozmiarze .n(K1)/K

Ten pogląd wydaje się jednak nieprawidłowym uogólnieniem specjalnego przypadku i argumentowałbym, że poprawna odpowiedź brzmi: „to zależy ...”

Parafrazując Yvesa Grandvaleta, autora artykułu z 2004 roku na ten temat, podsumowałbym intuicyjny argument w następujący sposób:

  1. Jeśli walidacja krzyżowa byłaby uśrednianiem niezależnych szacunków : wtedy CV bez pomyłek powinno być zauważone stosunkowo mniejszą wariancję między modelami, ponieważ przesuwamy tylko jeden punkt danych między fałdami, a zatem zestawy treningów między fałdami znacznie się pokrywają.
  2. Nie jest to prawdą, gdy zestawy treningowe są silnie skorelowane : korelacja może wzrosnąć wraz z K, a wzrost ten odpowiada za ogólny wzrost wariancji w drugim scenariuszu. Intuicyjnie w takiej sytuacji pominięte CV może być ślepe na istniejące niestabilności, ale nie może zostać uruchomione przez zmianę jednego punktu w danych treningowych, co czyni go wysoce zmiennym w realizacji zestawu treningowego.

Symulacje eksperymentalne przeprowadzone przeze mnie i innych na tej stronie, a także przez badaczy w poniższych linkach pokażą, że nie ma uniwersalnej prawdy na ten temat. Większość eksperymentów monotonicznie malejąca lub stała wariancji z , ale pewne szczególne przypadki pokazują zwiększenie wariancji z .KK

Pozostała część tej odpowiedzi proponuje symulację na przykładzie zabawki i nieformalny przegląd literatury.

[Aktualizacja] Znajdziesz tutaj alternatywną symulację niestabilnego modelu w obecności wartości odstających.

Symulacje z przykładu zabawki pokazujące malejącą / stałą wariancję

Rozważ następujący przykład zabawki, w którym dopasowujemy wielomian stopnia 4 do hałaśliwej krzywej sinusoidalnej. Oczekujemy, że ten model źle sobie poradzi w przypadku małych zestawów danych z powodu przeszacowania, jak pokazuje krzywa uczenia się.

wprowadź opis zdjęcia tutaj

Zauważ, że wykreślamy tutaj 1 - MSE, aby odtworzyć ilustrację ze strony ESLII 243

 Metodologia

Kod tej symulacji można znaleźć tutaj . Podejście było następujące:

  1. Wygeneruj 10 000 punktów z rozkładu gdzie znana jest prawdziwa wariancjaϵsin(x)+ϵϵ
  2. Iteruj razy (np. 100 lub 200 razy). Przy każdej iteracji zmień zestaw danych, ponownie próbkując punktów z pierwotnego rozkładuN.iN
  3. Dla każdego zestawu danych : i
    • Przeprowadź walidację krzyżową K-krotnie dla jednej wartościK
    • Przechowuj średni błąd średniokwadratowy (MSE) dla zagięć K
  4. Po zakończeniu pętli nad , oblicz średnią i odchylenie standardowe MSE w zestawach danych dla tej samej wartościi K.iiK
  5. Powtórz powyższe kroki dla wszystkich w zakresie aż do Pozostaw jedno CV Out (LOOCV){ 5 , . . . , N }K{5,...,N}

Wpływ na ukos i wariancji MSE całej zbiorów danych.iKi

Lewa strona : Kfolds na 200 punktów danych, Prawa strona : Kfolds na 40 punktów danych

wprowadź opis zdjęcia tutaj

Odchylenie standardowe MSE (między zestawami danych i) a Kfolds

wprowadź opis zdjęcia tutaj

Z tej symulacji wynika, że:

  • W przypadku małej liczby punktów danych zwiększenie do lub tak znacznie poprawia zarówno odchylenie, jak i wariancję. Dla większego nie ma wpływu ani na odchylenie, ani na wariancję.K K = 10 K.N=40KK=10K
  • Intuicja jest taka, że ​​dla zbyt małego efektywnego rozmiaru treningu model wielomianowy jest bardzo niestabilny, szczególnie dlaK5
  • Dla większych - zwiększenie nie ma szczególnego wpływu zarówno na odchylenie, jak i wariancję.K.N=200K

Nieformalny przegląd literatury

Poniższe trzy artykuły badają stronniczość i wariancję krzyżowej walidacji

Kohavi 1995

Ten dokument jest często wymieniany jako źródło argumentu, że LOOC ma większą wariancję. W sekcji 1:

„Na przykład pominięcie jest prawie bezstronne, ale ma dużą wariancję, co prowadzi do niewiarygodnych szacunków (Efron 1983)”

To stwierdzenie jest źródłem wielu nieporozumień, ponieważ wydaje się, że pochodzi z Efronu w 1983 r., A nie z Kohavi. Zarówno teoretyczne argumenty Kohaviego, jak i wyniki eksperymentalne są sprzeczne z tym stwierdzeniem:

Wniosek 2 (wariancja w CV)

Biorąc pod uwagę zestaw danych i induktor. Jeśli induktor jest stabilny w zaburzeniach spowodowanych usunięciem instancji testowych dla fałdów w k-krotnie CV dla różnych wartości , wówczas wariancja oszacowania będzie taka samak

Eksperyment W swoim eksperymencie Kohavi porównuje dwa algorytmy: drzewo decyzyjne C4.5 i klasyfikator Naive Bayesa w wielu zestawach danych z repozytorium UC Irvine. Jego wyniki są poniżej: LHS to dokładność vs fałdy (tj. Odchylenie), a RHS to odchylenie standardowe vs fałdy

wprowadź opis zdjęcia tutaj

W rzeczywistości tylko drzewo decyzyjne w trzech zestawach danych ma wyraźnie większą wariancję dla zwiększenia K. Inne wyniki pokazują wariancję malejącą lub stałą.

Wreszcie, chociaż wniosek można sformułować mocniej, nie ma argumentu, że LOO ma większą wariancję, wręcz przeciwnie. Z sekcji 6. Podsumowanie

„Walidacja krzyżowa k-krotności przy umiarkowanych wartościach k (10-20) zmniejsza wariancję ... Gdy k-zmniejsza się (2-5) i próbki stają się mniejsze, występuje wariancja z powodu niestabilności samych zestawów treningowych.

Zhang i Yang

Autorzy mają zdecydowane zdanie na ten temat i wyraźnie stwierdzają w rozdziale 7.1

W rzeczywistości, regresja liniowa co najmniej kwadratów, Burman (1989) pokazuje, że wśród k-krotnych CV, przy szacowaniu błędu prognozowania, LOO (tj. N-krotne CV) ma najmniejszy asymptotyczny błąd i wariancję. ...

... Następnie obliczenia teoretyczne ( Lu , 2007) pokazują, że LOO ma jednocześnie najmniejsze odchylenie i wariancję wśród wszystkich CV skasowanych-n ze wszystkimi możliwymi usunięciami n_v

Wyniki eksperymentu Podobnie, eksperymenty Zhanga wskazują kierunek malejącej wariancji z K, jak pokazano poniżej dla modelu True i niewłaściwego modelu dla Ryciny 3 i Ryciny 5.

wprowadź opis zdjęcia tutaj

wprowadź opis zdjęcia tutaj

Jedynym eksperymentem, dla którego wariancja wzrasta z są modele Lasso i SCAD. Wyjaśnia to następująco na stronie 31:K

Jeśli jednak ma miejsce wybór modelu, wydajność LOO pogarsza się ze względu na zmienność, ponieważ niepewność wyboru modelu wzrasta z powodu dużej przestrzeni modelu, małych współczynników kar i / lub zastosowania współczynników kar opartych na danych

Xavier Bourret Sicotte
źródło
11
+11! Wreszcie odpowiedź z wyraźną symulacją! I jest to sprzeczne z konkluzją obecnie akceptowanych i najbardziej pozytywnych odpowiedzi. Jeśli chodzi o swój wniosek: jeśli rzeczywiście „stabilność modelu jest kluczowym czynnikiem”, a następnie należy być w stanie utworzyć symulację gdzie wariancja będzie wzrastać wraz . Widziałem dwie symulacje: je tutaj, a ten jeden i oba pokazują, że wariancja albo zmniejsza się lub pozostaje na stałym poziomie z . Dopóki nie zobaczę symulacji z rosnącą wariancją, pozostanę bardzo sceptycznie nastawiony. KKK
ameba
4
@amoeba to przypadek, w którym LOOCV zawodzi: rozważ n punktów danych i interpolujący wielomian stopnia n. Teraz podwoj liczbę punktów danych, dodając duplikat bezpośrednio do każdego istniejącego punktu. LOOCV mówi, że błąd wynosi zero. Musisz obniżyć fałdy, aby uzyskać przydatne informacje.
Paul
2
Dla osób zainteresowanych tą dyskusją - kontynuujmy na czacie: chat.stackexchange.com/rooms/80281/...
Xavier Bourret Sicotte
1
Czy zastanawiałeś się nad tym, że z np. pozwala na powtórzenie? W przypadku LOOCV nie jest to opcja, dlatego należy wziąć to pod uwagę. k = 10kfoldk=10
D1X,
1
@amoeba: ponownie Kohavi / LOO i wariancja. Odkryłem, że LOO dla niektórych modeli klasyfikacyjnych może być (zaskakująco) niestabilny. Jest to szczególnie wyraźne w przypadku małych próbek i myślę, że jest to związane ze sprawą testową zawsze należącą do klasy, która jest niedostatecznie reprezentowana wrt. cała próba: w klasyfikacji binarnej rozwarstwione pominięcie 2-out wydaje się nie mieć tego problemu (ale nie testowałem obszernie). Ta niestabilność zwiększyłaby obserwowaną wariancję, sprawiając, że LOO odstaje od innych opcji k. IIRC, jest to zgodne z ustaleniami Kohaviego.
cbeleites,
45

W -krotnie krzyżowego się partycje zestawu danych do równej wielkości nienakładające się podzbiory . Dla każdego złożenia model jest trenowany na , który jest następnie oceniany na . Estymator krzyżowej walidacji, na przykład błędu prognozowania, jest definiowany jako średnia błędów prognozowania uzyskanych przy każdej krotnie.k S S i S S i S ikkSSiSSiSi

Chociaż nie ma nakładania się zestawów testowych, na których oceniane są modele, zachodzi nakładanie się zestawów treningowych dla wszystkich . Nakładanie się jest największe w przypadku weryfikacji krzyżowej z pominięciem jednego z nich. Oznacza to, że wyuczone modele są skorelowane, tj. Zależne, a wariancja sumy skorelowanych zmiennych rośnie wraz z wielkością kowariancji ( patrz wikipedia ):k>2

Var(i=1NXi)=i=1Nj=1NCov(Xi,Xj)

Dlatego krzyżowa walidacja z pominięciem jednego z nich ma dużą wariancję w porównaniu do CV z mniejszym .k

Należy jednak zauważyć, że chociaż dwukrotna walidacja krzyżowa nie ma problemu z nakładaniem się zestawów treningowych, często ma również dużą wariancję, ponieważ zestawy treningowe są tylko o połowę mniejsze od oryginalnej próbki. Dobrym kompromisem jest dziesięciokrotna walidacja krzyżowa.

Kilka interesujących artykułów na ten temat (spośród wielu innych):

Gitte
źródło
5
+1 (dawno temu), ale ponownie czytając twoją odpowiedź, jestem zdezorientowany następującym fragmentem. Mówisz, że 2-krotne CV „często ma również dużą wariancję, ponieważ zestawy treningowe są tylko o połowę mniejsze”. Rozumiem, że dwa razy mniejszy zestaw treningowy stanowi problem, ale dlaczego daje „dużą wariancję”? Czy nie powinno to być „duże uprzedzenie”? Wtedy cała kwestia wyboru liczby fałd staje się kompromisem wariancji odchylenia, co często jest przedstawiane.
ameba
1
@Sebastian myślę „odchylenie” w tym kontekście odnosi się do wariancji „zgromadzonej” wydajność modelu (suma po wszystkich fałdy), a nie do wariancji fałdach samych , jak sugerujesz w dwóch ostatnich zdaniach. k
ameba
3
Właśnie szukałem literatury. Co ciekawe, we wstępie do nauki statystycznej James, Witten, Hastie i Tibshirani mówią, że LOOCV „jest bardzo zmienny, ponieważ opiera się na pojedynczej obserwacji (x1, y1)”. a w Elements of Statistics Learning Hastie & Tibshirani & Friedman mówią, że LOOCV „może mieć dużą wariancję, ponieważ zestawy treningowe N są do siebie bardzo podobne”.
2
to jest niepoprawne. Wariancja powinna wynosić = . Masz rację, że licznik jest większy, ale mianownik również się powiększa. Σ Σ c o v ( x i , x j ) / n 2var[Σxi/n]ΣΣcov(xi,xj)/n2
mieszkaniec północy
3
Nie, to nie jest „sedno”. Ludzie używają k-fold CV, aby cały czas uzyskiwać jedno globalne oszacowanie. Z pewnością możesz spróbować zastosować wielokrotne oszacowania na inne sposoby, ale zebranie ich razem jest jednym z najczęstszych sposobów oszacowania skuteczności wstrzymywania techniki modelowania. I właśnie to robi równanie 7,48 ESL.
Paul
27

[...] moja intuicja podpowiada mi, że w CV z pominięciem jednego należy zobaczyć relatywnie niższą wariancję między modelami niż w CV z fold, ponieważ przesuwamy tylko jeden punkt danych między fałdami, a zatem zestawy treningowe między fałdami pokrywają się zasadniczo.K

Myślę, że twoja intuicja jest rozsądna, jeśli myślisz o prognozach wykonanych przez modele na każdej zakładce. Opierają się one na skorelowanych / bardzo podobnych danych (pełny zestaw danych minus jeden punkt danych), a zatem dokonają podobnych prognoz - tj. Niskiej zmienności.

Źródłem zamieszania jest jednak to, że kiedy ludzie mówią o LOOCV prowadzącym do dużej zmienności, nie mówią o prognozach dokonanych przez wiele modeli zbudowanych podczas tej pętli walidacji krzyżowej w zestawach wstrzymań. Zamiast tego mówią o tym, ile zmienności miałby Twój ostatecznie wybrany model (ten wybrany przez LOOCV), gdybyś trenował dokładnie ten model / parametry na nowych zestawach treningowych - zestawach treningowych, których twój model nie widział wcześniej. W tym przypadku zmienność byłaby wysoka.

Dlaczego zmienność byłaby wysoka? Uprośćmy to trochę. Wyobraź sobie, że zamiast używać LOOCV do wybierania modelu, miałeś tylko jeden zestaw treningowy, a następnie przetestowałeś model zbudowany przy użyciu tych danych treningowych, powiedzmy 100 razy na 100 pojedynczych testowych punktach danych (punkty danych nie są częścią zestawu treningowego) . Jeśli wybierzesz model i zestaw parametrów, który najlepiej sprawdza się w tych 100 testach, wybierzesz taki, który pozwoli, aby ten konkretny zestaw treningowy był naprawdę dobry w przewidywaniu danych testowych. Możesz potencjalnie wybrać model, który przechwytuje 100% powiązań między tym konkretnym zestawem danych treningowych a danymi wstrzymania. Niestety, pewna część tych powiązań między zestawem danych szkoleniowych i testowych to szumy lub fałszywe skojarzenia, ponieważ chociaż zestaw testowy zmienia się i można zidentyfikować hałas po tej stronie, zestaw danych szkoleniowych nie zawiera i nie można ustalić, która wyjaśniona wariancja wynika z hałasu. Innymi słowy, oznacza to, że przerosły twoje przewidywania do tego konkretnego zestawu danych treningowych.

Co by się stało, gdybyś wielokrotnie trenował ten model z tymi samymi parametrami na nowych zestawach treningowych? Otóż ​​model, który jest dopasowany do określonego zestawu danych treningowych, będzie prowadzić do zmienności jego przewidywania, gdy zmieni się zestaw treningowy (tj. Nieznacznie zmieni zestaw treningowy i model znacząco zmieni swoje przewidywania).

Ponieważ wszystkie fałdy w LOOCV są wysoce skorelowane, jest podobne do powyższego przypadku (ten sam zestaw treningowy; różne punkty testowe). Innymi słowy, jeśli ten konkretny zestaw treningowy ma jakąś fałszywą korelację z tymi punktami testowymi, Twój model będzie miał trudności z określeniem, które korelacje są prawdziwe, a które fałszywe, ponieważ nawet jeśli zestaw testowy się zmienia, zestaw treningowy nie.

Natomiast mniej skorelowane fałdy treningowe oznaczają, że model będzie pasował do wielu unikalnych zestawów danych. Zatem w tej sytuacji, jeśli przekwalifikujesz model na innym nowym zestawie danych, doprowadzi to do podobnej prognozy (tj. Małej zmienności).

captain_ahab
źródło
4
Myślę, że ta odpowiedź wyjaśnia znacznie więcej niż odpowiedź zaakceptowana, a szczególnie wyjaśnia odpowiedź zaakceptowaną.
D1X
co rozumiesz przez> „Gdybyś ponownie trenował ten model z tymi samymi parametrami wiele razy w nowych zestawach treningowych, co by się stało?”. Trening oznacza znalezienie parametrów, prawda? Czy miałeś na myśli hiperparametry?
MiloMinderbinder
14

Chociaż to pytanie jest dość stare, chciałbym dodać dodatkową odpowiedź, ponieważ uważam, że warto to nieco wyjaśnić.

Moje pytanie jest częściowo motywowane tym wątkiem: Optymalna liczba fałdów w walidacji krzyżowej K-fold: czy pominięcie CV zawsze jest najlepszym wyborem? . Tamta odpowiedź sugeruje, że modele wyuczone przy użyciu krzyżowej weryfikacji z pominięciem jednego z nich mają większą wariancję niż modele wyuczone przy regularnej weryfikacji krzyżowej z K-krotnie, co sprawia, że ​​CV z pominięciem jednego wyboru jest gorszym wyborem.

Ta odpowiedź nie sugeruje tego i nie powinna. Przejrzyjmy podaną tam odpowiedź:

Weryfikacja krzyżowa z pominięciem jednego z reguły na ogół nie prowadzi do lepszej wydajności niż K-krotnie i jest bardziej prawdopodobne, że będzie gorsza, ponieważ ma stosunkowo wysoką wariancję (tj. Jej wartość zmienia się bardziej dla różnych próbek danych niż wartość dla k-krotna walidacja krzyżowa).

Mówi o wydajności . Tutaj wydajność należy rozumieć jako wydajność estymatora błędu modelu . To, co oceniasz za pomocą k-fold lub LOOCV, to wydajność modelu, zarówno przy użyciu tych technik do wyboru modelu, jak i do zapewnienia oszacowania błędu jako takiego. To NIE jest wariancja modelu, to wariancja estymatora błędu (modelu). Zobacz poniższy przykład (*) .

Jednak moja intuicja podpowiada mi, że w CV z pominięciem jednego należy zauważyć względnie mniejszą wariancję między modelami niż w CV z K-fold, ponieważ przesuwamy tylko jeden punkt danych między fałdami, a zatem zestawy treningowe między fałdami znacznie się pokrywają.

Rzeczywiście, istnieje mniejsza wariancja między modelami. Są one szkolone z zestawami danych, które mają wspólne obserwacje ! Gdy wzrasta, stają się praktycznie tym samym modelem (Zakładając brak stochastyczności).n2n

Właśnie ta niższa wariancja i wyższa korelacja między modelami sprawiają, że estymator, o którym mówię powyżej, ma większą wariancję, ponieważ estymator jest średnią tych skorelowanych wielkości, a wariancja średniej skorelowanych danych jest wyższa niż wariancja danych nieskorelowanych . Tutaj pokazano, dlaczego: wariancja średniej skorelowanych i nieskorelowanych danych .

Lub idąc w innym kierunku, jeśli K jest niskie w K-fold CV, zestawy treningowe byłyby zupełnie inne w różnych fałdach, a uzyskane modele są bardziej prawdopodobne, że będą różne (stąd większa wariancja).

W rzeczy samej.

Jeśli powyższy argument jest słuszny, dlaczego modele wyuczone z pominiętym CV mają większą wariancję?

Powyższy argument jest słuszny. Pytanie jest złe. Wariancja modelu to zupełnie inny temat. Istnieje wariancja, w której występuje zmienna losowa. W uczeniu maszynowym masz do czynienia z wieloma losowymi zmiennymi, w szczególności i bez ograniczenia: każda obserwacja jest zmienną losową; próbka jest zmienną losową; model, ponieważ jest wyuczony ze zmiennej losowej, jest zmienną losową; estymator błędu, który popełni Twój model w obliczu populacji, jest zmienną losową; i na koniec, błąd modelu jest zmienną losową, ponieważ w populacji prawdopodobnie wystąpi hałas (nazywa się to błędem nieredukowalnym). Losowość może być również większa, jeśli w procesie uczenia się modelu zaangażowana jest stochastyczność. Rozróżnienie między tymi wszystkimi zmiennymi ma ogromne znaczenie.


(*) Przykład : Załóżmy, że masz model z prawdziwego błędu , gdzie należy zrozumieć jako błąd, że model wytwarza na całej populacji. Ponieważ masz próbkę pobraną z tej populacji, używasz technik krzyżowej weryfikacji dla tej próbki, aby obliczyć oszacowanie , które możemy nazwać . Jak każdy estymator, jest zmienną losową, co oznacza, że ​​ma swoją własną wariancję, , i swoją stronniczość, . jest dokładnie tym, co jest wyższe przy stosowaniu LOOCV. Podczas gdy LOOCV jest mniej tendencyjnym estymatorem niż zerrerrEerr~err~var(err~)E(err~err)var(err~)kfoldk<n , ma większą wariancję. Aby lepiej zrozumieć, dlaczego pożądany jest kompromis między odchyleniem a wariancją , załóżmy, że i że masz dwa estymatory: i . Pierwszy produkuje ten wynikerr=10err~1err~2

err~1=0,5,10,20,15,5,20,0,10,15...
podczas gdy drugi wytwarza
err~2=8.5,9.5,8.5,9.5,8.75,9.25,8.8,9.2...

Ten ostatni, choć ma więcej nastawienie powinno być korzystne, ponieważ ma dużo mniejszą wariancję i akceptowalny bias, czyli kompromisowego ( bias-wariancji kompromis ). Pamiętaj, że nie chcesz bardzo niskiej wariancji, jeśli pociąga to za sobą duże odchylenie!


Dodatkowa uwaga : w tej odpowiedzi staram się wyjaśnić (moim zdaniem) nieporozumienia, które otaczają ten temat, a w szczególności próbuję odpowiedzieć punkt po punkcie i dokładnie na wątpliwości, które pytający ma. W szczególności staram się wyjaśnić, o której wariancji mówimy, o co tu właściwie pytamy. Tj. Wyjaśniam odpowiedź, która jest powiązana z PO.

Biorąc to pod uwagę, chociaż przedstawiam teoretyczne uzasadnienie roszczenia, nie znaleźliśmy jeszcze jednoznacznych dowodów empirycznych na jego poparcie. Więc proszę bardzo uważaj.

Najlepiej najpierw przeczytaj ten post, a następnie zapoznaj się z odpowiedzią Xaviera Bourreta Sicotte, która zawiera wnikliwą dyskusję na temat aspektów empirycznych.

Last but not least, należy wziąć pod uwagę coś jeszcze: nawet jeśli wariancja przy zwiększaniu pozostaje płaska (jak nie empirycznie udowodniliśmy inaczej), z wystarczająco małe pozwala na powtórzenie ( powtarzane k-krotnie ), co zdecydowanie należy zrobić, np. . To skutecznie zmniejsza wariancję i nie jest opcją podczas wykonywania LOOCV.kkfoldk10 × 10 - f o l d10 × 10fold

D1X
źródło
2
Należy pamiętać, że symulacje przewidziane w nowej odpowiedzi Xavier i również w tej starszej Q Jake Westfalii , zarówno wskazują, że zmienność maleje wraz . Jest to wprost sprzeczne z twoją odpowiedzią. Do tej pory nie widziałem żadnej symulacji, która potwierdzałaby twierdzenie, że wariancja wzrasta wraz z i jest najwyższa dla LOOCV. KKK
ameba
3
Pokazują one, że wariancja maleje od do pewnego momentu, w którym pozostaje płaska. Jest teoretycznie wykazane, że średnia skorelowanych próbek ma większą wariancję, dlatego teoretycznie pokazuje wynik. To powiedziawszy, masz rację, prawdziwy eksperyment, który pokazuje, że tego brakuje . Zrobię co w mojej mocy, aby go zbudować. kN
D1X
Tak, spadek przy z do był spowodowany błędem w odpowiedzi Xaviera. Teraz jest naprawiony, a wariancja rzeczywiście pozostaje taka sama w tym zakresie. Biorąc pod uwagę, że dwie niezależne symulacje wykazują ten sam efekt, nadal jestem sceptyczny, że LOOCV może mieć większą wariancję. Twój teoretyczny argument bardzo wymachuje ręką. Średnia skorelowanych próbek ma większą wariancję tylko wtedy, gdy wszystko inne jest takie samo. Nie jest jasne, że wszystko inne jest takie samo dla CV 10-krotnie vs N-krotnie. Czekamy na twoją symulację. K = 10 K = NKK=10K=N
ameba
1
Jeszcze nie przejrzałem tych dokumentów, przyjrzę się im, kiedy będę miał czas. Mimo to modele liniowe OLS są bardzo prostymi modelami, w rzeczywistości podlegają niewielkiej wariancji. Mają też zamknięte formuły do ​​weryfikacji krzyżowej.
D1X,
1
+1 od wprowadzonych przez ciebie zmian sprawia, że ​​odpowiedź jest znacznie jaśniejsza - jesteśmy wyrównani pod względem wpływu korelacji między zestawami treningowymi -> większa wariancja. W praktyce jednak (eksperymentalnie) wydaje się, że zestawy treningowe nie zawsze są ze sobą skorelowane.
Xavier Bourret Sicotte
12

Kwestie są rzeczywiście subtelne. Ale zdecydowanie nie jest prawdą, że LOOCV ma ogólnie większą wariancję. Niedawny artykuł omawia niektóre kluczowe aspekty i rozwiązuje kilka pozornie powszechnych nieporozumień dotyczących weryfikacji krzyżowej.

Yongli Zhang i Yuhong Yang (2015). Cross-validation do wyboru procedury wyboru modelu. Journal of Econometrics, vol. 187,95–112.

W literaturze często pojawiają się następujące nieporozumienia:

„CV z pominięciem (LOO) ma mniejszą tendencję, ale większą wariancję niż CV z pominięciem”

Ten widok jest dość popularny. Na przykład Kohavi (1995, sekcja 1) stwierdza: „Na przykład pominięcie jest prawie bezstronne, ale ma dużą wariancję, co prowadzi do niewiarygodnych szacunków”. Stwierdzenie to jednak ogólnie nie jest prawdziwe.

Bardziej szczegółowo:

W literaturze, nawet w ostatnich publikacjach, są zbyt mocno przyjęte rekomendacje. Ogólna sugestia Kohavi (1995), by użyć 10-krotnego CV, została powszechnie zaakceptowana. Na przykład Krstajic i wsp. (2014, strona 11) stwierdzili: „Kohavi [6] i Hastie i wsp. [4] empirycznie pokazują, że V-krotna walidacja krzyżowa w porównaniu do weryfikacji krzyżowej z pominięciem jednego ma niższą wariancję”. W związku z tym przyjmują zalecenie 10-krotnego CV (z powtórzeniami) do wszystkich badań numerycznych. Naszym zdaniem taka praktyka może wprowadzać w błąd. Po pierwsze, nie powinno być żadnych ogólnych zaleceń, które nie uwzględniają celu wykorzystania CV. W szczególności, badanie błędu systematycznego i wariancji oceny dokładności CV modelu kandydata / procedury modelowania może być czymś zupełnie innym niż optymalny wybór modelu (z jednym z dwóch celów wyboru modelu określonych wcześniej). Po drugie, nawet ograniczone do kontekstu szacowania dokładności, stwierdzenie nie jest ogólnie poprawne. W przypadku modeli / procedur modelowania o niskiej niestabilności, LOO często ma najmniejszą zmienność. Wykazaliśmy również, że w przypadku wysoce niestabilnych procedur (np. LASSO z pn znacznie większym niż n), 10-krotne lub 5-krotne CV, zmniejszając zmienność, może mieć znacznie większe MSE niż LOO ze względu na jeszcze gorszy wzrost błędu systematycznego. W przypadku modeli / procedur modelowania o niskiej niestabilności, LOO często ma najmniejszą zmienność. Wykazaliśmy również, że w przypadku wysoce niestabilnych procedur (np. LASSO z pn znacznie większym niż n), 10-krotne lub 5-krotne CV, zmniejszając zmienność, może mieć znacznie większe MSE niż LOO ze względu na jeszcze gorszy wzrost błędu systematycznego. W przypadku modeli / procedur modelowania o niskiej niestabilności, LOO często ma najmniejszą zmienność. Wykazaliśmy również, że w przypadku wysoce niestabilnych procedur (np. LASSO z pn znacznie większym niż n), 10-krotne lub 5-krotne CV, zmniejszając zmienność, może mieć znacznie większe MSE niż LOO ze względu na jeszcze gorszy wzrost błędu systematycznego.

Ogólnie, z ryc. 3-4, LOO i powtarzane 50- i 20-krotne CV są tutaj najlepsze, 10-krotnie jest znacznie gorsze, a k ≤ 5 jest wyraźnie słabe. W przypadku predykcyjnej oceny wydajności mamy tendencję do wierzenia, że ​​LOO jest zazwyczaj najlepszy lub jeden z najlepszych dla ustalonego modelu lub bardzo stabilnej procedury modelowania (np. BIC w naszym kontekście) zarówno pod względem odchylenia, jak i wariancji, lub całkiem blisko najlepszych w MSE dla bardziej niestabilnej procedury (takiej jak AIC lub nawet LASSO z p ≫ n). Podczas gdy 10-krotne CV (z powtórzeniami) z pewnością może być czasem najlepsze, ale częściej jest w niezręcznej pozycji: jest bardziej ryzykowne niż LOO (z powodu problemu błędu) dla oszacowania błędu prognozy i zwykle jest gorsze niż usuwanie -n / 2 CV do zidentyfikowania najlepszego kandydata.

Zack
źródło
4
Czy można nieco rozszerzyć tę odpowiedź, być może podsumowując niektóre kluczowe aspekty poruszone w dokumencie?
Silverfish,
3
Bardzo interesujący papier. Przeglądając Kohavi (1995), czułem, że wiele stwierdzeń było niemożliwie szerokich i w dużej mierze bezpodstawnych. Jest to artykuł z ludowej mądrości, którego krytyczne przesłuchanie jest już dawno spóźnione.
Paul
3

Przed omówieniem błędu i wariancji pierwsze pytanie brzmi:

Co szacuje się na podstawie weryfikacji krzyżowej?

W naszym 2004 JMLR papieru , możemy argumentować, że bez jakiegokolwiek dalszego założeniu, -krotnie krzyżowej walidacji szacuje oczekiwany błąd uogólnieniem algorytmu treningowego produkcji modeli z próbek o rozmiarze . Tutaj oczekuje się w odniesieniu do próbek szkoleniowych. W tym widoku zmiana oznacza zmianę szacowanej ilości: porównanie uprzedzeń i wariancji dla różnych wartości powinno być następnie traktowane z ostrożnością.n ( K - 1 ) / K K KKn(K1)/KKK

To powiedziawszy, zapewniamy wyniki eksperymentalne, które pokazują, że wariancja może monotonicznie maleć wraz z lub że może być minimalna dla wartości pośredniej. Zakładamy, że pierwszy scenariusz powinien zostać napotkany dla algorytmów stabilnych (dla bieżącego rozkładu danych), a drugi dla algorytmów niestabilnych.K

moja intuicja mówi mi, że w CV z pominięciem jednego z nich należy zauważyć względnie mniejszą wariancję między modelami niż w CV z foldem, ponieważ przesuwamy tylko jeden punkt danych między fałdami, a zatem zestawy treningowe między fałdami znacznie się pokrywają.K

Ta intuicja byłaby poprawna, jeśli cross-walidacja została średnio niezależne szacunki, ale mogą być silnie skorelowane, a zależność ta może wzrosnąć z . Wzrost ten odpowiada za ogólny wzrost wariancji w drugim scenariuszu wspomnianym powyżej. Intuicyjnie w takiej sytuacji pominięte CV może być ślepe na istniejące niestabilności, ale nie może zostać uruchomione przez zmianę punktu synchronizacji w danych treningowych, co czyni go wysoce zmiennym w zależności od realizacji zestawu treningowego.K

Yves Grandvalet
źródło
4
+1. Witamy w CrossValidated! Miło widzieć, że dołączasz do dyskusji. Powinienem ponownie przeczytać artykuł z 2004 r., Aby odświeżyć go w pamięci, ale zastanawiam się, czy algorytmy używane w praktyce z CV są bardziej stabilne czy niestabilne? Widziałem tutaj dwie symulacje: jedną z wykorzystaniem dopasowania wielomianowego, a drugą z użyciem regresji . W obu przypadkach wariancja zmniejszała się wraz z aż do LOOCV. Jakiego algorytmu należy użyć, aby zaobserwować inny wynik? K
ameba
0

Myślę, że odpowiedź jest prostsza. Jeśli zwiększysz k, zestawy testowe będą coraz mniejsze. Ponieważ fałdy są próbkowane losowo, może się to zdarzyć w przypadku małych zestawów testowych, ale nie w przypadku większych zestawów, że nie są one reprezentatywne dla losowego losowania. Jeden zestaw testowy może zawierać wszystkie trudne do przewidzenia rekordy, a drugi wszystkie łatwe. Dlatego wariancja jest wysoka, gdy przewidujesz bardzo małe zestawy testów na krotnie.

David Ernst
źródło
Dzięki. Co ciekawe, ten argument wydaje się nieco ortogonalny w stosunku do przedstawionego w obecnie akceptowanej odpowiedzi, który, jeśli dobrze zrozumiałem, skupia się zamiast tego na kowariancji między fałdami treningu . Dobrze byłoby zobaczyć, jak odnosisz tę odpowiedź do w odpowiedzi @ Gitte. Xi
Amelio Vazquez-Reina
4
wygląda na to, że mówisz o zmienności prognoz modeli w zestawach wstrzymań podczas weryfikacji krzyżowej. Nie sądzę, żeby to było bardzo interesujące. Interesujące jest to, czy twój ostateczny dostrojony model będzie się znacznie różnić w przewidywaniach, które uczyni, jeśli będzie trenowany na różnych danych (tj. Oszacowanie prawdy w twoim modelu jest naprawdę zmienne w zależności od zestawu treningowego)
captain_ahab
A jak oszacowałbyś oczekiwaną zmienność na jeszcze niewidzialnych danych, gdyby nie obserwowana zmienność wśród kolejno przewidywanych zbiorów danych, które były wówczas nieznane? Rozumiem jednak, że zmienność wynikająca z samego zestawu eksperymentalnego nie jest interesująca. Moja odpowiedź: dlatego trzeba wybrać eksperymentalną konfigurację, która nie wprowadza nowych rodzajów zmienności. Jeśli tak się stanie, nie można rozróżnić dwóch rodzajów zmienności i trudniej jest oszacować zasięg tego, który jest interesujący.
David Ernst
1
możesz to pokazać za pomocą symulacji (poszukaj artykułu). Nie jestem pewien, czy rozmawiamy obok siebie - ale kiedy hastie i ludzie mówią o wysokiej korelacji między zestawami treningowymi w LOOCV, podkreślają, że zasadniczo trenujesz swój model na tym samym zestawie danych treningowych. Prowadzi to do nadmiernego dopasowania do tego zestawu danych szkoleniowych. zmień zestaw danych szkoleniowych, modelujesz prognozy dla przykładu testowego X bardzo się zmieni. dla kontrastu, jeśli zestawy treningowe były mniej skorelowane, możesz użyć zupełnie nowego zestawu treningowego i uzyskać podobne prognozy dla przykładu testowego X.
captain_ahab
Myślę, że wiążą się z tym dwie odrębne kwestie. Zwiększenie k prowadzi do większego nakładania się zestawów treningowych, co ma konsekwencje, o których wspominasz. (Nie spieram się z żadnym z nich). Jednocześnie zwiększenie k prowadzi do mniejszych zestawów testowych na krotnie, co oznacza, że ​​rekordy są bardziej niechciane w tych zestawach. Myślę, że w przypadku konkretnego zadanego pytania jest to główny powód. Wkłady zestawu szkoleniowego mogą się również pokrywać. (Istnieje trzeci problem, gdy używasz powtórzeń, ponieważ wtedy zestawy testowe również się pokrywają.)
David Ernst,