Zetknąłem się z tym artykułem z 2012 r. Autorstwa Gitte Vanwinckelen i Hendrika Blockeela, który kwestionuje użyteczność wielokrotnej walidacji krzyżowej, która stała się popularną techniką zmniejszania wariancji walidacji krzyżowej.
Autorzy wykazali, że chociaż wielokrotne sprawdzanie poprawności krzyżowej zmniejsza wariancję prognoz modelu, ponieważ próbka tego samego zestawu danych jest ponownie próbkowana, średnia z ponownie próbkowanych ocen walidacji krzyżowej jest zbieżna z tendencyjnym oszacowaniem prawdziwej dokładności predykcyjnej, a zatem nie jest użyteczna.
Czy pomimo tych ograniczeń należy stosować wielokrotną walidację krzyżową?
cross-validation
RobertF
źródło
źródło
Odpowiedzi:
Argument, który wydaje się przedstawiać, wydaje mi się dziwny.
Według gazety, celem jest oszacowanie CV , oczekiwane predykcyjną osiągi modelu na nowych danych, biorąc pod uwagę, że model był szkolony na obserwowanego zestawu danych S . Kiedy przeprowadzamy k krotnie CV, otrzymujemy szacunkową A z tym numerem. Ze względu na losowy podział S w k fałdy jest zmienną losową ~ f ( ) ze średnim μ kα2 S k A^ S k A^∼f(A) μk i wariancji . Przeciwnie, powtarzane n -razy CV daje oszacowanie z tą samą średniąσ2k n ale mniejsza wariancja σ 2 k / n .μk σ2k/n
Oczywiście . To uprzedzenie jest czymś, co musimy zaakceptować.α2≠μk
Jednak oczekiwany błąd będzie większa dla mniejszej n i będzie największy dla n = 1 , co najmniej w ramach rozsądnych założenia o f ( A ) , na przykład przy ˙ ~ N ( μ K , σ 2 k / n ) . Innymi słowy, powtarzane CV pozwala uzyskać bardziej precyzyjne oszacowanie ľ kE[|α2−A^|2] n n=1 f(A) A^∼˙N(μk,σ2k/n) μk i to dobrze, ponieważ daje dokładniejsze oszacowanie .α2
Dlatego powtórzone CV jest ściśle bardziej precyzyjne niż CV powtarzane.
Autorzy nie kłócą się z tym! Zamiast tego twierdzą, na podstawie symulacji, że
Oznacza to po prostu, że w ich symulacjach było dość niskie; i rzeczywiście, najniższy użyty rozmiar próby wynosił 200 , co jest prawdopodobnie wystarczająco duże, aby uzyskać małe σ 2 k . (Różnica w szacunkach uzyskanych przy CV powtarzającym się i CV powtarzanym 30-krotnie jest zawsze niewielka.) Przy mniejszych próbkach można oczekiwać większej wariancji między powtórzeniami.σ2k 200 σ2k
CAVEAT: Przedziały ufności!
Innym punktem, na który powołują się autorzy, jest to
Wydaje się, że odnoszą się one do przedziałów ufności dla średniej w powtórzeniach CV. W pełni się zgadzam, że zgłaszanie tego nie ma sensu! Im więcej razy CV powtarza, tym mniejszy będzie to CI, ale nikt nie jest zainteresowany CI wokół naszych szacunków ! Dbamy o CI wokół naszych oszacowań α 2μk α2 .
Autorzy zgłaszają również CI dla niepowtarzalnego CV i nie jest dla mnie całkowicie jasne, jak te CI zostały zbudowane. Sądzę, że są to CI dla średnich środków fałdach. Twierdziłbym, że te elementy CI są również prawie bez znaczenia!k
Spójrz na jeden z ich przykładów: dokładnośćμk
adult
zestawu danych z algorytmem NB i wielkość próbki 200. Otrzymują 78,0% przy powtarzanym CV, CI (72,26; 83,74), 79,0% (77,21, 80,79) przy 10-krotnie powtarzanym CV i 79,1% (78,07, 80,13) przy 30-krotnie powtarzanym CV. Wszystkie te elementy CI są bezużyteczne, w tym pierwszy. Najlepsze oszacowanie wynosi 79,1%. Odpowiada to 158 sukcesom na 200. Daje to 95% przedział ufności dwumianowy (72,8, 84,5) - szerszy nawet niż pierwszy podany. Gdybym chciał zgłosić trochę CI, to ten bym zgłosił.WIĘCEJ OGÓLNYCH OGRANICZEŃ: wariancja CV.
Napisałeś to powtórzone CV
Należy wyjaśnić, co oznacza „wariancja” CV. Powtarzane CV zmniejsza wariancję oszacowania . Zwróć uwagę, że w przypadku CV z pominięciem jednego (LOOCV), gdy k = N , ta wariancja jest równa zero. Niemniej jednak często mówi się, że LOOCV ma w rzeczywistości najwyższą wariancję spośród wszystkich możliwych CV z k- krotnością. Patrz np. Tutaj: Rozbieżność i stronniczość w walidacji krzyżowej: dlaczego pominięte CV ma większą wariancję?μk k=N k
Dlaczego? Wynika to z faktu, że LOOCV ma najwyższą wariancję jako oszacowanie która jest oczekiwaną wydajnością predykcyjną modelu na nowych danych, gdy jest on zbudowany na nowym zestawie danych o tym samym rozmiarze co Sα1 S . To jest zupełnie inna sprawa.
źródło