Czy do oceny modeli predykcyjnych należy stosować wielokrotną walidację krzyżową?

16

Zetknąłem się z tym artykułem z 2012 r. Autorstwa Gitte Vanwinckelen i Hendrika Blockeela, który kwestionuje użyteczność wielokrotnej walidacji krzyżowej, która stała się popularną techniką zmniejszania wariancji walidacji krzyżowej.

Autorzy wykazali, że chociaż wielokrotne sprawdzanie poprawności krzyżowej zmniejsza wariancję prognoz modelu, ponieważ próbka tego samego zestawu danych jest ponownie próbkowana, średnia z ponownie próbkowanych ocen walidacji krzyżowej jest zbieżna z tendencyjnym oszacowaniem prawdziwej dokładności predykcyjnej, a zatem nie jest użyteczna.

Czy pomimo tych ograniczeń należy stosować wielokrotną walidację krzyżową?

RobertF
źródło
6
Z mojego doświadczenia wynika, że ​​walidacja krzyżowa (powtarzana lub nie) nie daje bardzo dobrego oszacowania dokładności predykcyjnej. Ale to jest bardzo przydatna do porównywania predykcyjną skuteczność różnych modeli. To dobry sposób wyboru między modelami, ale nie jest to dobry sposób oszacowania wydajności pojedynczego modelu.
Flądrowiec
@ Założyciel To dobra uwaga. Moją interpretacją tego artykułu jest to, że nie możemy dokonać sensownych porównań modeli opartych na powtarzanej krzyżowej walidacji w stosunku do niepowtarzanej krzyżowej walidacji. Próbujesz wycisnąć z danych nieuzasadnioną ilość informacji. Czy to jest nieprawidłowe?
RobertF

Odpowiedzi:

11

Argument, który wydaje się przedstawiać, wydaje mi się dziwny.

Według gazety, celem jest oszacowanie CV , oczekiwane predykcyjną osiągi modelu na nowych danych, biorąc pod uwagę, że model był szkolony na obserwowanego zestawu danych S . Kiedy przeprowadzamy k krotnie CV, otrzymujemy szacunkową A z tym numerem. Ze względu na losowy podział S w k fałdy jest zmienną losową ~ f ( ) ze średnim μ kα2SkA^SkA^f(A)μk i wariancji . Przeciwnie, powtarzane n -razy CV daje oszacowanie z tą samą średniąσk2n ale mniejsza wariancja σ 2 k / n .μkσk2/n

Oczywiście . To uprzedzenie jest czymś, co musimy zaakceptować.α2μk

Jednak oczekiwany błąd będzie większa dla mniejszej n i będzie największy dla n = 1 , co najmniej w ramach rozsądnych założenia o f ( A ) , na przykład przy ˙ ~ N ( μ K , σ 2 k / n ) . Innymi słowy, powtarzane CV pozwala uzyskać bardziej precyzyjne oszacowanie ľ kE[|α2A^|2]nn=1f(A)A^˙N(μk,σk2/n)μki to dobrze, ponieważ daje dokładniejsze oszacowanie .α2

Dlatego powtórzone CV jest ściśle bardziej precyzyjne niż CV powtarzane.

Autorzy nie kłócą się z tym! Zamiast tego twierdzą, na podstawie symulacji, że

zmniejszenie wariancji [poprzez powtórzenie CV] jest w wielu przypadkach niezbyt przydatne i zasadniczo marnuje zasoby obliczeniowe.

Oznacza to po prostu, że w ich symulacjach było dość niskie; i rzeczywiście, najniższy użyty rozmiar próby wynosił 200 , co jest prawdopodobnie wystarczająco duże, aby uzyskać małe σ 2 k . (Różnica w szacunkach uzyskanych przy CV powtarzającym się i CV powtarzanym 30-krotnie jest zawsze niewielka.) Przy mniejszych próbkach można oczekiwać większej wariancji między powtórzeniami.σk2200σk2

CAVEAT: Przedziały ufności!

Innym punktem, na który powołują się autorzy, jest to

zgłaszanie przedziałów ufności [przy wielokrotnej walidacji krzyżowej] jest mylące.

Wydaje się, że odnoszą się one do przedziałów ufności dla średniej w powtórzeniach CV. W pełni się zgadzam, że zgłaszanie tego nie ma sensu! Im więcej razy CV powtarza, tym mniejszy będzie to CI, ale nikt nie jest zainteresowany CI wokół naszych szacunków ! Dbamy o CI wokół naszych oszacowań α 2μkα2 .

Autorzy zgłaszają również CI dla niepowtarzalnego CV i nie jest dla mnie całkowicie jasne, jak te CI zostały zbudowane. Sądzę, że są to CI dla średnich środków fałdach. Twierdziłbym, że te elementy CI są również prawie bez znaczenia!k

Spójrz na jeden z ich przykładów: dokładność adultzestawu danych z algorytmem NB i wielkość próbki 200. Otrzymują 78,0% przy powtarzanym CV, CI (72,26; 83,74), 79,0% (77,21, 80,79) przy 10-krotnie powtarzanym CV i 79,1% (78,07, 80,13) przy 30-krotnie powtarzanym CV. Wszystkie te elementy CI są bezużyteczne, w tym pierwszy. Najlepsze oszacowanie wynosi 79,1%. Odpowiada to 158 sukcesom na 200. Daje to 95% przedział ufności dwumianowy (72,8, 84,5) - szerszy nawet niż pierwszy podany. Gdybym chciał zgłosić trochę CI, to ten bym zgłosił.μk

WIĘCEJ OGÓLNYCH OGRANICZEŃ: wariancja CV.

Napisałeś to powtórzone CV

stał się popularną techniką zmniejszania wariancji weryfikacji krzyżowej.

Należy wyjaśnić, co oznacza „wariancja” CV. Powtarzane CV zmniejsza wariancję oszacowania . Zwróć uwagę, że w przypadku CV z pominięciem jednego (LOOCV), gdy k = N , ta wariancja jest równa zero. Niemniej jednak często mówi się, że LOOCV ma w rzeczywistości najwyższą wariancję spośród wszystkich możliwych CV z k- krotnością. Patrz np. Tutaj: Rozbieżność i stronniczość w walidacji krzyżowej: dlaczego pominięte CV ma większą wariancję?μkk=Nk

Dlaczego? Wynika to z faktu, że LOOCV ma najwyższą wariancję jako oszacowanie która jest oczekiwaną wydajnością predykcyjną modelu na nowych danych, gdy jest on zbudowany na nowym zestawie danych o tym samym rozmiarze co Sα1S . To jest zupełnie inna sprawa.

ameba mówi Przywróć Monikę
źródło
1
Mam nadzieję, że @cbeleites zauważy ten wątek i skomentuje tutaj lub pozostawi własną odpowiedź: wiem, że często używa (lub używała) powtarzanego CV i myślę, że był zwolennikiem obliczania zmienności zamiast powtórzeń jako pewnej miary stabilności modelu. Ale nie sądzę, żeby obliczyła CI na podstawie powtórzeń.
ameba mówi Przywróć Monikę
1
Dzięki za jasne wyjaśnienie artykułu. Więc podsumować swoją pozycję, gdy stan „Innymi słowy, powtarzane CV pozwala uzyskać bardziej precyzyjne oszacowanie i jest to dobra rzecz, ponieważ daje bardziej precyzyjne oszacowanie alfa 2 ” wspierasz użycia wielokrotnego CV jako środek do porównywania modeli z bardziej precyzyjnymi miarami μ k (nawet jeśli nie jest to dokładniejsza miara α 2 ). Zignoruj ​​elementy CI CV i skup się na porównaniu średniego μ k dla różnych modeli. μkα2μkα2μk
RobertF,
1
@RobertF: Mówiłem (zgodnie z dokumentem V&B) o szacowaniu wydajności modelu. Moja teza jest taka, że ​​powtarzane CV jest bardziej precyzyjne niż CV powtarzane i uważam, że jest to niewątpliwe (V&R argumentuje jednak, że różnica w precyzji zwykle nie jest tak ważna w praktyce). Porównanie dwóch modeli jest znacznie trudniejsze, ponieważ załóżmy, że uruchamiasz CV i dostajesz 70% dla jednego modelu i 71% dla innego modelu. Czy to „znacząca” różnica? Cóż, to podchwytliwy problem bez jednoznacznej odpowiedzi. I jest niezależny od powtarzającego się / nie powtarzanego problemu.
ameba mówi Przywróć Monikę
Jedzenie do namysłu: zastosowanopredictivemodeling.com/blog/2014/11/27/...
shadowtalker
1
σk