Zgłaszanie wariancji powtarzanej k-krotnej walidacji krzyżowej

17

Używałem powtarzanej k-krotnej walidacji krzyżowej i zgłaszałem średnią (metryki oceny, np. Czułości, swoistości) obliczoną jako średnia średnia dla fałdów różnych przebiegów walidacji krzyżowej.

Nie jestem jednak pewien, jak powinienem zgłosić wariancję. Znalazłem tutaj wiele pytań omawiających powtórną walidację krzyżową, jednak żadne, o których jestem świadomy, wyraźnie odpowiada na pytanie wariancji w testach wielokrotnej walidacji krzyżowej.

Rozumiem, że całkowita wariancja wynika z: 1) niestabilności modelu i 2) ograniczonej wielkości próby.

Wydaje się, że istnieją 4 różne podejścia do obliczania wariancji dla powtarzanej k-krotnej weryfikacji krzyżowej:

1) wariancja szacunkowej średniej wydajności (np. Dokładność) między przebiegami walidacji krzyżowej może być prawidłowym oszacowaniem wariancji?

2) połączona wariancja poprzez połączenie wariantów specyficznych dla przebiegu (które są obliczane dla różnych fałdów testu krzyżowej walidacji).

3) w celu połączenia wyników klasyfikacji z różnych krotności serii walidacji krzyżowej w dużym wektorze. Na przykład, jeśli liczba danych testowych w każdym folderze wynosi 10, a ja mam 10-krotne CV, wynikowy wektor powtórzeń będzie miał rozmiar 100. Teraz, jeśli powtórzę mój test walidacji krzyżowej 10 razy, zrobię to mają 10 wektorów o rozmiarze 100, z których każdy zawierający klasyfikację wynika z 10-krotnego przebiegu CV. Teraz obliczyłbym średnią i wariancję jako przypadek pojedynczego CV.

4) Przeczytałem również (równania 2 i 3 w 1 ), że wariancja jest sumą wariancji zewnętrznej i oczekiwanej wariancji wewnętrznej. Jeśli dobrze rozumiem, wariancja zewnętrzna jest wariancją średnich wyników specyficznych dla powtórzeń, a wariancja wewnętrzna jest wariancją dla różnych fałdów serii walidacji krzyżowej.

Byłbym bardzo wdzięczny za twoją pomoc i wskazówki dotyczące tego, która wariancja byłaby odpowiednia do zgłoszenia w ramach powtarzanego testu walidacji krzyżowej.

Dzięki,

Alein
źródło
Jak teoria „bez darmowego lunchu”; nie możesz na pewno powiedzieć, że jedna z czterech metod jest najbardziej odpowiednia, ponieważ wydaje się, że wszystkie wymienione procedury są odpowiednie. Biorąc jednak pod uwagę opcję, wybrałbym opcję 3. Zawiera ona więcej danych i informacji nie są tracone, jak ma to miejsce w przypadku innych procedur, które wymieniłeś.
discipulus

Odpowiedzi:

2

1 i 3 wydają mi się nieważne, ponieważ nie biorą pod uwagę zależności między powtórzeniami. Innymi słowy, powtarzane przebiegi k-fold są bardziej do siebie podobne niż rzeczywiste powtórzenia eksperymentu z niezależnymi danymi.

2 nie uwzględnia zależności między fałdami w ramach tego samego przebiegu.

Nie wiem o 4.

Potencjalnie istotnym (i zniechęcającym) odniesieniem jest Bengio i Grandvalet, 2004, „Brak bezstronnego oszacowania wariancji krzyżowej walidacji K-Fold”

Trisoloriansunscreen
źródło