Dlaczego badacze stosują 10-krotną walidację krzyżową zamiast testowania na zestawie walidacyjnym?

23

Przeczytałem wiele artykułów naukowych na temat klasyfikacji sentymentów i pokrewnych tematów.

Większość z nich stosuje 10-krotną walidację krzyżową do szkolenia i testowania klasyfikatorów. Oznacza to, że nie przeprowadza się osobnych testów / weryfikacji. Dlaczego?

Jakie są zalety / wady tego podejścia, szczególnie dla osób prowadzących badania?

użytkownik18075
źródło
3
Czy na pewno nie przeprowadzono osobnych testów?
Douglas Zare

Odpowiedzi:

17

Nie stanowi to problemu, jeśli CV jest zagnieżdżone , tzn. Wszystkie optymalizacje, selekcje funkcji i selekcje modeli, niezależnie od tego, czy same używają CV, czy nie, są umieszczone w jednym dużym CV.

Jak to się ma do posiadania dodatkowego zestawu sprawdzania poprawności? Chociaż zestaw sprawdzania poprawności jest zwykle po prostu mniej lub bardziej losowo wybraną częścią całych danych, jest to po prostu odpowiednik jednej iteracji CV. W tym celu jest to w rzeczywistości gorsza metoda, ponieważ może być łatwo stronnicza przez (miejmy nadzieję) na szczęście / nieszczęśliwie wybrany lub wybrany zestaw sprawdzania poprawności.

Jedynym wyjątkiem są szeregi czasowe i inne dane, w których liczy się kolejność obiektów; ale i tak wymagają specjalnego traktowania.

Gala
źródło
16

Głównym powodem jest to, że k-krotny estymator krzyżowej walidacji ma mniejszą wariancję niż pojedynczy estymator zestawu podtrzymującego, co może być bardzo ważne, jeśli ilość dostępnych danych jest ograniczona. Jeśli masz pojedynczy zestaw wstrzymujący, w którym 90% danych jest wykorzystywanych do szkolenia, a 10% do testowania, zestaw testowy jest bardzo mały, więc będzie wiele różnic w oszacowaniu wydajności dla różnych próbek danych, lub dla różnych partycji danych w celu utworzenia zestawów szkoleniowych i testowych. Sprawdzanie poprawności k-fold zmniejsza tę wariancję poprzez uśrednienie dla k różnych partycji, więc oszacowanie wydajności jest mniej wrażliwe na partycjonowanie danych. Możesz pójść jeszcze dalej, powtarzając k-krotną walidację krzyżową, gdzie walidacja krzyżowa jest wykonywana przy użyciu różnych partycjonowania danych w celu utworzenia k podzestawów,

Należy jednak pamiętać, że wszystkie etapy procedury dopasowania modelu (wybór modelu, wybór cech itp.) Muszą być wykonywane niezależnie w każdym krotnie procedury sprawdzania poprawności krzyżowej, w przeciwnym razie wynikowa ocena wydajności będzie optymistycznie stronnicza.

Dikran Torbacz
źródło
9

[ZMIENIONO w świetle komentarza]

Myślę, że istnieje problem, jeśli użyjesz wyników CV do wyboru spośród wielu modeli.

CV pozwala wykorzystać cały zestaw danych do szkolenia i testowania jednego modelu / metody, mając jednocześnie możliwość rozsądnego wyobrażenia sobie, jak dobrze się uogólni. Ale jeśli porównujesz wiele modeli, mój instynkt jest taki, że porównanie modelu wykorzystuje dodatkowy poziom izolacji testu pociągu, jaki daje CV, więc końcowy wynik nie będzie rozsądnym oszacowaniem dokładności wybranego modelu.

Sądzę więc, że jeśli stworzysz kilka modeli i wybierzesz jeden na podstawie jego CV, będziesz zbyt optymistycznie nastawiony do tego, co znalazłeś. Potrzebny byłby inny zestaw walidacyjny, aby zobaczyć, jak dobrze uogólnia zwycięzca.

Wayne
źródło
Dziękuję Ci. Zgadza się. Ale moje pytanie dotyczyło w szczególności tego, dlaczego ponownie nie sprawdziłem dokumentów? Czy jest odpowiedni powód? Czy chodzi o zmniejszenie ilości danych, czy dlatego, że CV działa dobrze, a osobna weryfikacja nie jest potrzebna?
user18075
5
Podejście do dzielenia danych jest wysoce nieefektywne. Do czasu, gdy zarówno zestawy szkoleniowe, jak i testowe są ogromne, średni błąd kwadratu dla oszacowania prawdopodobnej przyszłej wydajności modelu predykcyjnego jest mniejszy przy ładowaniu początkowym lub 100 powtórzeniach 10-krotnej walidacji krzyżowej, przy założeniu, że procedury ponownego próbkowania miały dostęp do wszystkich etapów modelowania to dotyczyłoY. Podziału danych należy używać, gdy trzeba również zweryfikować proces pomiaru, instrument pomiarowy lub inne procedury związane ze znaczeniem danych. Dobrym zastosowaniem podziału danych jest sytuacja, gdy oprzyrządowanie różni się w zależności od kraju.
Frank Harrell,
7
  • Z mojego doświadczenia wynika, że ​​głównym powodem jest zazwyczaj to, że nie masz wystarczającej ilości próbek.
    W mojej dziedzinie (klasyfikacja próbek biologicznych / medycznych) czasami zestaw testów jest trzymany osobno, ale często zawiera tylko kilka przypadków. W takim przypadku przedziały ufności są zwykle zbyt szerokie, aby można je było wykorzystać.

  • Kolejną zaletą wielokrotnego / powtarzanego sprawdzania poprawności lub sprawdzania poprawności poza bootstrap jest to, że budujesz kilka modeli „zastępczych”. Przyjmuje się, że są one równe. Jeśli nie są, tryby są niestabilne. Możesz faktycznie zmierzyć tę niestabilność (w odniesieniu do wymiany kilku przypadków szkoleniowych), porównując albo same modele zastępcze, albo prognozy, które różne modele zastępcze uwzględniają dla tego samego przypadku.

  • Ten artykuł Esbensen & Geladi daje miłą dyskusję na temat niektórych ograniczeń krzyżowej walidacji.
    Możesz zająć się większością z nich, ale jednym ważnym punktem, którego nie można rozwiązać za pomocą walidacji ponownego próbkowania, jest dryft, który jest związany z punktem mbq:

    Jedynym wyjątkiem są szeregi czasowe i inne dane, w których liczy się kolejność obiektów

    Dryft oznacza, że ​​np. Reakcja przyrządu / prawdziwa kalibracja zmienia się powoli w czasie. Tak więc błąd uogólnienia dla nieznanych przypadków może nie być taki sam jak dla nieznanych przyszłych przypadków. Otrzymasz instrukcje takie jak „ponawiaj kalibrację codziennie / co tydzień / ...”, jeśli zauważysz dryf podczas sprawdzania poprawności, ale wymaga to zestawów testów systematycznie pozyskiwanych później niż dane treningowe.
    (Możesz wykonać „specjalne” podziały, które uwzględniają czas akwizycji, jeśli eksperyment jest planowany z zachowaniem estodacji, ale zwykle nie zajmie to tyle czasu, ile chcesz przetestować pod kątem wykrywania znoszenia)

cbeleites obsługuje Monikę
źródło