Czy sprawdzanie poprawności jest właściwym zamiennikiem zestawu sprawdzania poprawności?

W klasyfikacji tekstowej mam zestaw szkoleniowy z około 800 próbkami i zestaw testowy z około 150 próbkami. Zestaw testowy nigdy nie był używany i czeka na użycie do końca.

Używam całego zestawu 800 próbek treningowych, z 10-krotnym sprawdzaniem poprawności podczas strojenia i poprawiania klasyfikatorów i funkcji. Oznacza to, że nie mam osobnego zestawu sprawdzania poprawności, ale po każdym 10-krotnym ustawieniu sprawdzania poprawności wybierany jest automatycznie.

Po tym, jak będę zadowolony ze wszystkiego i chcę przejść do końcowego etapu oceny, przeszkolę klasyfikatorów na wszystkich 800 próbkach. I przetestuj na 150 próbnym zestawie testowym.

Czy rozumiem, że takie stosowanie weryfikacji krzyżowej w klasyfikacji tekstu jest prawidłowe? Czy ta praktyka jest ważna?

Kolejnym pytaniem dotyczącym weryfikacji krzyżowej jest:

zamiast 10-krotnego próbowałem też pominąć jeden jako ogólny wskaźnik wydajności. Ponieważ dla pominięcia jednego, nie jest możliwe posiadanie informacji o f1 / precyzji / przywołaniu, zastanawiam się, jaki jest związek między dokładnością z pominięcia a pomiarem z 10-krotności?

Wszelkie spostrzeżenia będą mile widziane.

Edytować:

To całkiem miłe wprowadzenie do walidacji krzyżowej. Odnosi się także do innych prac badawczych.

machine-learning classification cross-validation text-mining Płatek
źródło

Estymatory typu „zostaw jeden-na zewnątrz” są obiektywne, a 10-krotna walidacja krzyżowa będzie miała tendencyjność (w kierunku niższych błędów). Jednak obiektywizm wiąże się z wysoką wariancją.

blubb

@ Simon, myślę, że to zależy od złożoności problemu. Prawda?

Biostat

@blubb: LOO w niektórych sytuacjach może mieć duże pesymistyczne nastawienie. Wariancja LOO i pojedynczy ciąg 10-krotnego CV są zwykle bardzo podobne. Optymistyczne nastawienie (zbyt niskie szacunki błędów) nie wynika tutaj z wyboru ponownego próbkowania, ale z faktu, że walidacja krzyżowa jest już używana do optymalizacji opartej na danych. Następnie potrzebna jest kolejna niezależna weryfikacja. To może być również „zewnętrzna” pętla weryfikacji krzyżowej (bez optymistycznego nastawienia!)

cbeleites obsługuje Monikę

Rzeczywiście poprawnie opisałeś sposób pracy z crossvalidation. W rzeczywistości masz „szczęście”, że na końcu masz rozsądną walidację, ponieważ często do weryfikacji modelu używana jest walidacja krzyżowa, ale nie dokonuje się „prawdziwej” walidacji.

Jak powiedział @Simon Stelling w swoim komentarzu, walidacja krzyżowa doprowadzi do niższych oszacowanych błędów (co ma sens, ponieważ ciągle wykorzystujesz dane), ale na szczęście dzieje się tak w przypadku wszystkich modeli, więc z wyjątkiem katastrofy (tj. Błędy są tylko zmniejszone nieco w przypadku „złego” modelu, a więcej w przypadku „dobrego” modelu), wybranie modelu, który działa najlepiej na podstawie kryterium krzyżowego, zwykle będzie również najlepsze „na prawdziwym”.

Metodą, która czasami jest używana do nieco poprawienia mniejszych błędów, szczególnie jeśli szukasz modeli oszczędnych, jest wybranie najmniejszego modelu / najprostszej metody, dla której błąd weryfikacji krzyżowej mieści się w granicach jednej wartości SD (optymalizacja krzyżowa). Jako sama walidacja krzyżowa jest to heurystyka, dlatego należy z nią postępować ostrożnie (jeśli jest to opcja: zrób wykres błędów w oparciu o parametry strojenia: da ci to pojęcie, czy masz akceptowalne wyniki)

Biorąc pod uwagę tendencyjność błędów w dół, ważne jest, aby nie publikować błędów lub innych miar wydajności z krzyżowej weryfikacji bez wspominania, że pochodzą one z krzyżowej weryfikacji (chociaż prawdę mówiąc: widziałem zbyt wiele publikacji, które nie wspominają, że miara wydajności została uzyskana ze sprawdzenia wydajności w oryginalnym zestawie danych albo --- więc wzmianka o krzyżowej walidacji sprawia, że twoje wyniki są warte więcej ). Dla ciebie to nie będzie problem, ponieważ masz zestaw sprawdzania poprawności.

Ostatnie ostrzeżenie: jeśli dopasowanie modelu daje wynik w przypadku niektórych bliskich konkurentów, dobrym pomysłem jest przyjrzenie się ich osiągnięciom na późniejszym zestawie walidacyjnym, ale nie opieraj na tym ostatecznego wyboru modelu: możesz w najlepszym wypadku użyć tego, aby uspokoić swój sumienie, ale twój „ostateczny” model musiał zostać wybrany, zanim spojrzysz na zestaw walidacyjny.

Napisz swoje drugie pytanie: Myślę, że Simon udzielił wszystkich odpowiedzi, których potrzebujesz w swoim komentarzu, ale aby uzupełnić obraz: jak często w grę wchodzi kompromis wariancji odchylenia. Jeśli wiesz, że średnio osiągniesz prawidłowy wynik (bezstronność), cena jest zwykle taka, że każde twoje indywidualne obliczenie może znajdować się dość daleko od niego (duża wariancja). W dawnych czasach bezstronność była koniecznością plus ultra, w obecnych czasach czasami akceptowano (małe) uprzedzenie (więc nawet nie wiesz, że średnia z twoich obliczeń da wynik poprawny), jeśli to powoduje mniejszą wariancję. Doświadczenie pokazuje, że równowaga jest akceptowalna przy 10-krotnej walidacji krzyżowej. Dla ciebie odchylenie stanowiłoby problem tylko przy optymalizacji twojego modelu, ponieważ możesz oszacować kryterium później (bezstronnie) na zestawie sprawdzania poprawności. W związku z tym nie ma powodu, aby nie korzystać z weryfikacji krzyżowej.

Nick Sabbe
źródło

„ale Twój„ ostateczny ”model musiał zostać wybrany, zanim spojrzysz na zestaw sprawdzania poprawności.” Miły.

Mooncrater,

Czy sprawdzanie poprawności jest właściwym zamiennikiem zestawu sprawdzania poprawności?

Odpowiedzi: