Kiedy nie używać weryfikacji krzyżowej?

10

Gdy czytam stronę, większość odpowiedzi sugeruje, że w algorytmach uczenia maszynowego należy przeprowadzić weryfikację krzyżową. Jednak czytając książkę „Zrozumienie uczenia maszynowego” zobaczyłem, że istnieje ćwiczenie, które czasami lepiej nie używać weryfikacji krzyżowej. Jestem bardzo zmieszany. Kiedy algorytm uczący dla całych danych jest lepszy niż walidacja krzyżowa? Czy zdarza się to w prawdziwych zestawach danych?

Niech be k klasy hipotez. Załóżmy, że podano m IID szkolenia przykłady i chcesz uczyć się klasy H = k i = 1 H í . Rozważ dwa alternatywne podejścia:H1,...,HkmH=i=1kHi

  1. Naucz się na m przykładach przy użyciu reguły ERMHm

  2. Podziel m przykłady na zestaw treningowy wielkości zestaw walidacyjny wielkości α m dla niektórych α ( 0 , 1 ) . Następnie zastosuj podejście wyboru modelu za pomocą walidacji. Oznacza to, że fi RST pociągu każdej klasy H I na ( 1 - α ) m przykładami treningu z wykorzystaniem reguły ERM względem H ı i pozwolić godzinie h 1 , ... , h k(1α)mαmα(0,1)Hi(1α)mHih^1,,h^kbyć wynikającymi z tego hipotezami. Po drugie, należy zastosować regułę ERM w odniesieniu do klasy fi nite { h 1 , ... , h k } na α m przykłady walidacji.h^1,,h^kαm

Opisz scenariusze, w których pierwsza metoda jest lepsza niż druga i odwrotnie.

Zdjęcie pytania .

SMA.D
źródło
1
To ciekawe ćwiczenie, ale nie zgadzam się z wytwórnią. Myślę, że krzyżowa walidacja doskonale spełnia swoje zadanie. Jako styczną naprawdę byłoby najlepiej, gdybyś napisał ćwiczenie i zacytował je, zamiast dołączać obraz. Obraz jest niedostępny dla użytkowników niedowidzących.
Matthew Drury,
Jedną z możliwych wad stosowania weryfikacji krzyżowej może być nadmierne dopasowanie (jak w przypadku pominięcia jednej weryfikacji krzyżowej). Zasadniczo, stosując techniki weryfikacji krzyżowej, dostosowujemy parametry modelu do zestawu danych do sprawdzania poprawności (a nie do zestawu danych testowych). Ale czasami to strojenie może pójść trochę za daleko, co może doprowadzić do nadmiernego dopasowania, gdy klasyfikator jest testowany na zestawie testowym.
Upendra Pratap Singh
1
Co oznacza tutaj „parzystość”?
shadowtalker
@shadowtalker Myślę, że to oznacza sumowanie modulo 2.
SMA.D,
Czy rozróżniasz (powtarzane) walidację krzyżową od ładowania początkowego?
usεr11852

Odpowiedzi:

11

Wiadomości z domu:


Niestety cytowany tekst zmienia dwie rzeczy między podejściem 1 a 2:

  • Podejście 2 dokonuje weryfikacji krzyżowej i wyboru / strojenia / optymalizacji modelu opartego na danych
  • Podejście 1 nie wykorzystuje weryfikacji krzyżowej ani wyboru / strojenia / optymalizacji modelu opartego na danych.
  • Podejście 3 krzyżowej walidacji bez wyboru / strojenia / optymalizacji modelu opartego na danych jest całkowicie wykonalne (i IMHO prowadziłoby do większego wglądu) w omawianym kontekście
  • Podejście 4, nie jest możliwa żadna walidacja krzyżowa, ale możliwy jest również wybór / dostrajanie / optymalizacja modelu opartego na danych, ale jego konstrukcja jest bardziej złożona.

IMHO, walidacja krzyżowa i optymalizacja oparta na danych to dwie całkowicie różne (i w dużej mierze niezależne) decyzje dotyczące konfiguracji strategii modelowania. Tylko połączenia jest to, że można użyć krzyżowych oszacowania walidacji jako cel funkcjonalną dla optymalizacji. Istnieją jednak inne funkcjonalne elementy docelowe gotowe do użycia i istnieją inne zastosowania szacunków krzyżowej weryfikacji (co ważne, możesz ich użyć do weryfikacji swojego modelu, zwanej także walidacją lub testowaniem)

Niestety terminologia uczenia maszynowego to obecnie IMHO bałagan, który sugeruje tutaj fałszywe połączenia / przyczyny / zależności.

  • Gdy spojrzysz na podejście 3 (weryfikacja krzyżowa nie w celu optymalizacji, ale w celu pomiaru wydajności modelu), przekonasz się, że walidacja krzyżowa „decyzji” w porównaniu do treningu całego zestawu danych jest fałszywą dychotomią w tym kontekście: W przypadku weryfikacji krzyżowej Aby zmierzyć wydajność klasyfikatora, wartość walidacji krzyżowej jest stosowana jako oszacowanie dla modelu wyuczonego na całym zestawie danych. Tj. Podejście 3 obejmuje podejście 1.

  • pparametry / współczynniki modelu, ale optymalizacja polega na oszacowaniu dalszych parametrów, tak zwanych hiperparametrów. Jeśli opisujesz proces dopasowania i optymalizacji / strojenia modelu jako poszukiwanie parametrów modelu, wówczas ta optymalizacja hiperparametrów oznacza, że ​​rozważana jest znacznie większa przestrzeń wyszukiwania. Innymi słowy, w podejściu 1 (i 3) ograniczasz przestrzeń wyszukiwania, określając te hiperparametry. Twój rzeczywisty zestaw danych może być wystarczająco duży (zawierać wystarczającą ilość informacji), aby umożliwić dopasowanie w obrębie tej ograniczonej przestrzeni wyszukiwania, ale nie wystarczająco duży, aby wystarczająco dobrze naprawić wszystkie parametry w większej przestrzeni wyszukiwania podejść 2 (i 4).

W rzeczywistości w mojej dziedzinie bardzo często mam do czynienia z zestawami danych, które są zdecydowanie zbyt małe, aby można było pomyśleć o optymalizacji opartej na danych. Więc co mam zrobić zamiast tego: Korzystam z mojej wiedzy na temat danych i procesów generowania danych, aby zdecydować, który model dobrze pasuje do fizycznego charakteru danych i aplikacji. I w tych przypadkach wciąż muszę ograniczać złożoność mojego modelu.

cbeleites niezadowoleni z SX
źródło
Niezła odpowiedź. Miałem nadzieję, że przyczynisz się do tego wątku. Oczywiste +1
usεr11852
Dziękujemy za twoją pouczającą i pomocną odpowiedź. Nauczyłem się z twojej odpowiedzi, że możemy wybrać podejście 2, gdy mamy małe zbiory danych nie z powodu walidacji, ale z powodu wyboru modelu. Mam rację? Czy korzystanie z wyboru modelu dla małych zestawów danych w jakiś sposób prowadzi do niedopasowania?
SMA.D,
Innym pytaniem jest to, że w ćwiczeniu wielkość klasy hipotez jest taka sama zarówno dla podejścia 1, jak i 2. Jak przestrzeń wyszukiwania jest w tym przypadku większa dla podejścia 2?
SMA.D
Cóż, jeśli istnieje wybór w 2, a nie w 1, wówczas przestrzeń wyszukiwania w 2 jest większa. Jeśli przestrzeń poszukiwań w 2 nie jest większa, to tak naprawdę nie ma nic do wyboru w podejściu 2. Moja odpowiedź i interpretacja tego, co oznacza podejście 2, jest wyzwalana terminem „wybór modelu za pomocą walidacji”. Jeśli kontekst jest nadal jednym z ćwiczeń „kiedy walidacja krzyżowa się nie powiedzie” przed omawianym tutaj, to książka może oznaczać to, co nazwałem podejściem 3 powyżej, tj. Nie obejmuje wyboru modelu. Ale w takim przypadku wybór modelu słów naprawdę nie powinien tam być. Nie mogę ocenić, jak prawdopodobne jest to ...
cbeleites niezadowoleni z SX
... jest, ponieważ nie wiem, co mówi książka na temat wyboru modelu, ani jaka jest ich zasada ERM (moim zdaniem ERM rozszerza się na zarządzanie ryzykiem w przedsiębiorstwie ...). Moja odpowiedź jest jednak niezależna od algorytmu modelowania.
cbeleites niezadowoleni z SX