Caret - Wielokrotna walidacja krzyżowa K-zagnieżdżenia w porównaniu z zagnieżdżoną walidacją krzyżową K-krotną, powtórzona n-razy

16

Daszek pakiet jest genialna biblioteka R do budowy wielu modeli uczenia maszynowego i ma kilka funkcji dla budynku modelu i oceny. Do dostrajania parametrów i treningu modeli pakiet Caret oferuje „repeatcv” jako jedną z metod.

Dobrą praktyką jest dostrajanie parametrów za pomocą zagnieżdżonej krzyżowej weryfikacji K-fold, która działa w następujący sposób:

  1. Podziel zestaw treningowy na podzbiory „K”
  2. W każdej iteracji weź podzbiory „K minus 1” do treningu modelu i zachowaj 1 podzbiór (zestaw wstrzymania) do testowania modelu.
  3. Następnie podziel zestaw treningowy „K minus 1” na podzbiory „K” i iteracyjnie użyj nowego podzbioru „K minus 1” i „zestawu sprawdzania poprawności” do dostrajania parametrów (wyszukiwanie siatki). Najlepszy parametr określony w tym kroku służy do testowania blokady ustalonej w kroku 2.

Z drugiej strony, zakładam, że powtarzana krzyżowa walidacja K-krotna może powtarzać krok 1 i 2 powtarzalnie, tyle razy, ile zdecydujemy się znaleźć wariancję modelu.

Jednak przeglądając algorytm w podręczniku, wygląda na to, że metoda „repeatcv” może również wykonywać zagnieżdżoną weryfikację krzyżową K-fold, oprócz powtarzania krzyżowej weryfikacji.

algorytm Caret Train https://topepo.github.io/caret/training.html

Moje pytania to:

  1. Czy moje podejście do metody Caret „powtarzane CV” jest prawidłowe?
  2. Jeśli nie, czy mógłbyś podać przykład użycia zagnieżdżonej krzyżowej weryfikacji K-fold z metodą „repeatcv” przy użyciu pakietu Caret?

Edytować:

W tym artykule metodologicznym wyjaśniono i porównano różne strategie walidacji krzyżowej.

Krstajic D, Buturovic LJ, Leahy DE i Thomas S : Pułapki związane z walidacją krzyżową przy wyborze i ocenie modeli regresji i klasyfikacji . Journal of Cheminformatics 2014 6 (1): 10. doi: 10.1186 / 1758-2946-6-10

Interesuje mnie „Algorytm 2: powtarzana krzyżowa walidacja zagnieżdżona” i „Algorytm 3: powtarzane krzyżowe sprawdzanie poprawności wyszukiwania siatki dla wyboru zmiennych i dostrajania parametrów” za pomocą pakietu Caret.

Mani
źródło

Odpowiedzi:

2

Nie ma nic złego w przedstawionym (zagnieżdżonym) algorytmie, a tak naprawdę prawdopodobnie działałby dobrze z przyzwoitą odpornością na problem wariancji odchylenia w różnych zestawach danych. Nigdy nie powiedziałeś jednak, że czytelnik powinien założyć, że funkcje, z których korzystasz, są najbardziej „optymalne”, więc jeśli nie jest to nieznane, należy rozwiązać pewne problemy z wyborem funkcji.

FUNKCJA / WYBÓR PARAMETRU

wrzappmirfajaltmirktóra wykorzystuje inną metodę, która jest daleko od klasyfikatora / modelu, jako próbę zminimalizowania błędu selekcji cech (parametrów). Sprawdź zawijanie względem filtrowania i stronniczości selekcji podczas wyboru funkcji (GJ McLachlan).

re1re2)n=50π=0,1n,0.2n,0,3)n,0,4n,0,5n

OPTYMALIZACJA / MINIMALIZACJA

y=fa(x1,x2),,xjot)yjest stale skalowane. Biorąc to pod uwagę i biorąc pod uwagę potrzebę zminimalizowania błędu systematycznego w prognozach (błąd selekcji, wariancja błędu, wyciek informacji z obiektów testowych do obiektów szkoleniowych itp.), Możesz rozważyć zastosowanie CV podczas korzystania z metod inteligencji roju, takich jak optymalizacja roju cząstek (PSO), optymalizacja kolonii mrówek itp. PSO (patrz Kennedy i Eberhart, 1995) dodaje parametry do wymiany informacji społecznych i kulturowych między cząsteczkami latającymi przez przestrzeń parametrów podczas nauki. Gdy zapoznasz się z metodami inteligencji roju, zobaczysz, że możesz pokonać wiele błędów w określaniu parametrów. Wreszcie nie wiem, czy istnieje przypadkowe podejście lasu (RF, patrz Breiman, Journ. Of Machine Learning) w celu przybliżenia funkcji, ale jeśli istnieje,

JoleT
źródło