Powiedziano mi, że korzystne jest stosowanie warstwowej weryfikacji krzyżowej, zwłaszcza gdy klasy odpowiedzi są niezrównoważone. Jeśli jednym z celów walidacji krzyżowej jest pomoc w rozliczeniu losowości naszej oryginalnej próbki danych treningowych, na pewno sprawienie, by każda zakładka miała taki sam rozkład klas, działałoby przeciwko temu, chyba że byłeś pewien, że twój oryginalny zestaw treningowy miał reprezentatywny rozkład klas.
Czy moja logika jest wadliwa?
EDIT Jestem zainteresowany tym, czy ta metoda szkodzi dobru CV. Rozumiem, dlaczego jest to konieczne, jeśli masz małą próbkę / bardzo niezrównoważone klasy / oba, aby uniknąć braku jednego przedstawiciela mniejszej klasy w folderze.
Artykuł „ Jabłka do jabłka w badaniach krzyżowej walidacji: pułapki w pomiarze wydajności klasyfikatora” dobrze przedstawia argumentację za rozwarstwieniem, ale wszystkie argumenty wydają się sprowadzać do „stratyfikacji zapewnia ochronę i większą spójność”, ale żadne zabezpieczenie nie byłoby wymagane, biorąc pod uwagę wystarczającą ilość dane.
Odpowiedź jest prosta: „Używamy go z konieczności, ponieważ rzadko mamy wystarczającą ilość danych”. ?
źródło
Być może możesz o tym myśleć w ten sposób. Załóżmy, że masz zestaw danych, w którym znajduje się 100 próbek, 90 w klasie „A” i 10 w klasie „B”. W tym bardzo niezrównoważonym projekcie, jeśli wykonujesz normalne losowe grupy, możesz skończyć budowaniem modeli na nielicznych (lub NAWET NIE!) Z klasy „B”. Jeśli budujesz model, który jest szkolony na danych, w których jest tak mało, a nawet nie ma, drugiej klasy, jak możesz oczekiwać, że skutecznie prognozuje rzadszą grupę? Warstwowa walidacja krzyżowa pozwala na randomizację, ale także zapewnia, że te niezrównoważone zestawy danych mają niektóre z obu klas.
Aby uspokoić obawy dotyczące stosowania warstwowego CV z bardziej „zbalansowanymi” zestawami danych, spójrzmy na przykład wykorzystujący kod R.
Jak widać, w zbiorze danych, który jest dobrze zrównoważony, fałdy będą miały podobny rozkład losowo. Dlatego warstwowe CV jest w tych okolicznościach po prostu miarą pewności. Jednak, aby rozwiązać problem wariancji, należy przyjrzeć się rozkładom poszczególnych foldów. W niektórych okolicznościach (nawet od 50-50) możesz mieć fałdy, które mają losowy podział 30-70 przez przypadek (możesz uruchomić powyższy kod i zobaczyć, jak to się naprawdę dzieje!). Może to prowadzić do gorszego modelu, ponieważ nie miał wystarczającej liczby jednej klasy, aby dokładnie przewidzieć, zwiększając tym samym ogólną wariancję CV. Jest to oczywiście ważniejsze, gdy masz „ograniczone” próbki, w przypadku których istnieje większe prawdopodobieństwo bardzo skrajnych różnic w dystrybucji.
Teraz, przy bardzo dużych zestawach danych, stratyfikacja może nie być konieczna, ponieważ fałdy będą na tyle duże, że nadal prawdopodobnie będą zawierać co najmniej dobry odsetek klasy „rzadszej”. Jednak tak naprawdę nie ma strat obliczeniowych i nie ma prawdziwego powodu, aby zrezygnować ze stratyfikacji, jeśli próbki są niezrównoważone, bez względu na to, ile danych masz według mnie.
źródło
stratifcation is generally a better scheme, both in terms of bias and variance, when compared to regular cross-validation
. Nie ma idealnego schematu próbkowania, ale w projektach niezrównoważonych stratyfikacja jest dobrym podejściem.