Jaka jest różnica między walidacją krzyżową a walidacją krzyżową ?
Wikipedia mówi:
W warstwowej walidacji krzyżowej k-krotnie fałdy są wybierane tak, aby średnia wartość odpowiedzi była w przybliżeniu równa we wszystkich fałdach. W przypadku klasyfikacji dychotomicznej oznacza to, że każda fałda zawiera w przybliżeniu te same proporcje dwóch rodzajów etykiet klas.
Ale wciąż jestem zdezorientowany.
- Co
mean response value
znaczy w tym kontekście? - Dlaczego numer 1 jest ważny?
- Jak osiągnąć numer 1 w praktyce?
źródło
Stratyfikacja ma na celu zagwarantowanie, że każda fałda jest reprezentatywna dla wszystkich warstw danych. Zasadniczo odbywa się to w nadzorowany sposób klasyfikacji i ma na celu zapewnienie (w przybliżeniu), że każda klasa jest (w przybliżeniu) równo reprezentowana w każdym folderze testowym (które są oczywiście łączone w komplementarny sposób w celu utworzenia foldów treningowych).
Intuicyja związana z tym polega na tendencyjności większości algorytmów klasyfikacji. Zwykle ważą każdą instancję jednakowo, co oznacza, że nadmiernie reprezentowane klasy otrzymują zbyt dużą wagę (np. Optymalizacja miary F, dokładności lub uzupełniającej formy błędu). Stratyfikacja nie jest tak ważna dla algorytmu, który waży każdą klasę jednakowo (np. Optymalizując Kappa, Informację lub ROC AUC) lub zgodnie z macierzą kosztów (np. Która podaje wartość każdej klasie prawidłowo ważoną i / lub koszt dla każdego sposobu błędna klasyfikacja). Zobacz np. Moc DMW (2014), Czego nie mierzy miara F: cechy, wady, błędy i poprawki. http://arxiv.org/pdf/1503.06410
Jednym konkretnym problemem, który jest ważny nawet w przypadku algorytmów bezstronnych lub zrównoważonych, jest to, że zwykle nie są w stanie uczyć się ani testować klasy, która nie jest wcale reprezentowana w krotnie, a ponadto nawet w przypadku, gdy tylko jedna klasa jest reprezentowane w fold nie pozwala na generalizację do wykonania odpowiednio. ocenione. Jednak nawet to rozważanie nie jest uniwersalne i na przykład nie odnosi się tak bardzo do uczenia się w jednej klasie, który stara się ustalić, co jest normalne dla pojedynczej klasy, i skutecznie identyfikuje wartości odstające jako inną klasę, biorąc pod uwagę tę krzyżową walidację polega na określaniu statystyk, które nie generują określonego klasyfikatora.
Z drugiej strony nadzorowane rozwarstwienie zagraża technicznej czystości oceny, ponieważ etykiety danych testowych nie powinny wpływać na trening, ale w rozwarstwieniu są stosowane przy wyborze instancji treningowych. Możliwe jest również nieuwzględnione rozwarstwienie, polegające na rozpowszechnianiu podobnych danych wokół, patrząc tylko na atrybuty danych, a nie na prawdziwą klasę. Patrz np http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.469.8855 NA Diamantidis, D. Karlis EA Giakoumakis (1997), Nienadzorowany rozwarstwienie krzyżowej walidacji do oceny dokładności.
Stratyfikacja może być również zastosowana do regresji, a nie klasyfikacji, w którym to przypadku, podobnie jak w przypadku nienadzorowanego rozwarstwienia, stosuje się podobieństwo zamiast tożsamości, ale wersja nadzorowana używa znanej prawdziwej wartości funkcji.
Dalszymi komplikacjami są rzadkie klasy i klasyfikacja wielopłaszczyznowa, gdzie klasyfikacja odbywa się na wielu (niezależnych) wymiarach. Krotki prawdziwych etykiet we wszystkich wymiarach można traktować jak klasy do celów weryfikacji krzyżowej. Jednak niekoniecznie wszystkie kombinacje występują, a niektóre kombinacje mogą być rzadkie. Rzadkie klasy i rzadkie kombinacje stanowią problem, ponieważ klasa / kombinacja, która występuje co najmniej raz, ale krócej niż K razy (w K-CV), nie może być reprezentowana we wszystkich fałdach testowych. W takich przypadkach można zamiast tego rozważyć formę warstwowego boostrapowania (próbkowanie z wymianą w celu wygenerowania pełnowymiarowego krotnie treningowego z oczekiwanymi powtórzeniami i 36,8% oczekiwanym niewybranym do testowania, przy czym jedno wystąpienie każdej klasy jest początkowo wybrane bez zastępowania krotnie testowego) .
Innym podejściem do wielowarstwowego rozwarstwienia jest próba stratyfikacji lub załadowania każdego wymiaru klasowego osobno, bez dążenia do zapewnienia reprezentatywnego wyboru kombinacji. Z etykietami L i instancjami N oraz instancjami Kkl klasy k dla etykiety l możemy losowo wybrać (bez zamiany) z odpowiedniego zestawu instancji oznaczonych Dkl w przybliżeniu instancji N / LKkl. Nie zapewnia to optymalnej równowagi, ale raczej dąży do równowagi heurystycznie. Można to poprawić, blokując wybór etykiet przy lub powyżej limitu, chyba że nie ma wyboru (ponieważ niektóre kombinacje nie występują lub są rzadkie). Problemy zwykle oznaczają albo, że danych jest za mało, albo że wymiary nie są niezależne.
źródło
Średnia wartość odpowiedzi jest w przybliżeniu równa we wszystkich fałdach, to inny sposób na stwierdzenie, że udział każdej klasy we wszystkich fałdach jest w przybliżeniu równy.
Na przykład mamy zestaw danych z 80 rekordami klasy 0 i 20 rekordami klasy 1. Możemy uzyskać średnią wartość odpowiedzi (80 * 0 + 20 * 1) / 100 = 0,2 i chcemy, aby 0,2 była średnią wartością odpowiedzi wszystkich fałd. Jest to również szybki sposób w EDA na sprawdzenie, czy podany zestaw danych jest niezrównoważony zamiast zliczać.
źródło