Dwa powszechne podejścia do wybierania zmiennych skorelowanych to testy istotności i walidacja krzyżowa. Jaki problem każdy z nich próbuje rozwiązać i kiedy wolałbym jeden od drugiego?
źródło
Dwa powszechne podejścia do wybierania zmiennych skorelowanych to testy istotności i walidacja krzyżowa. Jaki problem każdy z nich próbuje rozwiązać i kiedy wolałbym jeden od drugiego?
Po pierwsze, pytanie w kontekście wielokrotnej regresji liniowej, w której regresujemy zmienną odpowiedzi na kilku różnych zmiennych (skorelowane lub nie), z parametrem wektor i funkcja regresji
co może być modelem średniej zmiennej odpowiedzi dla podana obserwacja . x 1 , … , x p β = ( β 0 , β 1 , … , β p ) f ( x 1 , … , x p ) = β 0 + β 1 x 1 + … + β p x p , x 1 , … , X p
Pytanie brzmi, jak wybrać podzbiór ma być niezerowy, aw szczególności porównanie testu istotności z walidacją krzyżową .
Aby mieć jasność co do terminologii, testowanie istotności jest ogólną koncepcją, która jest przeprowadzana inaczej w różnych kontekstach. Zależy to na przykład od wyboru statystyki testowej. Krzyżowa walidacja jest tak naprawdę algorytmem do oszacowania oczekiwanego błędu generalizacji , który jest ważną ogólną koncepcją i który zależy od wyboru funkcji straty.
Oczekiwany błąd uogólnienie jest trochę techniczny zdefiniować formalnie, ale w słowach jest to oczekiwane utrata dopasowanego modelu stosowany do przewidywania na niezależnym zbiorze danych , w którym oczekuje się na danych wykorzystanych do oszacowania, jak również niezależnych danych zestaw używany do przewidywania.
Aby dokonać rozsądnego porównania, skupmy się na tym, czy wartość może być równa 0, czy nie.
Korzystanie znaczenie badania nie są bezpośrednio związane ze „spektaklu” modelu pod hipotezy zerowej w stosunku do innych modeli, ale są zainteresowane z dokumentowania że null jest źle. Jest to dla mnie najbardziej sensowne w konfiguracji potwierdzającej, w której głównym celem jest potwierdzenie i udokumentowanie priorytetowej, dobrze określonej hipotezy naukowej, którą można sformułować jako .
Oczekiwany błąd uogólnienie jest, z drugiej strony, dotyczy jedynie średniej „wydajności” w kategoriach oczekiwanej straty predykcji, i stwierdzić, że najlepiej jest pozwolić być różny od 0 w zakresie przewidywania nie jest próbą dokumentu że „naprawdę” różni się od 0 cokolwiek to znaczy.
Osobiście nigdy nie pracowałem nad problemem, w którym formalnie potrzebowałem testów istotności, ale wartości znajdują się w mojej pracy i zapewniają rozsądne przewodniki i pierwsze wrażenia na temat wyboru zmiennych. Jednak w większości przypadków używam metod penalizacji, takich jak lasso, w połączeniu z błędem uogólniającym przy formalnym wyborze modelu i powoli staram się tłumić moją skłonność do obliczania wartości .
W przypadku analizy eksploracyjnej nie widzę żadnego argumentu za testowaniem istotności i wartościami , i zdecydowanie zalecę skupienie się na koncepcji takiej jak oczekiwany błąd uogólnienia przy selekcji zmiennych. W innych kontekstach, w których można rozważyć użycie wartości do udokumentowania, że nie jest 0, powiedziałbym, że prawie zawsze lepszym pomysłem jest zgłoszenie oszacowania i przedziału ufności.
Po prostu używając testów istotności i etapowej procedury wyboru modelu możesz przekonać cię, że masz bardzo silny model ze znaczącymi predyktorami, podczas gdy tak naprawdę nie masz; możesz przypadkowo uzyskać silne korelacje, które można pozornie wzmocnić, usuwając inne niepotrzebne predyktory.
Procedura selekcji oczywiście zachowuje tylko te zmienne, które mają najsilniejsze korelacje z wynikiem, a wraz z postępem procedury krokowej prawdopodobieństwo popełnienia błędu typu I staje się większe, niż można sobie wyobrazić. Wynika to z faktu, że standardowe błędy (a tym samym wartości p) nie są korygowane w celu uwzględnienia faktu, że zmienne nie zostały wybrane do losowego włączenia do modelu i przeprowadzono wiele testów hipotez, aby wybrać ten zestaw.
David Freedman ma ładny artykuł, w którym pokazuje te punkty zatytułowane „ Uwaga na temat równań regresji skriningowej ”. Streszczenie:
Jednym z potencjalnych rozwiązań tego problemu, jak wspomniałeś, jest zastosowanie wariantu weryfikacji krzyżowej. Kiedy nie mam dobrego uzasadnienia ekonomicznego (moja dziedzina badań) lub statystycznego, aby wierzyć w mój model, jest to moje preferowane podejście do wyboru odpowiedniego modelu i przeprowadzenia wnioskowania.
Inni respondenci mogą wspomnieć, że procedury etapowe z wykorzystaniem AIC lub BIC są asympotycznie równoważne z walidacją krzyżową. Działa to jednak tylko wtedy, gdy liczba obserwacji w stosunku do liczby predyktorów staje się duża. W kontekście posiadania wielu zmiennych w stosunku do liczby obserwacji (Freedman mówi 1 zmienną na 10 lub mniej obserwacji), wybór w ten sposób może wykazywać słabe właściwości omówione powyżej.
W erze potężnych komputerów nie widzę żadnego powodu, aby nie stosować weryfikacji krzyżowej jako procedury wyboru modelu zamiast wyboru krokowego.