Testowanie znaczenia czy walidacja krzyżowa?

20

Dwa powszechne podejścia do wybierania zmiennych skorelowanych to testy istotności i walidacja krzyżowa. Jaki problem każdy z nich próbuje rozwiązać i kiedy wolałbym jeden od drugiego?

cross-validation feature-selection JohnRos
źródło

22

Po pierwsze, pytanie w kontekście wielokrotnej regresji liniowej, w której regresujemy zmienną odpowiedzi na kilku różnych zmiennych (skorelowane lub nie), z parametrem wektor i funkcja regresji co może być modelem średniej zmiennej odpowiedzi dla podana obserwacja . $y$ $x_1, \ldots, x_p$ $\beta = (\beta_0, \beta_1, \ldots, \beta_p)$

fa (x_{1}, \dots, x_{p}) = β_{0} + β_{1} x_{1} + \dots + β_{p} x_{p},

$f(x_1, \ldots, x_p) = \beta_0 + \beta_1 x_1 + \ldots + \beta_p x_p,$

x_{1}, \dots, x_{p}

$x_1, \ldots, x_p$

Pytanie brzmi, jak wybrać podzbiór ma być niezerowy, aw szczególności porównanie testu istotności z walidacją krzyżową . $\beta_i$

Aby mieć jasność co do terminologii, testowanie istotności jest ogólną koncepcją, która jest przeprowadzana inaczej w różnych kontekstach. Zależy to na przykład od wyboru statystyki testowej. Krzyżowa walidacja jest tak naprawdę algorytmem do oszacowania oczekiwanego błędu generalizacji , który jest ważną ogólną koncepcją i który zależy od wyboru funkcji straty.

Oczekiwany błąd uogólnienie jest trochę techniczny zdefiniować formalnie, ale w słowach jest to oczekiwane utrata dopasowanego modelu stosowany do przewidywania na niezależnym zbiorze danych , w którym oczekuje się na danych wykorzystanych do oszacowania, jak również niezależnych danych zestaw używany do przewidywania.

Aby dokonać rozsądnego porównania, skupmy się na tym, czy wartość może być równa 0, czy nie. $\beta_1$

Do testowania istotności z hipotezą zerową , że głównej procedury jest obliczyć wartość X, która jest prawdopodobieństwo, że wybrany testowy parametrem jest większe niż te obserwowane dla danych empirycznych mocy hipotezy zerowej , to znaczy po przy założeniu, że . Interpretacja jest taka, że mała wartość jest dowodem przeciwko hipotezie zerowej. Powszechnie stosowane są zasady określające, co „mały” w sensie absolutnym, takie jak słynne poziomy istotności 0,05 lub 0,01. $\beta_1 = 0$ $p$ $\beta_1 = 0$ $p$
Dla oczekiwanego błędu uogólnienia obliczamy, być może przy użyciu weryfikacji krzyżowej, oszacowanie oczekiwanego błędu uogólnienia przy założeniu, że . Ta ilość mówi nam, jak dobrze modele pasujące do stosowanej przez nas metody oraz przy , będą działać średnio, gdy zostaną użyte do przewidywania niezależnych danych. Duży oczekiwany błąd uogólnienia jest zły, ale nie ma żadnych zasad dotyczących jego wartości bezwzględnej określającej, jak duży musi być zły. Będziemy musieli oszacować oczekiwany błąd uogólnienia dla modelu, w którym może również różnić się od 0, a następnie możemy porównać dwa oszacowane błędy. Która z nich jest najmniejsza, odpowiada wybranemu modelowi. $\beta_1 = 0$ $\beta_1 = 0$ $\beta_1$

Korzystanie znaczenie badania nie są bezpośrednio związane ze „spektaklu” modelu pod hipotezy zerowej w stosunku do innych modeli, ale są zainteresowane z dokumentowania że null jest źle. Jest to dla mnie najbardziej sensowne w konfiguracji potwierdzającej, w której głównym celem jest potwierdzenie i udokumentowanie priorytetowej, dobrze określonej hipotezy naukowej, którą można sformułować jako . $\beta_1 \neq 0$

Oczekiwany błąd uogólnienie jest, z drugiej strony, dotyczy jedynie średniej „wydajności” w kategoriach oczekiwanej straty predykcji, i stwierdzić, że najlepiej jest pozwolić być różny od 0 w zakresie przewidywania nie jest próbą dokumentu że „naprawdę” różni się od 0 cokolwiek to znaczy. $\beta_1$ $\beta_1$ $-$

Osobiście nigdy nie pracowałem nad problemem, w którym formalnie potrzebowałem testów istotności, ale wartości znajdują się w mojej pracy i zapewniają rozsądne przewodniki i pierwsze wrażenia na temat wyboru zmiennych. Jednak w większości przypadków używam metod penalizacji, takich jak lasso, w połączeniu z błędem uogólniającym przy formalnym wyborze modelu i powoli staram się tłumić moją skłonność do obliczania wartości . $p$ $p$

W przypadku analizy eksploracyjnej nie widzę żadnego argumentu za testowaniem istotności i wartościami , i zdecydowanie zalecę skupienie się na koncepcji takiej jak oczekiwany błąd uogólnienia przy selekcji zmiennych. W innych kontekstach, w których można rozważyć użycie wartości do udokumentowania, że nie jest 0, powiedziałbym, że prawie zawsze lepszym pomysłem jest zgłoszenie oszacowania i przedziału ufności. $p$ $p$ $\beta_1$ $\beta_1$

NRH
źródło

17

Po prostu używając testów istotności i etapowej procedury wyboru modelu możesz przekonać cię, że masz bardzo silny model ze znaczącymi predyktorami, podczas gdy tak naprawdę nie masz; możesz przypadkowo uzyskać silne korelacje, które można pozornie wzmocnić, usuwając inne niepotrzebne predyktory.

Procedura selekcji oczywiście zachowuje tylko te zmienne, które mają najsilniejsze korelacje z wynikiem, a wraz z postępem procedury krokowej prawdopodobieństwo popełnienia błędu typu I staje się większe, niż można sobie wyobrazić. Wynika to z faktu, że standardowe błędy (a tym samym wartości p) nie są korygowane w celu uwzględnienia faktu, że zmienne nie zostały wybrane do losowego włączenia do modelu i przeprowadzono wiele testów hipotez, aby wybrać ten zestaw.

David Freedman ma ładny artykuł, w którym pokazuje te punkty zatytułowane „ Uwaga na temat równań regresji skriningowej ”. Streszczenie:

$R^2$ $R^2$

Jednym z potencjalnych rozwiązań tego problemu, jak wspomniałeś, jest zastosowanie wariantu weryfikacji krzyżowej. Kiedy nie mam dobrego uzasadnienia ekonomicznego (moja dziedzina badań) lub statystycznego, aby wierzyć w mój model, jest to moje preferowane podejście do wyboru odpowiedniego modelu i przeprowadzenia wnioskowania.

Inni respondenci mogą wspomnieć, że procedury etapowe z wykorzystaniem AIC lub BIC są asympotycznie równoważne z walidacją krzyżową. Działa to jednak tylko wtedy, gdy liczba obserwacji w stosunku do liczby predyktorów staje się duża. W kontekście posiadania wielu zmiennych w stosunku do liczby obserwacji (Freedman mówi 1 zmienną na 10 lub mniej obserwacji), wybór w ten sposób może wykazywać słabe właściwości omówione powyżej.

W erze potężnych komputerów nie widzę żadnego powodu, aby nie stosować weryfikacji krzyżowej jako procedury wyboru modelu zamiast wyboru krokowego.

Charlie
źródło

Czy możesz podać odniesienie do procedur krokowych z wykorzystaniem AIC lub BIC, które są asympotycznie równoważne z walidacją krzyżową ? Czytałem o równoważności AIC / BIC z walidacją krzyżową, ale nie w ustawieniach stopniowych.

Richard Hardy,

Testowanie znaczenia czy walidacja krzyżowa?

Odpowiedzi: