Najlepsze metody wyboru cech dla regresji nieparametrycznej

10

Pytanie dla początkujących tutaj. Obecnie wykonuję regresję nieparametryczną przy użyciu pakietu np w R. Mam 7 funkcji i stosując metodę brutalnej siły zidentyfikowałem najlepszy 3. Ale wkrótce będę miał więcej niż 7 funkcji!

Moje pytanie brzmi: jakie są obecnie najlepsze metody wyboru cech dla regresji nieparametrycznej. I które, jeśli jakieś pakiety implementują metody. Dziękuję Ci.

jmmcnew
źródło
1
co rozumiesz przez „wiele więcej” 100? 1000? dziesięć tysięcy? 100000?
robin girard
Prawdopodobnie będę miał około 100 funkcji. Ale mam tylko kilka minut, aby podjąć decyzję dotyczącą najlepszego podzbioru funkcji.
jmmcnew
1
Czy próbowałeś lasso lub elastycznej siatki? pakiety: lasso, glmnet. Te metody mogą „wybierać” niektóre zmienne w dowolnym miejscu.
deps_stats

Odpowiedzi:

3

O ile identyfikacja najbardziej istotnych zmiennych nie jest kluczowym celem analizy, często lepiej nie robić wcale wyboru funkcji i stosować regularyzacji, aby zapobiec nadmiernemu dopasowaniu. Wybór funkcji jest trudną procedurą i zbyt łatwo jest przesadzić z kryterium wyboru funkcji, ponieważ istnieje wiele stopni swobody. LASSO i elastyczna siatka są dobrym kompromisem, osiągają rzadkość poprzez regularyzację, a nie poprzez bezpośredni wybór cech, więc są mniej podatne na tę szczególną formę nadmiernego dopasowania.

Dikran Torbacz
źródło
0

Lasso jest naprawdę dobry. Proste rzeczy, takie jak rozpoczynanie od braku i dodawanie ich jeden po drugim według „użyteczności” (poprzez krzyżową weryfikację), działają również całkiem dobrze w praktyce. Jest to czasami nazywane stopniowym selekcją do przodu.

Zauważ, że problem wyboru podzbioru jest dość niezależny od rodzaju klasyfikacji / regresji. Po prostu metody nieparametryczne mogą być powolne i dlatego wymagają bardziej inteligentnych metod selekcji.

Książka „Elementy statystycznego uczenia się” T. Hastiego daje ładny przegląd.

Mr. White
źródło