Pytanie dla początkujących tutaj. Obecnie wykonuję regresję nieparametryczną przy użyciu pakietu np w R. Mam 7 funkcji i stosując metodę brutalnej siły zidentyfikowałem najlepszy 3. Ale wkrótce będę miał więcej niż 7 funkcji!
Moje pytanie brzmi: jakie są obecnie najlepsze metody wyboru cech dla regresji nieparametrycznej. I które, jeśli jakieś pakiety implementują metody. Dziękuję Ci.
Odpowiedzi:
O ile identyfikacja najbardziej istotnych zmiennych nie jest kluczowym celem analizy, często lepiej nie robić wcale wyboru funkcji i stosować regularyzacji, aby zapobiec nadmiernemu dopasowaniu. Wybór funkcji jest trudną procedurą i zbyt łatwo jest przesadzić z kryterium wyboru funkcji, ponieważ istnieje wiele stopni swobody. LASSO i elastyczna siatka są dobrym kompromisem, osiągają rzadkość poprzez regularyzację, a nie poprzez bezpośredni wybór cech, więc są mniej podatne na tę szczególną formę nadmiernego dopasowania.
źródło
Lasso jest naprawdę dobry. Proste rzeczy, takie jak rozpoczynanie od braku i dodawanie ich jeden po drugim według „użyteczności” (poprzez krzyżową weryfikację), działają również całkiem dobrze w praktyce. Jest to czasami nazywane stopniowym selekcją do przodu.
Zauważ, że problem wyboru podzbioru jest dość niezależny od rodzaju klasyfikacji / regresji. Po prostu metody nieparametryczne mogą być powolne i dlatego wymagają bardziej inteligentnych metod selekcji.
Książka „Elementy statystycznego uczenia się” T. Hastiego daje ładny przegląd.
źródło