Jakie są zalety regresji stopniowej?

11

W moim podejściu do problemu eksperymentuję z regresją krokową ze względu na różnorodność. Mam więc 2 pytania:

  1. Jakie są zalety regresji stopniowej? Jakie są jego szczególne zalety?

  2. Co sądzisz o podejściu hybrydowym, w którym używasz regresji krokowej, aby wybierać funkcje, a następnie stosujesz regresję regularną, biorąc wszystkie wybrane funkcje razem?

Baron Jugowicz
źródło

Odpowiedzi:

15

Podstawową zaletą regresji krokowej jest jej wydajność obliczeniowa. Jednak jego wydajność jest ogólnie gorsza niż metody alternatywne. Problem polega na tym, że jest zbyt chciwy. Dokonując trudnego wyboru następnego regresora i „zamrażając” wagę, dokonuje wyborów, które są lokalnie optymalne na każdym etapie, ale ogólnie nieoptymalne. I nie może wrócić do przeglądu swoich wcześniejszych wyborów.

O ile mi wiadomo, regresja krokowa ogólnie wypadła z faworyzowania w porównaniu z regulowaną l_1 (LASSO), która zwykle prowadzi do lepszych rozwiązań.l1

Tibshirani (1996) . Skurcz regresji i selekcja za pomocą Lasso

LASSO karze normę odważników, co indukuje rzadkość w roztworze (wiele odważników jest zmuszonych do zera). Dokonuje to wyboru zmiennych („odpowiednie” zmienne mogą mieć niezerowe wagi). Stopień rzadkości jest kontrolowany przez warunek karny i do jego wybrania należy zastosować pewną procedurę (powszechna jest weryfikacja krzyżowa). LASSO jest bardziej wymagający obliczeniowo niż regresja krokowa, ale istnieje wiele wydajnych algorytmów. Niektóre przykłady to regresja najmniejszego kąta ( LARS ) i podejście oparte na zniżaniu współrzędnych .l1

Podobne podejście do tego, co zasugerowałeś w (2), nazywa się dążeniem do dopasowania ortogonalnego. Jest to uogólnienie pogoni za dopasowaniem, które w literaturze poświęconej przetwarzaniu sygnałów to regresja krokowa.

Pati i in. (1993) . Pogoń za dopasowaniem ortogonalnym: aproksymacja funkcji rekurencyjnej z zastosowaniami do rozkładu falkowego

Przy każdej iteracji kolejny aktywny regressor jest dodawany do aktywnego zestawu. Następnie przeliczane są wagi wszystkich regresorów w aktywnym zestawie. Z powodu kroku zmiany wagi, to podejście jest mniej chciwe (i ma lepszą wydajność) niż regularne dopasowanie / regresja krokowa. Ale nadal stosuje chciwą heurystykę wyszukiwania.

Wszystkie te podejścia (regresja krokowa, LASSO i dążenie do dopasowania ortogonalnego) można traktować jako przybliżenia następującego problemu:

minwyXw22s.t. w0c

W kontekście regresji kolumny odpowiadają zmiennym niezależnym, a zmiennej zależnej. W przetwarzaniu sygnału kolumny odpowiadają funkcjom podstawowym, a jest sygnałem do przybliżenia. Celem jest znalezienie rzadkiego zestawu wag który daje najlepsze przybliżenie (najmniejszych kwadratów) . norma po prostu zlicza liczbę niezerowych wpisów w . Niestety ten problem jest trudny do przeprowadzenia w NP, dlatego w praktyce należy zastosować algorytmy aproksymacyjne. Regresja krokowa i dążenie do dopasowania ortogonalnego próbuje rozwiązać problem za pomocą chciwej strategii wyszukiwania. LASSO przeformułowuje problem za pomocą relaksacjiXyXywyl0wl0 norma do normy . W tym przypadku problem optymalizacji staje się wypukły (a zatem możliwy do rozwiązania). I chociaż problem nie jest już identyczny, rozwiązanie jest podobne. Jeśli dobrze pamiętam, udowodniono, że zarówno LASSO, jak i ortogonalne dążenie do dopasowania dokładnie odzyskuje rozwiązanie w określonych warunkach.l1

user20160
źródło
8

Wybór stopniowy nie jest na ogół dobrym pomysłem. Aby zrozumieć dlaczego, może pomóc ci przeczytać moją odpowiedź tutaj: Algorytmy automatycznego wyboru modelu .

Jeśli chodzi o zalety, w czasach, gdy przeszukiwanie wszystkich możliwych kombinacji funkcji było zbyt intensywne obliczeniowo, aby poradzić sobie z komputerami, stopniowe wybieranie oszczędzało czas i było wykonalne. Zauważ jednak, że problemy omówione w mojej powyższej połączonej odpowiedzi dotyczą tak samo regresji „najlepszego podzbioru”, więc krok po kroku nie daje dobrego rozwiązania, a jedynie złe rozwiązanie szybciej.

Twój pomysł na podejście hybrydowe byłby w porządku, o ile drugi model (z wybranymi funkcjami) został zamontowany w nowym zestawie danych .

gung - Przywróć Monikę
źródło
Jeśli chodzi o to, co OP nazwał „podejściem hybrydowym” (nie do końca wiadomo, dlaczego jest to hybryda), masz na myśli, że jest w porządku w tym sensie, że szacunki współczynników modelu dla drugiego nowego zestawu danych powinny być prawidłowe (choć stronnicze i problematyczne w przypadku oryginalne dane), o ile nowy zestaw danych jest wystarczająco duży? Byłby to oczywiście zły model, ponieważ został źle wybrany w pierwszym zbiorze danych, po prostu jego współczynniki zostałyby oszacowane w mniej problematycznym zbiorze danych.
Björn
Ponadto wciąż często niemożliwe jest przejrzenie wszystkich możliwych kombinacji, ponieważ liczba różnych zmiennych, o których dane mamy, rośnie nawet szybciej niż moc obliczeniowa, a ludzie mają coraz więcej pomysłów na to, co uwzględnić w swoich modelach.
Stephan Kolassa
Czytanie tego wątku nadal nie jest pomocne.
Mox
2

Właśnie przeszukałem wyszukiwarkę Google dotyczącą regresji krokowej. Nie jestem pewien, czy w pełni to rozumiem, ale oto moja pierwsza myśl

  • Jest chciwy, więc nie może dać dobrego rozwiązania, jak to robi Lasso. Wolę Lasso
  • Jest prosty, łatwy w użyciu, łatwy do kodowania
  • Po skorzystaniu z regresji krokowej już skończyłeś z wyszkolonym modelem, który korzysta z wybranych funkcji, więc nie musisz używać innego kroku regresji, jak wspomniano jako podejście hybrydowe
Angry Imbecile
źródło