Podczas mojej lekcji uczenia maszynowego dowiedzieliśmy się, jak regresja LASSO jest bardzo dobra w wykonywaniu wyboru funkcji, ponieważ wykorzystuje regulację .
Moje pytanie: czy ludzie zwykle używają modelu LASSO tylko do dokonywania wyboru funkcji (a następnie kontynuują zrzucanie tych funkcji do innego modelu uczenia maszynowego), czy zwykle używają LASSO do wykonania zarówno wyboru funkcji, jak i faktycznej regresji?
Załóżmy na przykład, że chcesz wykonać regresję grzbietu, ale uważasz, że wiele z twoich funkcji nie jest zbyt dobrych. Czy rozsądnie byłoby uruchomić LASSO, wziąć tylko te funkcje, które nie są prawie zerowane przez algorytm, a następnie użyć tylko tych, aby zrzucić dane do modelu regresji grzbietu? W ten sposób zyskujesz celu dokonania wyboru funkcji, ale także celu zmniejszenia nadmiernego dopasowania. (Wiem, że to w zasadzie oznacza regresję elastycznej sieci, ale wygląda na to, że nie musisz mieć zarówno i w funkcji celu regresji końcowej.)l 2 l 1 l 2
Czy oprócz regresji jest to mądra strategia podczas wykonywania zadań klasyfikacyjnych (przy użyciu maszyn SVM, sieci neuronowych, losowych lasów itp.)?
Odpowiedzi:
Prawie każde podejście, które dokonuje jakiejś formy wyboru modelu, a następnie przeprowadza dalsze analizy, tak jakby wcześniej nie dokonano wyboru modelu, zwykle ma niewielkie proporcje. O ile nie istnieją przekonujące argumenty teoretyczne poparte dowodami z np. Obszernych badań symulacyjnych dla realistycznych rozmiarów próbek i proporcji cech w stosunku do wielkości próby w celu wykazania, że jest to wyjątek, prawdopodobne jest, że takie podejście będzie miało niezadowalające właściwości. Nie znam żadnych takich pozytywnych dowodów na to podejście, ale może ktoś inny. Biorąc pod uwagę, że istnieją rozsądne alternatywy, które pozwalają osiągnąć wszystkie pożądane cele (np. Elastyczna siatka), takie podejście jest trudne do uzasadnienia za pomocą takiego podejrzanego podejścia ad hoc.
źródło
Oprócz wszystkich powyższych odpowiedzi: Możliwe jest obliczenie dokładnego testu permutacji chi2 dla tabel 2x2 i rxc. Zamiast porównywać naszą obserwowaną wartość statystyki chi-kwadrat z asymptotycznym rozkładem chi-kwadrat, musimy porównać go z dokładnym rozkładem permutacji. Musimy permutować nasze dane na wszystkie możliwe sposoby, utrzymując stały margines wiersza i kolumny. Dla każdego permutowanego zestawu danych obliczyliśmy statystyki chi2. Następnie porównujemy nasze zaobserwowane chi2 ze (posortowanymi) statystykami chi2 Ranking rzeczywistej statystyki testu wśród permutowanych statystyk testu chi2 daje wartość p.
źródło