Jakie metody są dostępne do wyboru predyktorów w wielowymiarowej regresji liniowej za pomocą odpowiednich predyktorów, aby znaleźć „optymalny” podzbiór predyktorów bez wyraźnego testowania wszystkich podzbiorów ? W „Applied Survival Analysis” Hosmer i Lemeshow odnoszą się do metody Kuka, ale nie mogę znaleźć oryginalnej pracy. Czy ktoś może opisać tę metodę, a nawet lepiej, bardziej nowoczesną technikę? Można założyć, że błędy są zwykle dystrybuowane.
9
penalized
pakietem R), j.mp/cooIT3 . Może ten też, j.mp/bkDQUj . PozdrawiamOdpowiedzi:
Nigdy nie słyszałem o metodzie Kuka, ale obecnie głównym tematem jest minimalizacja L1. Uzasadnieniem jest to, że jeśli zastosujesz karny warunek bezwzględnej wartości współczynników regresji, nieważne powinny zostać wyzerowane.
Techniki te mają zabawne nazwy: Lasso, LARS, selektor Dantzig. Możesz przeczytać artykuły, ale dobrym miejscem na początek są elementy uczenia statystycznego , rozdział 3.
źródło
To ogromny temat. Jak wcześniej wspomniano, Hastie, Tibshirani i Friedman dają dobre wprowadzenie do Ch3 elementów statystycznego uczenia się.
Kilka punktów. 1) Co rozumiesz przez „najlepszy” lub „optymalny”? To, co jest najlepsze w jednym sensie, może nie być najlepsze w innym. Dwa wspólne kryteria to dokładność predykcyjna (przewidywanie zmiennej wynikowej) i tworzenie obiektywnych estymatorów współczynników. Niektóre metody, takie jak regresja Lasso i Ridge'a, nieuchronnie generują tendencyjne estymatory współczynników.
2) Sformułowanie „najlepsze podzbiory” może być użyte w dwóch osobnych zmysłach. Ogólnie odnosi się do najlepszego podzbioru spośród wszystkich predyktorów, który optymalizuje niektóre kryteria budowy modelu. Dokładniej, może odnosić się do wydajnego algorytmu Furnival i Wilsona znajdowania tego podzbioru wśród umiarkowanych (~ 50) liczb predyktorów liniowych (Regresje według Leapsa i Bounds. Technometrics, tom 16, nr 4 (listopad 1974), str. 499–51)
http://www.jstor.org/stable/1267601
źródło
Nauczyłem się, że najpierw używam podejścia Best Subset Approach jako narzędzia do sprawdzania, a następnie procedury stopniowego wyboru mogą pomóc ci ostatecznie zdecydować, które modele mogą być najlepszymi modelami podzbiorów (w tej chwili liczba tych modeli jest dość niewielka do obsługi). Jeśli jeden z modeli spełnia warunki modelu, dobrze podsumowuje trend w danych i, co najważniejsze, pozwala odpowiedzieć na pytanie badawcze, to gratulacje.
źródło