Obliczanie najlepszego podzbioru predyktorów dla regresji liniowej

9

Jakie metody są dostępne do wyboru predyktorów w wielowymiarowej regresji liniowej za pomocą odpowiednich predyktorów, aby znaleźć „optymalny” podzbiór predyktorów bez wyraźnego testowania wszystkich podzbiorów ? W „Applied Survival Analysis” Hosmer i Lemeshow odnoszą się do metody Kuka, ale nie mogę znaleźć oryginalnej pracy. Czy ktoś może opisać tę metodę, a nawet lepiej, bardziej nowoczesną technikę? Można założyć, że błędy są zwykle dystrybuowane.p2p

shabbychef
źródło
1
Czy odnosisz się do następującego artykułu? Kuk, AYC (1984) Regresja wszystkich podzbiorów w modelu proporcjonalnego ryzyka. Biometrika, 71, 587-592
chl
w rzeczy samej. Chyba będę musiał jakoś wykopać ten papier. Wydaje się jednak stary.
shabbychef
2
W międzyczasie znajdź ten artykuł, Metoda lasso do wyboru zmiennych w modelu Coxa, od Tibshirani (Stat. Med. 1997 16: 385-395), j.mp/bw0mB9 . HTH
chl.
1
i ten nowszy (ściśle powiązany z penalizedpakietem R), j.mp/cooIT3 . Może ten też, j.mp/bkDQUj . Pozdrawiam
chl.

Odpowiedzi:

12

Nigdy nie słyszałem o metodzie Kuka, ale obecnie głównym tematem jest minimalizacja L1. Uzasadnieniem jest to, że jeśli zastosujesz karny warunek bezwzględnej wartości współczynników regresji, nieważne powinny zostać wyzerowane.

Techniki te mają zabawne nazwy: Lasso, LARS, selektor Dantzig. Możesz przeczytać artykuły, ale dobrym miejscem na początek są elementy uczenia statystycznego , rozdział 3.

Simon Byrne
źródło
2
BTW, penalizowany pakiet R ( j.mp/bdQ0Rp ) zawiera oszacowanie penalizowane l1 / l2 dla uogólnionych modeli liniowych i Coxa.
chl
utknąłem w ziemi Matlaba, sam ją wdrażając ...
shabbychef
LARS jest świetny, BTW. bardzo fajne rzeczy. nie jestem pewien, jak mogę wcisnąć go w ramy modelu Cox Proportional Hazards, choć ...
shabbychef
2
Oprogramowanie Glmnet ma model Lasso'd Cox PH: cran.r-project.org/web/packages/glmnet/index.html istnieje również wersja MATLAB (choć nie jestem pewien, czy model Cox): www-stat .stanford.edu / ~ tibs / glmnet-matlab
Simon Byrne
3

To ogromny temat. Jak wcześniej wspomniano, Hastie, Tibshirani i Friedman dają dobre wprowadzenie do Ch3 elementów statystycznego uczenia się.

Kilka punktów. 1) Co rozumiesz przez „najlepszy” lub „optymalny”? To, co jest najlepsze w jednym sensie, może nie być najlepsze w innym. Dwa wspólne kryteria to dokładność predykcyjna (przewidywanie zmiennej wynikowej) i tworzenie obiektywnych estymatorów współczynników. Niektóre metody, takie jak regresja Lasso i Ridge'a, nieuchronnie generują tendencyjne estymatory współczynników.

2) Sformułowanie „najlepsze podzbiory” może być użyte w dwóch osobnych zmysłach. Ogólnie odnosi się do najlepszego podzbioru spośród wszystkich predyktorów, który optymalizuje niektóre kryteria budowy modelu. Dokładniej, może odnosić się do wydajnego algorytmu Furnival i Wilsona znajdowania tego podzbioru wśród umiarkowanych (~ 50) liczb predyktorów liniowych (Regresje według Leapsa i Bounds. Technometrics, tom 16, nr 4 (listopad 1974), str. 499–51)

http://www.jstor.org/stable/1267601

Thylacoleo
źródło
1) tak, pytanie jest nieco dwuznaczne; istnieje, jak wspomniałeś, wiele definicji „optymalnych”: poprzez kryterium informacyjne, walidację krzyżową itp. Większość podejść heurystycznych, jakie widziałem w tym problemie, polega na dodawaniu / usuwaniu predyktora krokowego: dodawanie lub odejmowanie z wyprzedzeniem, itd. Jednak Hosmer i Lemeshow odnoszą się do tej metody (wariant pracy Lawlessa i Singhala), która w jakiś sposób „magicznie” wybiera predyktory na podstawie pojedynczego obliczenia MLR (modulo kilka innych rzeczy). Jestem bardzo ciekawy tej metody ...
shabbychef
0

Nauczyłem się, że najpierw używam podejścia Best Subset Approach jako narzędzia do sprawdzania, a następnie procedury stopniowego wyboru mogą pomóc ci ostatecznie zdecydować, które modele mogą być najlepszymi modelami podzbiorów (w tej chwili liczba tych modeli jest dość niewielka do obsługi). Jeśli jeden z modeli spełnia warunki modelu, dobrze podsumowuje trend w danych i, co najważniejsze, pozwala odpowiedzieć na pytanie badawcze, to gratulacje.

Rosie Luo
źródło
1
Myślę, że źle to pamiętasz. Najlepsze podzbiory są znacznie bardziej kosztowne obliczeniowo niż krokowe, ale koniecznie łapałyby wszystko krok po kroku, więc krok po kroku używasz do sprawdzania i najlepszych podzbiorów. FWIW, nie zgadzam się z naiwnym stosowaniem tych strategii, z powodów, które omawiam w mojej odpowiedzi tutaj: algorytmy automatycznego wyboru modelu .
gung - Przywróć Monikę