Prawdopodobnie mam do czynienia z problemem, który prawdopodobnie został rozwiązany sto razy wcześniej, ale nie jestem pewien, gdzie znaleźć odpowiedź.
Przy użyciu regresji logistycznej, biorąc pod uwagę wiele cech i próbując przewidzieć binarną wartość kategorialną y , jestem zainteresowany wyborem podzbioru cech, który dobrze prognozuje y .
Czy można zastosować procedurę podobną do lasso? (Widziałem tylko lasso używane do regresji liniowej).
Czy spojrzenie na współczynniki dopasowanego modelu wskazuje na znaczenie różnych cech?
Edycja - wyjaśnienia po obejrzeniu niektórych odpowiedzi:
Kiedy mówię o wielkości dopasowanych współczynników, mam na myśli te, które są dopasowane do znormalizowanych cech (średnia 0 i wariancja 1). W przeciwnym razie, jak wskazał @probabilityislogic, 1000x wydaje się mniej ważne niż x.
Nie jestem zainteresowany po prostu znalezieniem najlepszego podzbioru k (jak oferował @Davide), ale raczej ważę znaczenie różnych funkcji względem siebie. Na przykład jedną cechą może być „wiek”, a drugą „wiek> 30”. Ich przyrostowe znaczenie może być niewielkie, ale oba mogą być ważne.
źródło
Odpowiedź na twoje ostatnie pytanie brzmi: NIE. Wielkość współczynników nie jest w żaden sposób miarą ważności. Lasso można wykorzystać do regresji logistycznej. Musisz bardziej uważnie studiować ten obszar. Metody, które musisz studiować, obejmują metody „karane”. Jeśli szukasz metod wykrywania, które odkrywają „zaciemnione” predyktory, termin, który może być gdzieś zdefiniowany, ale nie jest powszechnie używany, musisz szukać metod, które sprawdzają interakcje i nieliniową strukturę w przestrzeni predyktora i powiązanie wyniku z tą przestrzenią. Dyskusja na temat tych zagadnień i metod znajduje się w tekście Franka Harrella „Strategie modelowania regresji”.
Strategia selekcji wstecznej nie przyniesie prawidłowych wyników (chociaż przynosi wyniki). Jeśli przyjrzysz się przypadkowi 20 losowych predyktorów dla 100 zdarzeń, prawdopodobnie znajdziesz 2 lub 3, które zostaną wybrane w procesie selekcji wstecznej. Występowanie wstecznego wyboru w świecie rzeczywistym odzwierciedla nie tyle staranne przemyślenia statystyczne, ale raczej jego łatwą dostępność w SAS i SPSS oraz brak wyrafinowania bazy użytkowników tych produktów. Baza użytkowników R ma trudniejszy dostęp do takich metod, a użytkownicy wysyłający żądania na listy mailingowe i SO zwykle otrzymują informacje o problemach związanych z metodami wyboru wstecznego (lub dalej).
źródło
Angielski nie jest moim językiem ojczystym, więc mogłem nie zrozumieć, na czym polega twój problem, ale jeśli chcesz znaleźć najlepszy model, możesz spróbować zastosować procedurę wsteczną (i ewentualnie dodać interakcje), zaczynając od modelu ze wszystkimi współzmiennymi. Następnie możesz spojrzeć zarówno na wartości residuals_vs_predicted, jak i na wykresy qq, aby sprawdzić, czy model dobrze opisuje twoje zjawisko
źródło