Znaczenie zmiennych w regresji logistycznej

11

Prawdopodobnie mam do czynienia z problemem, który prawdopodobnie został rozwiązany sto razy wcześniej, ale nie jestem pewien, gdzie znaleźć odpowiedź.

Przy użyciu regresji logistycznej, biorąc pod uwagę wiele cech i próbując przewidzieć binarną wartość kategorialną y , jestem zainteresowany wyborem podzbioru cech, który dobrze prognozuje y .x1,...,xnyy

Czy można zastosować procedurę podobną do lasso? (Widziałem tylko lasso używane do regresji liniowej).

Czy spojrzenie na współczynniki dopasowanego modelu wskazuje na znaczenie różnych cech?

Edycja - wyjaśnienia po obejrzeniu niektórych odpowiedzi:

  1. Kiedy mówię o wielkości dopasowanych współczynników, mam na myśli te, które są dopasowane do znormalizowanych cech (średnia 0 i wariancja 1). W przeciwnym razie, jak wskazał @probabilityislogic, 1000x wydaje się mniej ważne niż x.

  2. Nie jestem zainteresowany po prostu znalezieniem najlepszego podzbioru k (jak oferował @Davide), ale raczej ważę znaczenie różnych funkcji względem siebie. Na przykład jedną cechą może być „wiek”, a drugą „wiek> 30”. Ich przyrostowe znaczenie może być niewielkie, ale oba mogą być ważne.

Guy Adini
źródło

Odpowiedzi:

8

Odpowiedź DWina oferuje odpowiedź, ale mało wglądu, więc pomyślałem, że użyteczne może być wyjaśnienie.

p=P(yi=1|X=xi)

logp1p=logP(yi=1|X=xi)P(yi=0|X=xi)=β0+β1Txi

jppxij

Po małej transformacji widać to

p=eβ0+β1Txi1+eβ0+β1Txi

Po obliczeniu pochodnej zobaczysz to

pxij=βjeβ0+β1Txi

Zależy to wyraźnie od wartości wszystkich innych zmiennych. Można jednak zauważyć, że ZNAK współczynnika można interpretować tak, jak chcesz: jeśli jest ujemny, wówczas ta funkcja zmniejsza prawdopodobieństwo p.

β

βr^=β^β^+λ

Jak widać, może to zmienić znak twojego współczynnika, więc nawet ta interpretacja się rozpadnie.

marcin_j
źródło
1
literówka w mianowniku eq1?
Fernando
7

Odpowiedź na twoje ostatnie pytanie brzmi: NIE. Wielkość współczynników nie jest w żaden sposób miarą ważności. Lasso można wykorzystać do regresji logistycznej. Musisz bardziej uważnie studiować ten obszar. Metody, które musisz studiować, obejmują metody „karane”. Jeśli szukasz metod wykrywania, które odkrywają „zaciemnione” predyktory, termin, który może być gdzieś zdefiniowany, ale nie jest powszechnie używany, musisz szukać metod, które sprawdzają interakcje i nieliniową strukturę w przestrzeni predyktora i powiązanie wyniku z tą przestrzenią. Dyskusja na temat tych zagadnień i metod znajduje się w tekście Franka Harrella „Strategie modelowania regresji”.

Strategia selekcji wstecznej nie przyniesie prawidłowych wyników (chociaż przynosi wyniki). Jeśli przyjrzysz się przypadkowi 20 losowych predyktorów dla 100 zdarzeń, prawdopodobnie znajdziesz 2 lub 3, które zostaną wybrane w procesie selekcji wstecznej. Występowanie wstecznego wyboru w świecie rzeczywistym odzwierciedla nie tyle staranne przemyślenia statystyczne, ale raczej jego łatwą dostępność w SAS i SPSS oraz brak wyrafinowania bazy użytkowników tych produktów. Baza użytkowników R ma trudniejszy dostęp do takich metod, a użytkownicy wysyłający żądania na listy mailingowe i SO zwykle otrzymują informacje o problemach związanych z metodami wyboru wstecznego (lub dalej).

DWin
źródło
1
Wiem, że powinienem - byłbym bardzo wdzięczny za pewne wskazówki, od czego zacząć.
Guy Adini
xn+1=1000x1xn+11000x1
Zobacz moje komentarze powyżej (przy użyciu znormalizowanych funkcji). Dzięki.
Guy Adini,
Dziękuję Ci. Zajrzę do tego. Czy potrafisz wymienić kilka typowych algorytmów używanych w tej „kontroli interakcji i struktury nieliniowej w przestrzeni predyktora”, czy też jest to sytuacja bardzo indywidualna?
Guy Adini
Można użyć splajnów regresji do wyszukiwania nieliniowości, a terminy splajnu można „przekroczyć”, co umożliwia identyfikację efektów, które są ograniczone do jednego regionu w przestrzeni predykcji 2D. Możesz także użyć lokalnych metod regresji. W R najczęściej używaną metodą regresji lokalnej jest prawdopodobnie pakiet „mgcv”, ale starszy pakiet „locfit” jest nadal dostępny.
DW
-4

Angielski nie jest moim językiem ojczystym, więc mogłem nie zrozumieć, na czym polega twój problem, ale jeśli chcesz znaleźć najlepszy model, możesz spróbować zastosować procedurę wsteczną (i ewentualnie dodać interakcje), zaczynając od modelu ze wszystkimi współzmiennymi. Następnie możesz spojrzeć zarówno na wartości residuals_vs_predicted, jak i na wykresy qq, aby sprawdzić, czy model dobrze opisuje twoje zjawisko

Davide
źródło
Dzięki! Myślę, że to, co sugerujesz, to stopniowe dodawanie najbardziej skorelowanej funkcji. Ma to sens, ale nie pomaga mi zrozumieć, „o ile” cecha A jest ważniejsza niż cecha B. Załóżmy na przykład, że mam jedną cechę x, a drugą cechę x + <mały szum>. Obie są w rzeczywistości przydatnymi funkcjami, ale jedna jest zasłonięta przez drugą. Chcę, aby metoda, która również pokazywałaby x + <hałas>, była ważna.
Guy Adini,
Nie, procedura wsteczna rozpoczyna się od modelu ze wszystkimi zmiennymi towarzyszącymi, a następnie usuwa kolejno zmienną towarzyszącą (której współczynnik nie jest znaczący) krok po kroku (dopóki zwykle nie będzie modelu z tylko istotnymi współczynnikami). Sądzę, że istnieją bardziej wyrafinowane sposoby osiągnięcia tego samego celu, ale jestem tylko studentem studiów licencjackich!
Davide,