Funkcje rankingowe w regresji logistycznej

Użyłem regresji logistycznej. Mam sześć funkcji, chcę poznać ważne cechy tego klasyfikatora, które wpływają na wynik bardziej niż inne cechy. Użyłem Information Gain, ale wygląda na to, że nie zależy to od zastosowanego klasyfikatora. Czy istnieje metoda uszeregowania cech według ich ważności na podstawie określonego klasyfikatora (np. Regresji logistycznej)? każda pomoc byłaby bardzo mile widziana.

logistic feature-selection ranking regression-strategies Niebieska dziewczyna
źródło

Regresja logistyczna nie jest klasyfikatorem. Proszę ponownie napisać pytanie, aby odzwierciedlić, że regresja logistyczna jest modelem bezpośredniego oszacowania prawdopodobieństwa.

Frank Harrell,

Pomijając kwestię podniesioną przez FrankHarrella, czy spojrzałeś na wartości

p

$p$ swoich szacowanych współczynników? Zdecydowanie nie jest to najlepszy sposób rankingu funkcji, ale może dać ci punkt wyjścia.

usεr11852

Jasne, regresja logistyczna polega na szacowaniu prawdopodobieństwa, a nie na jawnym klasyfikowaniu rzeczy, ale kogo to obchodzi? Celem jest często decyzja, która klasa jest najbardziej prawdopodobna, i nie ma nic złego w nazywaniu jej klasyfikatorem, jeśli do tego używasz.

dsaxton

Odpowiedzi:

Myślę, że odpowiedzią, której szukasz, może być algorytm Boruta . Jest to metoda otoki, która bezpośrednio mierzy znaczenie funkcji w sensie „wszystkie trafności” i jest zaimplementowana w pakiecie R , który wytwarza ładne wykresy, takie jak tam, gdzie ważność dowolnej cechy jest na osi y i jest porównywana z null narysowano tutaj na niebiesko. Ten post na blogu opisuje to podejście i polecam przeczytanie go jako bardzo przejrzystego wstępu.

czytnik babelproofreader
źródło

Niezła sugestia (+1). Myślę, że to trochę przesada w tej aplikacji, ale mimo to dobry dodatek. I na pewno docenią, że będzie to również zrobić w

sytuacjach. Czy znasz jakieś porównawcze badania przeglądowe, w których porównano je z innymi algorytmami klasyfikacji?

p >> n

$p >> n$

usεr11852

@ usεr11852 Nie, nie wiem. Właśnie zetknąłem się z tym sam w ciągu ostatniego tygodnia.

czytnik babelproof

Hmmm ... OK, Boruta wydaje się bardzo obiecujący, ale zawsze sceptycznie podchodzę do wspaniałych nowych algorytmów, dopóki nie zobaczę ich jako części większego badania i nie zobaczę przypadków, w których nie osiągają doskonałości ( brak twierdzenia o darmowym obiedzie ).

usεr11852

Ciekawy pomysł, ale nie związany z regresją logistyczną.

Frank Harrell

„Boruta to metoda wyboru funkcji, a nie metoda rankingu funkcji” Zobacz najczęściej zadawane pytania na stronie głównej pakietu

steadyfish

$R^2$ 3 ]. Innym popularnym podejściem jest uśrednianie zamówień (LMG, 1980) [ 2 ].

Nie ma zbyt dużej zgody co do tego, jak uszeregować zmienne pod kątem regresji logistycznej. Dobry przegląd tego tematu znajduje się w [ 1 ], opisuje on adaptacje technik regresji liniowej względnej ważności za pomocą Pseudo- do regresji logistycznej. $R^2$

Lista popularnych podejść do oceny znaczenia funkcji w modelach regresji logistycznej to:

Pseudo logistyczne korelacji częściowej (za pomocą pseudo- ) $R^2$
Adekwatność: proporcja pełnego prawdopodobieństwa logarytmu modelu, którą można wyjaśnić indywidualnie dla każdego predyktora
Zgodność: Wskazuje zdolność modelu do rozróżnienia między zmiennymi odpowiedzi pozytywnej i negatywnej. Dla każdego predyktora konstruowany jest osobny model, a ocena ważności jest przewidywanym prawdopodobieństwem prawdziwych wyników dodatnich na podstawie samego tego predyktora.
Wartość informacyjna: Wartości informacyjne określają ilościowo informację o wyniku uzyskaną z predyktora. Opiera się on na analizie kolejno każdego predyktora, bez uwzględnienia innych predyktorów.

Bibliografia:

Sandeep S. Sandhu
źródło

min_{w, b} \sum_{ja = 1}^{n} \log (1 + \exp (- y_{ja} {fa}_{w, b} (x_{ja}))) + λ {‖ w ‖}^{2)}

$\mathop {\min }\limits_{{\bf{w}},b} \sum\limits_{i = 1}^n {\log \left( {1 + \exp \left( { - {y_i}{f_{{\bf{w}},b}}({x_i})} \right)} \right) + \lambda {{\left\| {\bf{w}} \right\|}^2}}$

x_{i}

$x_i$

y_{i}

$y_i$

i

$i$

w

$\mathbf{w}$

b

$b$

f_{w, b} (x_{i})

${{f_{w,b}}({x_i})}$ . Ostatnim terminem w problemie minimalizacji jest termin regularyzacji, który między innymi kontroluje uogólnienie modelu.

$\mathbf{x}$ $\mathbf{x}$ , dość łatwo jest zobaczyć, które zmienne są ważniejsze: te, które są większe w stosunku do innych lub (po stronie ujemnej) mniejsze w stosunku do pozostałych. Najbardziej wpływają na stratę.

$\ell_1$

min_{w, b} \sum_{ja = 1}^{n} \log (1 + \exp (- y_{ja} {fa}_{w, b} (x_{ja}))) + λ | w |

$\mathop {\min }\limits_{{\bf{w}},b} \sum\limits_{i = 1}^n {\log \left( {1 + \exp \left( { - {y_i}{f_{{\bf{w}},b}}({x_i})} \right)} \right) + \lambda \left| {\bf{w}} \right|}$

$\lambda$ $\mathbf{w}$

Mam nadzieję, że to pomoże. Zapytaj, czy masz dodatkowe pytania.

pAt84
źródło

LR nie jest schematem klasyfikacyjnym. Każde użycie klasyfikacji jest etapem szacowania po zdefiniowaniu funkcji użyteczności / kosztu. Ponadto PO nie pytał o oszacowanie kar za maksymalne prawdopodobieństwo. Aby dostarczyć dowodów na względne znaczenie zmiennych w regresji, bardzo łatwo jest użyć bootstrapu, aby uzyskać limity ufności dla szeregu dodanych informacji predykcyjnych dostarczanych przez każdy predyktor. Przykład pojawia się w rozdziale 4 Strategii modelowania regresji, których notatki online i kod R są dostępne na stronie biostat.mc. vanderbilt.edu/RmS#Materials

Frank Harrell

Prof. Harrell, proszę. Oczywiste jest, że podchodzimy do tego z dwóch różnych stron. Ty od statystycznego, a ja od uczenia maszynowego. Szanuję cię, twoje badania i twoją karierę, ale masz bardzo swobodę w formułowaniu własnej odpowiedzi i pozwala PO zdecydować, która z nich będzie dla niego lepsza odpowiedź na jego pytanie. Chciałbym się uczyć, więc naucz mnie swojego podejścia, ale nie każ mi kupować twojej książki.

pAt84

Po prostu zauważę, że regresja logistyczna została opracowana przez statystę DR Coxa w 1958 r., Dekady przed istnieniem uczenia maszynowego. Należy również zauważyć, że sformułowana przez ciebie „funkcja straty” (być może lepiej nazywana funkcją celu?) Nie ma żadnego związku z klasyfikacją. A co sugerowało ci, że moje obszerne notatki i pliki audio dostępne online ze wszystkimi informacjami, o których wspomniałem, kosztują cokolwiek?

Frank Harrell,

Poparłem oba wstępne komentarze, ponieważ oba podnoszą ważne punkty. Późniejsze komentarze trochę jak drobna

kłótnia

PS Próbując znaleźć bardziej przejrzysty sposób na powiedzenie tego, optymalizacja przewidywania / szacowania prowadzi do optymalnych decyzji, ponieważ funkcja użyteczności jest stosowana w drugim etapie i może być niezwiązana z predyktorami. Optymalizacja prognozowania / szacowania nie optymalizuje klasyfikacji i na odwrót. Optymalizacja klasyfikacji polega na użyciu dziwnej funkcji narzędzia, która jest dostosowana do danego zestawu danych i może nie mieć zastosowania do nowych zestawów danych. Ludzie, którzy naprawdę chcą zoptymalizować klasyfikację (niezalecane), mogą zastosować metodę, która całkowicie pomija oszacowanie / prognozowanie.

Frank Harrell