Jak obliczyć względne znaczenie zmiennej w regresji logistycznej w kategoriach p?

11

Załóżmy, że model regresji logistycznej służy do przewidywania, czy kupujący online kupi produkt (wynik: zakup) po kliknięciu zestawu reklam online (predyktory: Ad1, Ad2 i Ad3).

Wynikiem jest zmienna binarna: 1 (zakupiona) lub 0 (nie zebrana). Predyktory są również zmiennymi binarnymi: 1 (kliknięte) lub 0 (nie kliknięte). Więc wszystkie zmienne są w tej samej skali.

Jeśli wynikowe współczynniki Ad1, Ad2 i Ad3 wynoszą 0,1, 0,2 i 03, możemy stwierdzić, że Ad3 jest ważniejszy niż Ad2, a Ad2 jest ważniejszy niż Ad1. Ponadto, ponieważ wszystkie zmienne są w tej samej skali, znormalizowane i niestandaryzowane współczynniki powinny być takie same, i możemy dalej stwierdzić, że Ad2 jest dwa razy ważniejszy niż Ad1 pod względem jego wpływu na poziom logit (log-odds).

Ale w praktyce bardziej zależy nam na tym, jak porównać i zinterpretować względną ważność zmiennych pod względem poziomu p (prawdopodobieństwo zakupu), a nie logit (log-odds).

Zatem pytanie brzmi: czy istnieje jakieś podejście do kwantyfikacji względnej ważności tych zmiennych w kategoriach p?

xyhzc
źródło
Uznałem ten artykuł za przydatny. Opisuje dobrze sześć różnych metod, których można użyć do zdefiniowania ważności predyktora z modelu regresji logistycznej wraz z rekwizytami i wadami związanymi z każdą metodą.
gchaks

Odpowiedzi:

5

W przypadku modeli liniowych można użyć wartości bezwzględnej statystyki t dla każdego parametru modelu.

Możesz także użyć czegoś takiego jak losowy las i uzyskać bardzo ładną listę ważnych funkcji.

Jeśli używasz R sprawdź ( http://caret.r-forge.r-project.org/varimp.html ), jeśli używasz Pythona ( http://scikit-learn.org/stable/auto_examples /ensemble/plot_forest_importances.html#example-ensemble-plot-forest-importances-py )

EDYTOWAĆ:

Ponieważ logit nie ma na to bezpośredniego sposobu, możesz użyć krzywej ROC dla każdego predyktora.

Do klasyfikacji, analiza krzywej ROC jest przeprowadzana na każdym predyktorze. W przypadku problemów z dwiema klasami do danych predyktora stosowana jest seria wartości odcięcia w celu przewidzenia klasy. Czułość i swoistość są obliczane dla każdego punktu odcięcia i obliczana jest krzywa ROC. Reguła trapezoidalna służy do obliczania pola powierzchni pod krzywą ROC. Obszar ten służy jako miara o różnym znaczeniu

Przykładem tego, jak to działa w R, jest:

library(caret)
mydata <- data.frame(y = c(1,0,0,0,1,1),
                 x1 = c(1,1,0,1,0,0),
                 x2 = c(1,1,1,0,0,1),
                 x3 = c(1,0,1,1,0,0))

fit <- glm(y~x1+x2+x3,data=mydata,family=binomial())
summary(fit)

varImp(fit, scale = FALSE)
mike1886
źródło
1
Dzięki za odpowiedź! tak, jest to łatwe dla modelu liniowego i losowego lasu, czy masz jakiś pomysł, jak to zrobić w przypadku regresji logistycznej? Wielkie dzięki!
xyhzc
Zobacz edycję powyżej.
mike1886,
Wydaje się, że wciąż nie ma odpowiedzi na pytanie dotyczące porównań na poziomie stosunku. Nawet jeśli wiemy, że AUC, powiedzmy, .6 używa tylko x1, a .9 używa tylko x2, nie możemy powiedzieć, że ważność x2 jest zatem o 50% większa. Myślę też, że nie jest (1 - 10% / 40%) = 75% większy. Nie możemy też zrobić czegoś analogicznego, używając tylko czułości lub tylko specyficzności. Mam również wątpliwości co do zastosowania statystyki Walda tutaj. Najbardziej pomocne mogą być wyjaśnienia znormalizowanych współczynników (patrz książka online Scotta Menarda).
rolando2
Dzięki rolando2! Wszystkie zmienne w tym pytaniu są miarami w tych samych metrykach, więc standardowe i niestandaryzowane współczynniki powinny być takie same. Co więcej, chociaż możemy użyć znormalizowanych współczynników do porównania zmiennych na poziomie logit (log-odds), jak możemy interpretować zmienne na P (w tym przypadku prawdopodobieństwo zakupu przez kupujących online)? wielkie dzięki!
xyhzc
1
Nie widzę odpowiedzi na pytanie.
HelloWorld,
4

Ponieważ konkretnie prosiłeś o interpretację na skali prawdopodobieństwa: w regresji logistycznej szacunkowe prawdopodobieństwo sukcesu podaje:

π^(x)=mixp(β0+βx)1+mixp(β0+βx)

β0βx

mixp(0,1)1+mixp(0,1)=0,52

Osoba, która kliknęła tylko reklamę 3:

mixp(0,3)1+mixp(0,3)=0,57

Jednak jeśli dana osoba kliknęła reklamę 1 lub reklamę 3, ale także reklamę 2 (jeśli jest to scenariusz „plaasubile”), prawdopodobieństwo

mixp(0,1+0.2)1+mixp(0,1+0.2)=0,57

mixp(0,3+0.2)1+mixp(0,3+0.2)=0,62

W tym przypadku zmiana prawdopodobieństwa wynosi zarówno 0,05, ale zwykle ta zmiana nie jest taka sama dla różnych kombinacji poziomów. (Możesz to łatwo zobaczyć, jeśli np. Zastosujesz to samo podejście, co powyżej, ale ze współczynnikami 0,1, 1,5, 0,3.) Tak więc znaczenie zmiennej na skali prawdopodobieństwa zależy od obserwowanych poziomów innych zmiennych. Może to utrudnić (niemożliwe?) Wymyślenie bezwzględnej, ilościowej miary istotności zmiennej w skali prawdopodobieństwa.

Matt.135
źródło
Dziękuję za wyjaśnienie! Czy wiesz, czy istnieje jakakolwiek pośrednia metoda oceny względnej ważności predyktorów? mike1886 wspomniał w swojej odpowiedzi o „analizie krzywej ROC”, ale ma pewne problemy, o których wspomniał rolando2. Wielkie dzięki!
xyhzc