Analiza współczynników regresji logistycznej

12

Oto lista współczynników regresji logistycznej (pierwszy to przechwycenie)

-1059.61966694592
-1.23890500515482
-8.57185269220438
-7.50413155570413
 0
 1.03152408392552
 1.19874787949191
-4.88083274930613
-5.77172565873336
-1.00610998453393

Dziwne wydaje mi się, że przecięcie jest tak niskie i mam współczynnik, który w rzeczywistości jest równy 0. Nie jestem w pełni pewien, jak bym to zinterpretował. Czy 0 wskazuje, że konkretna zmienna nie ma żadnego wpływu na model? Ale przecięcie dokonywane przez wprowadzenie kolumny jest nagle bardzo ważne? A może moje dane są po prostu badziewne i model nie jest w stanie odpowiednio do niego dopasować.

shiu6rewgu
źródło
2
Jaki jest zakres lub odchylenie standardowe innych zmiennych? Czy istnieje duża różnica między odchyleniem standardowym zmiennej o zerowym szacunku w porównaniu do innych? Można oczekiwać współczynnika zerowego, jeśli odchylenie standardowe jest małe w porównaniu z innymi (precyzja numeryczna). Również przechwytywanie w zasadzie oznacza, że ​​masz zmienne, które mają duże średnie (od zera). Wyśrodkowanie zmiennych dałoby bardziej zrozumiałe przechwytywanie i nie zmieni bety dla innych zmiennych (pomijając błąd algorytmu iteracyjnego).
Prawdopodobieństwo
1
Jeśli odejmiesz 1027 od wszystkich wartości szóstej zmiennej, twój punkt przecięcia byłby całkiem bliski 0. Czy to poprawiłoby ci samopoczucie? :-)
whuber
4
Wyświetlanie listy takich współczynników, bez żadnego kontekstu, prawdopodobnie mówi „Joe ma 31 lat, czy to nie dużo?” bez słowa 31 co . 31 samochodów? Dużo. 31 dzieci? Cholernie dużo! 31 dolarów? Niewiele.
Peter Flom - Przywróć Monikę
1
Odnośnie współczynnika zerowego: widziałem, że dzieje się to jako artefakt wstawiania wszystkich współczynników do XL przed wklejeniem ich tutaj - coś, co wydaje się zgodne z dużą liczbą miejsc dziesiętnych, które ogólnie widzimy. Być może jedna z tych komórek XL została ustawiona na zaokrąglenie do liczb całkowitych, co daje zero. Miałem takie rzeczy się zdarzają.
rolando2
Dziękujemy wszystkim za wkład! Naprawdę doceniam każdego z was! Odpowiedzi na wiele moich pytań
shiu6rewgu

Odpowiedzi:

16


logit=β0+β1x1+β2)x2)+...+βkxk
mi2,718281828
mi2)=7,389056
7,3890561+7,389056=0,880797

9,8×10-3050/(1+0)), ponownie daje nam 0. Tak więc, twój wynik mówi ci, że twoje zdarzenie (cokolwiek to jest) po prostu nie pojawia się, gdy wszystkie twoje zmienne są równe 0. Oczywiście zależy to od tego, o czym mówimy, ale nie uważam, że nic nadzwyczajnego to. Standardowe równanie regresji logistycznej (na przykład bez kwadratu) koniecznie zakłada, że ​​związek między zmienną towarzyszącą a prawdopodobieństwem sukcesu albo monotonicznie wzrasta, albo monotonicznie maleje. Oznacza to, że zawsze robi się coraz większy (lub coraz mniejszy), więc jeśli pójdziesz wystarczająco daleko w jednym kierunku, dojdziesz do liczb tak małych, że mój komputer nie może ich odróżnić od zera. To tylko natura bestii. Tak się składa, że ​​dla twojego modelu posunięcie się naprawdę daleko prowadzi do tego, gdzie twoje zmienne towarzyszące wynoszą 0.

Jeśli chodzi o współczynnik 0, oznacza to, że ta zmienna nie ma wpływu, jak sugerujesz. Jest całkiem uzasadnione, że zmienna nie będzie miała wpływu, jednak zasadniczo nigdy nie uzyskasz współczynnika dokładnie równego 0. Nie wiem, dlaczego tak się stało; komentarze oferują kilka możliwych sugestii. Mogę zaoferować inną, a mianowicie, że może nie być żadnej zmiany w tej zmiennej. Na przykład, jeśli masz zmienną kodującą płeć, ale tylko kobiety w Twojej próbie. Nie wiem, czy to jest prawdziwa odpowiedź (na przykład R zwraca NAw tym przypadku, ale oprogramowanie się różni) - to tylko kolejna sugestia.

gung - Przywróć Monikę
źródło
2
3067003)7-46010-460
10

Interpretacja przechwytywania

Możesz myśleć o regresji logistycznej jako o dawnym prawdopodobieństwie bycia „1”. Punkt przecięcia reprezentuje pierwszeństwo w kategoriach pochodzących z zestawu danych: w szczególności jest to empiryczna ocena log (p (Y = 1) / p (Y = 0), sama w sobie, gdy model ma tylko punkt przecięcia, dla przypadków w klasy „referencyjne”, gdy istnieją zmienne towarzyszące jakościowe, oraz w przypadkach, gdy zmienne towarzyszące mają ogólnie wartość 0 (ale mniej interpretacyjnie). Więc silnie ujemna liczba prawdopodobnie oznacza, że ​​„1” są rzadkie wśród przypadków w próbie charakteryzujących się mając wszystkie zmienne towarzyszące na 0. Ponownie, mogą nie być żadnych obserwacji, więc nie warto martwić się o wartość przechwytywania. Ta dyskusja jest dość jasna.

Z powodu tego poręcznego rozdzielenia obaw między parametrami, możesz poprawić nierównowagę kategorii, trenując na lepiej zrównoważonej próbce i tylko dostosowując intercept . Zobacz Króla i Zeng do gruntownej dyskusji.

sprzężonyprior
źródło
Link do „tej dyskusji” wydaje się umrzeć. Czy jest jakaś szansa na odzyskanie tego linku?
Alexey Grigorev
1
@ alexey-grigorev Zaktualizowałem link UCLA
conjugateprior
i zdobył opinię. Bardzo dziwne.
conjugateprior