Oto lista współczynników regresji logistycznej (pierwszy to przechwycenie)
-1059.61966694592
-1.23890500515482
-8.57185269220438
-7.50413155570413
0
1.03152408392552
1.19874787949191
-4.88083274930613
-5.77172565873336
-1.00610998453393
Dziwne wydaje mi się, że przecięcie jest tak niskie i mam współczynnik, który w rzeczywistości jest równy 0. Nie jestem w pełni pewien, jak bym to zinterpretował. Czy 0 wskazuje, że konkretna zmienna nie ma żadnego wpływu na model? Ale przecięcie dokonywane przez wprowadzenie kolumny jest nagle bardzo ważne? A może moje dane są po prostu badziewne i model nie jest w stanie odpowiednio do niego dopasować.
regression
logistic
shiu6rewgu
źródło
źródło
Odpowiedzi:
Jeśli chodzi o współczynnik 0, oznacza to, że ta zmienna nie ma wpływu, jak sugerujesz. Jest całkiem uzasadnione, że zmienna nie będzie miała wpływu, jednak zasadniczo nigdy nie uzyskasz współczynnika dokładnie równego 0. Nie wiem, dlaczego tak się stało; komentarze oferują kilka możliwych sugestii. Mogę zaoferować inną, a mianowicie, że może nie być żadnej zmiany w tej zmiennej. Na przykład, jeśli masz zmienną kodującą płeć, ale tylko kobiety w Twojej próbie. Nie wiem, czy to jest prawdziwa odpowiedź (na przykład R zwraca
NA
w tym przypadku, ale oprogramowanie się różni) - to tylko kolejna sugestia.źródło
Interpretacja przechwytywania
Możesz myśleć o regresji logistycznej jako o dawnym prawdopodobieństwie bycia „1”. Punkt przecięcia reprezentuje pierwszeństwo w kategoriach pochodzących z zestawu danych: w szczególności jest to empiryczna ocena log (p (Y = 1) / p (Y = 0), sama w sobie, gdy model ma tylko punkt przecięcia, dla przypadków w klasy „referencyjne”, gdy istnieją zmienne towarzyszące jakościowe, oraz w przypadkach, gdy zmienne towarzyszące mają ogólnie wartość 0 (ale mniej interpretacyjnie). Więc silnie ujemna liczba prawdopodobnie oznacza, że „1” są rzadkie wśród przypadków w próbie charakteryzujących się mając wszystkie zmienne towarzyszące na 0. Ponownie, mogą nie być żadnych obserwacji, więc nie warto martwić się o wartość przechwytywania. Ta dyskusja jest dość jasna.
Z powodu tego poręcznego rozdzielenia obaw między parametrami, możesz poprawić nierównowagę kategorii, trenując na lepiej zrównoważonej próbce i tylko dostosowując intercept . Zobacz Króla i Zeng do gruntownej dyskusji.
źródło