Więc pracuję z modelami regresji logistycznej w R. Chociaż wciąż jestem nowy w statystyce, wydaje mi się, że do tej pory zrozumiałem trochę modeli regresji, ale wciąż coś mnie niepokoi:
Patrząc na połączone zdjęcie, widać podsumowanie wydruków R dla przykładowego modelu, który stworzyłem. Model próbuje przewidzieć, czy wiadomość e-mail w zestawie danych zostanie odrzucona, czy nie (zmienna binarna isRefound
), a zestaw danych zawiera dwie zmienne ściśle ze sobą powiązane isRefound
, a mianowicie next24
i next7days
- są one również binarne i określają, czy wiadomość zostanie kliknięta w następnym 24 godziny / kolejne 7 dni od bieżącego punktu w logach.
Wysoka wartość p powinna wskazywać, że wpływ tej zmiennej na prognozę modelu jest dość przypadkowy, prawda? Na tej podstawie nie rozumiem, dlaczego precyzja prognoz modeli spada poniżej 10%, gdy te dwie zmienne są pominięte w formule obliczeniowej. Jeśli zmienne te wykazują tak małe znaczenie, dlaczego usunięcie ich z modelu ma tak duży wpływ?
Z pozdrowieniami i z góry dziękuję, Rickyfox
EDYTOWAĆ:
Najpierw usunąłem dopiero next24, co powinno dać niewielki wpływ, ponieważ jego cefka jest dość mała. Zgodnie z oczekiwaniami, niewiele się zmieniło - nie wrzucę do tego zdjęcia.
Usunięcie następnych 7 dni miało duży wpływ na model: AIC 200k w górę, precyzja do 16% i wycofanie do 73%
źródło
isRefound ~ day + next24
i pomijasz wszystkie pozostałe zmienne?Odpowiedzi:
Zasadniczo wygląda na to, że masz problem z wielokoliniowością. Istnieje wiele materiałów na ten temat, poczynając od tej strony internetowej lub na Wikipedii.
W skrócie, dwa predyktory wydają się być rzeczywiście powiązane z twoim wynikiem, ale prawdopodobnie są one również silnie skorelowane ze sobą (zauważ, że przy więcej niż dwóch zmiennych nadal można mieć problemy z wielokoliniowością bez silnych korelacji dwuwariantowych). Ma to oczywiście sens: wszystkie e-maile kliknięte w ciągu 24 godzin zostały również kliknięte w ciągu 7 dni (z definicji), a większość e-maili prawdopodobnie wcale nie została kliknięta (nie w ciągu 24 godzin i nie w ciągu 7 dni).
Jednym ze sposobów, w jaki pokazuje to przedstawione wyniki, są niewiarygodnie duże standardowe błędy / CI dla odpowiednich współczynników (sądząc po tym, że używasz bigglm i że nawet małe współczynniki są bardzo znaczące, wydaje się, że twoja próbka powinna być więcej niż wystarczająca aby uzyskać dobre szacunki). Inne rzeczy, które możesz zrobić, aby wykryć tego typu problemy: spójrz na korelacje par, usuń tylko jedną z podejrzanych zmiennych (jak sugeruje @Nick Sabbe), przetestuj istotność obu zmiennych łącznie.
Mówiąc bardziej ogólnie, wysokie wartości p nie oznaczają, że efekt jest niewielki lub losowy, a jedynie to, że nie ma dowodów na to, że współczynnik jest różny od 0. Może być również bardzo duży, po prostu nie wiesz (albo dlatego, że próbka rozmiar jest zbyt mały lub ponieważ występuje inny problem z modelem).
źródło