Chciałbym zastosować dane zliczania jako zmienne towarzyszące przy dopasowaniu modelu regresji logistycznej. Moje pytanie brzmi:
- Czy naruszam jakiekolwiek założenie modeli logistycznych (a bardziej ogólnie uogólnionych modeli liniowych), stosując jako zmienne niezależne zliczające, nieujemne zmienne całkowite?
W literaturze znalazłem wiele odniesień dotyczących wykorzystania danych zliczających jako wyniku, ale nie jako zmiennych towarzyszących; patrz na przykład bardzo przejrzysty artykuł: „Uogólnione modele liniowe NE Breslow (1996): Sprawdzanie założeń i wniosków wzmacniających, Congresso Nazionale Societa Italiana di Biometria, Cortona czerwiec 1995”, dostępny na stronie http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf .
Luźno mówiąc, wydaje się, że założenia glm można wyrazić następująco:
- iid pozostałości;
- funkcja link musi poprawnie reprezentować związek między zmiennymi zależnymi i niezależnymi;
- brak wartości odstających
Czy wszyscy wiedzą, czy istnieje jakieś inne założenie / problem techniczny, który może sugerować użycie innego rodzaju modeli do radzenia sobie z współzmiennych hrabiowskich?
Na koniec zauważ, że moje dane zawierają stosunkowo niewiele próbek (<100) i że zakresy zmiennych zliczających mogą się zmieniać w zakresie 3-4 rzędów wielkości (tj. Niektóre zmienne mają wartość w zakresie 0-10, podczas gdy inne zmienne mogą mieć wartości w zakresie 0–10000).
Oto prosty przykładowy kod R:
\###########################################################
\#generating simulated data
var1 <- sample(0:10, 100, replace = TRUE);
var2 <- sample(0:1000, 100, replace = TRUE);
var3 <- sample(0:100000, 100, replace = TRUE);
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);
\#fitting the model
model <- glm(outcome ~ ., family=binomial, data = dataset)
\#inspecting the model
print(model)
\###########################################################
źródło
Odpowiedzi:
W grze występują pewne niuanse i mogą powodować pewne zamieszanie.
Oświadczasz , że rozumiesz, że założenia regresji logistycznej obejmują „ iid reszty ...”. Twierdziłbym, że nie jest to całkiem poprawne. Mówimy ogólnie o ogólnym modelu liniowym (tj. Regresji), ale w tym przypadku oznacza to, że reszty są od siebie niezależne, z tym samym rozkładem (zwykle normalnym) o tej samej średniej (0) i wariancji ( tj. stała wariancja: jednorodność wariancji / homoscedastyczność). Należy jednak pamiętać, że w przypadku rozkładu Bernoulliego i rozkładu dwumianowego, wariancja jest funkcją średniej. Zatem wariancja nie może być stała, chyba że zmienna towarzysząca nie będzie całkowicie niezwiązana z odpowiedzią. To założenie byłoby tak restrykcyjne, że uczyni regresję logistyczną bezwartościową. Pragnę zauważyć, że w streszczeniu cytowanego przez ciebie pdf zawiera listę założeń rozpoczynających się od „statystycznej niezależności obserwacji”, którą moglibyśmy nazwać
i-but-not-id
(nie mówiąc o tym zbyt uroczo).Następnie, jak zauważa @kjetilbhalvorsen w powyższym komentarzu , zakłada się, że wartości zmiennych towarzyszących (tj. Zmiennych niezależnych) są ustalone w Uogólnionym modelu liniowym. Oznacza to, że nie przyjęto żadnych szczególnych założeń dystrybucyjnych. Zatem nie ma znaczenia, czy są one liczone, czy też nie, ani jeśli mieszczą się w zakresie od 0 do 10, od 1 do 10000 lub od -3,1415927 do -2,718281828.
Należy jednak wziąć pod uwagę jedną rzecz, jak zauważa @whuber , jeśli masz niewielką liczbę danych, które są bardzo ekstremalne w jednym z wymiarów towarzyszących, te punkty mogą mieć duży wpływ na wyniki Twojej analizy. Oznacza to, że możesz uzyskać określony wynik tylko z powodu tych punktów. Jednym ze sposobów, aby o tym pomyśleć, jest przeprowadzenie analizy wrażliwości , dopasowując model zarówno do tych danych, jak i bez nich. Możesz uważać, że bezpieczniejsze lub bardziej odpowiednie jest porzucenie tych obserwacji, skorzystanie z jakiejś formy rzetelnej analizy statystycznej lub przekształcenie tych zmiennych towarzyszących, aby zminimalizować ekstremalną dźwignię, jaką miałyby te punkty. Nie scharakteryzowałbym tych rozważań jako „założeń”, ale z pewnością są one ważnymi rozważaniami przy opracowywaniu odpowiedniego modelu.
źródło
Jedną rzeczą, którą zdecydowanie sprawdzę, są właściwości dystrybucyjne twoich zmiennych niezależnych. Bardzo często w przypadku danych zliczania zobaczysz trochę umiarkowanego do silnego odchylenia w prawo. W takim przypadku prawdopodobnie będziesz chciał przekształcić swoje dane, ponieważ stracisz relację log-liniowa. Ale nie, użycie modelu logistycznego (lub innego GLM) jest w porządku.
źródło