Czy używanie danych zliczania jako zmiennej niezależnej narusza którekolwiek z założeń GLM?

14

Chciałbym zastosować dane zliczania jako zmienne towarzyszące przy dopasowaniu modelu regresji logistycznej. Moje pytanie brzmi:

  • Czy naruszam jakiekolwiek założenie modeli logistycznych (a bardziej ogólnie uogólnionych modeli liniowych), stosując jako zmienne niezależne zliczające, nieujemne zmienne całkowite?

W literaturze znalazłem wiele odniesień dotyczących wykorzystania danych zliczających jako wyniku, ale nie jako zmiennych towarzyszących; patrz na przykład bardzo przejrzysty artykuł: „Uogólnione modele liniowe NE Breslow (1996): Sprawdzanie założeń i wniosków wzmacniających, Congresso Nazionale Societa Italiana di Biometria, Cortona czerwiec 1995”, dostępny na stronie http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf .

Luźno mówiąc, wydaje się, że założenia glm można wyrazić następująco:

  • iid pozostałości;
  • funkcja link musi poprawnie reprezentować związek między zmiennymi zależnymi i niezależnymi;
  • brak wartości odstających

Czy wszyscy wiedzą, czy istnieje jakieś inne założenie / problem techniczny, który może sugerować użycie innego rodzaju modeli do radzenia sobie z współzmiennych hrabiowskich?

Na koniec zauważ, że moje dane zawierają stosunkowo niewiele próbek (<100) i że zakresy zmiennych zliczających mogą się zmieniać w zakresie 3-4 rzędów wielkości (tj. Niektóre zmienne mają wartość w zakresie 0-10, podczas gdy inne zmienne mogą mieć wartości w zakresie 0–10000).

Oto prosty przykładowy kod R:

\###########################################################

\#generating simulated data

var1 <- sample(0:10, 100, replace = TRUE);    
var2 <- sample(0:1000, 100, replace = TRUE);    
var3 <- sample(0:100000, 100, replace = TRUE);    
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);

\#fitting the model

model <- glm(outcome ~ ., family=binomial, data = dataset)

\#inspecting the model

print(model)

\###########################################################
Vincenzo Lagani
źródło
Witamy na stronie! Jedna uwaga: jeśli chcesz podpisywać swoje posty, użyj swojego profilu (zwłaszcza pola „O mnie”).
11
zwykle w modelach GLM zmienne predykcyjne („niezależne”) powinny być tylko znanymi stałymi, nie ma żadnych założeń dystrybucyjnych! Nie ma więc nic złego w korzystaniu z danych zliczających jako predyktorów.
kjetil b halvorsen
1
kjetil To prawda - i dobra odpowiedź na pytanie. Jednak przy opisanych tutaj ekstremalnych zakresach wartości IV rozsądnie byłoby ocenić wpływ danych, sprawdzić poprawność dopasowania, a zwłaszcza ocenić potencjał nieliniowej zależności. Odbyłoby się to w nadziei, że związek faktycznie jest nieliniowy i że ponowne wyrażenie IV, takie jak pierwiastek lub log, zlinearyzuje je, tym samym łagodząc niektóre problemy z wpływem. Prawdopodobnie właśnie to @ user14583 próbuje wskazać w swojej odpowiedzi.
whuber
@kjetilbhalvorsen - Zgadzam się z „brakiem założeń dystrybucyjnych”, ale nie sądzę, żebyś chciał powiedzieć „znane” lub „stałe”, ponieważ żadne z tych słów nie pasuje.
rolando2
4
Są to „stałe” w tym sensie, że nie są losowe: brak rozkładu. Są one „znane” w tym sensie, że zakłada się, że są mierzone bezbłędnie, więc zmierzona wartość jest tą, która faktycznie działała w mechanizmie generowania danych. Model GLM zakłada, że ​​cała przypadkowość tkwi w mechanizmie odpowiedzi, co jest często wątpliwe!
kjetil b halvorsen

Odpowiedzi:

5

W grze występują pewne niuanse i mogą powodować pewne zamieszanie.

Oświadczasz , że rozumiesz, że założenia regresji logistycznej obejmują „ iid reszty ...”. Twierdziłbym, że nie jest to całkiem poprawne. Mówimy ogólnie o ogólnym modelu liniowym (tj. Regresji), ale w tym przypadku oznacza to, że reszty są od siebie niezależne, z tym samym rozkładem (zwykle normalnym) o tej samej średniej (0) i wariancji ( tj. stała wariancja: jednorodność wariancji / homoscedastyczność). Należy jednak pamiętać, że w przypadku rozkładu Bernoulliego i rozkładu dwumianowego, wariancja jest funkcją średniej. Zatem wariancja nie może być stała, chyba że zmienna towarzysząca nie będzie całkowicie niezwiązana z odpowiedzią. To założenie byłoby tak restrykcyjne, że uczyni regresję logistyczną bezwartościową. Pragnę zauważyć, że w streszczeniu cytowanego przez ciebie pdf zawiera listę założeń rozpoczynających się od „statystycznej niezależności obserwacji”, którą moglibyśmy nazwać i-but-not-id(nie mówiąc o tym zbyt uroczo).

Następnie, jak zauważa @kjetilbhalvorsen w powyższym komentarzu , zakłada się, że wartości zmiennych towarzyszących (tj. Zmiennych niezależnych) są ustalone w Uogólnionym modelu liniowym. Oznacza to, że nie przyjęto żadnych szczególnych założeń dystrybucyjnych. Zatem nie ma znaczenia, czy są one liczone, czy też nie, ani jeśli mieszczą się w zakresie od 0 do 10, od 1 do 10000 lub od -3,1415927 do -2,718281828.

Należy jednak wziąć pod uwagę jedną rzecz, jak zauważa @whuber , jeśli masz niewielką liczbę danych, które są bardzo ekstremalne w jednym z wymiarów towarzyszących, te punkty mogą mieć duży wpływ na wyniki Twojej analizy. Oznacza to, że możesz uzyskać określony wynik tylko z powodu tych punktów. Jednym ze sposobów, aby o tym pomyśleć, jest przeprowadzenie analizy wrażliwości , dopasowując model zarówno do tych danych, jak i bez nich. Możesz uważać, że bezpieczniejsze lub bardziej odpowiednie jest porzucenie tych obserwacji, skorzystanie z jakiejś formy rzetelnej analizy statystycznej lub przekształcenie tych zmiennych towarzyszących, aby zminimalizować ekstremalną dźwignię, jaką miałyby te punkty. Nie scharakteryzowałbym tych rozważań jako „założeń”, ale z pewnością są one ważnymi rozważaniami przy opracowywaniu odpowiedniego modelu.

gung - Przywróć Monikę
źródło
1

Jedną rzeczą, którą zdecydowanie sprawdzę, są właściwości dystrybucyjne twoich zmiennych niezależnych. Bardzo często w przypadku danych zliczania zobaczysz trochę umiarkowanego do silnego odchylenia w prawo. W takim przypadku prawdopodobnie będziesz chciał przekształcić swoje dane, ponieważ stracisz relację log-liniowa. Ale nie, użycie modelu logistycznego (lub innego GLM) jest w porządku.

użytkownik14583
źródło
3
W jaki sposób prawe pochylenie traci „relację log-liniową”?
Glen_b
3
Ten komentarz wydaje mi się nieprawidłowy. Podobnie jak @Glen_b, nie rozumiem, jak to niekoniecznie straciłoby relację log-liniowa. W każdym razie lepiej byłoby zbadać relację bezpośrednio (na przykład poprzez spiskowanie).
Peter Flom - Przywróć Monikę
2
Nieliniowa transformacja IV z pewnością zmieni relację log-liniową na coś innego, @Peter. Ta odpowiedź wydaje mi się zasadniczo poprawna.
whuber
1
@ whuber Zgadzam się, że nieliniowa transformacja jednej zmiennej zmieni relację między nią a inną zmienną. To wydaje się całkiem jasne. Ale od jakiego rodzaju relacji do jakiego? Dlaczego nie zbadać relacji bezpośrednio zamiast zakładać, jak zostanie ona zmieniona? Ponadto wydaje się, że odpowiedź mówi, że osoba chce stracić logiczną zależność liniową.
Peter Flom - Przywróć Monikę
2
To dobry punkt @ Peter. Jednak niektórzy ludzie nie chcą, aby zmienić relacje; to niekoniecznie błędne pojęcie. Zgadzam się, że bezpośrednie badanie jest właściwą procedurą: zasugeruje, jak ponownie wyrazić IV (-y) zaangażowane (-ych) w celu stworzenia relacji liniowych.
whuber