Założenia uogólnionego modelu liniowego

14

Stworzyłem uogólniony model liniowy z pojedynczą zmienną odpowiedzi (ciągła / normalnie rozłożona) i 4 zmiennymi objaśniającymi (z których 3 to czynniki, a czwarta to liczba całkowita). Użyłem rozkładu błędów Gaussa z funkcją łącza tożsamości. Obecnie sprawdzam, czy model spełnia założenia uogólnionego modelu liniowego, którymi są:

  1. niezależność Y
  2. poprawna funkcja łącza
  3. poprawna skala pomiaru zmiennych objaśniających
  4. brak wpływowych obserwacji

Moje pytanie brzmi: jak mogę sprawdzić, czy model spełnia te założenia? Najlepszym punktem wyjścia wydaje się wykreślenie zmiennej odpowiedzi względem każdej zmiennej objaśniającej. Jednak 3 zmienne objaśniające są kategoryczne (z poziomami 1-4), więc czego powinienem szukać na wykresach?

Czy muszę również sprawdzać wielokoliniowość i interakcje między zmiennymi objaśniającymi? Jeśli tak, jak to zrobić z kategorycznymi zmiennymi objaśniającymi?

luciano
źródło

Odpowiedzi:

20

Myślę, że próba postrzegania tego jako uogólnionego modelu liniowego jest przesadą. To, co masz, to prosty stary model regresji. Mówiąc dokładniej, ponieważ masz pewne jakościowe zmienne objaśniające i ciągłą EV, ale bez interakcji między nimi, można to również nazwać klasyczną ANCOVA.

Powiedziałbym, że nr 3 nie jest tak naprawdę założeniem, o które trzeba się martwić. Poza tym nie musisz się naprawdę martwić o # 2. Zamiast tego zastąpiłbym je dwoma różnymi założeniami:

2 '. Jednorodność wariancji
3 '. Normalność reszt

Ponadto należy sprawdzić # 4, ale tak naprawdę nie uważam tego za założenie . Zastanówmy się, jak można sprawdzić założenia.

Niezależność jest często „sprawdzana” po pierwsze przez zastanowienie się nad tym, co oznaczają dane i jak zostały zebrane. Ponadto, może być sprawdzane za pomocą rzeczy jak biegnie testu , testu Durbin-Watson , albo badanie wzorca autokorelacji --you Można również spojrzeć na częściowych autokorelacji . (Należy pamiętać, że można je oceniać wyłącznie w odniesieniu do ciągłej współzmiennej).

famzax. (Zauważ, że testy te mogą być zastosowane do twoich zmiennych towarzyszących w przeciwieństwie do powyższego.) Dla ciągłego EV, chcę po prostu wykreślić moje resztki względem ciągłej zmiennej towarzyszącej i zbadać je wizualnie, aby zobaczyć, czy rozprzestrzeniają się dalej na jedną stronę, czy na drugą.

Normalność reszt może być oceniana za pomocą pewnych prób, takich jak Shapiro-Wilka , lub testów Kołmogorow-smirnov , ale jest często najlepiej ocenione wzrokowo przez qq poletka . (Zauważ, że to założenie jest zasadniczo najmniej ważne z zestawu; jeśli nie zostanie spełnione, twoje oceny beta nadal będą obiektywne , ale twoje wartości p będą niedokładne.)

Istnieje kilka sposobów oceny wpływu twoich indywidualnych obserwacji. Możliwe jest uzyskanie wartości liczbowych, które to indeksują, ale moim ulubionym sposobem, jeśli możesz to zrobić, jest podbicie danych. Oznacza to, że upuszczasz kolejno każdy punkt danych i dopasowujesz model. Następnie możesz sprawdzić, jak bardzo odbijają się Twoje bety, jeśli obserwacja ta nie była częścią zestawu danych. Ten środek nazywa się dfbeta . Wymaga to trochę programowania, ale istnieją standardowe sposoby, które oprogramowanie może często obliczyć automatycznie. Należą do nich dźwignia i odległość Cooka .

Y

Odnosząc się do „właściwej skali pomiaru zmiennych objaśniających”, odnoszę się do poziomów pomiaru Stevena (tj. Kategorycznego, porządkowego, przedziału i stosunku). Pierwszą rzeczą do zrozumienia jest to, że metody regresji (w tym GLiM) nie przyjmują założeń dotyczących zmiennych objaśniających, a sposób, w jaki używasz zmiennych objaśniających w swoim modelu, odzwierciedla twoje przekonania na ich temat. Co więcej, wydaje mi się, że poziomy Stevena są przecenione; bardziej teoretyczne podejście do tego tematu znajduje się tutaj .

gung - Przywróć Monikę
źródło
1
Ponieważ Op zawierał funkcję link, myślę, że naprawdę miał na myśli uogólniony model liniowy, w którym funkcja link jest stosowana do Y. Również założyłbym, że niezależność Y. Wydaje mi się, że bardziej słuszne jest założenie, że składniki błędu w modelu są niezależne. Biorąc pod uwagę, że uważam, że reszta tego, co napisał Gung, jest poprawna.
Michael R. Chernick
@MichaelChernick, zgadzam się z tobą. Trochę zredagowałem swoją odpowiedź, aby rozwiązać te problemy. Daj mi znać, jeśli uważasz, że nadal wymaga to więcej pracy.
gung - Przywróć Monikę