Myślę, że próba postrzegania tego jako uogólnionego modelu liniowego jest przesadą. To, co masz, to prosty stary model regresji. Mówiąc dokładniej, ponieważ masz pewne jakościowe zmienne objaśniające i ciągłą EV, ale bez interakcji między nimi, można to również nazwać klasyczną ANCOVA.
Powiedziałbym, że nr 3 nie jest tak naprawdę założeniem, o które trzeba się martwić. Poza tym nie musisz się naprawdę martwić o # 2. Zamiast tego zastąpiłbym je dwoma różnymi założeniami:
2 '. Jednorodność wariancji
3 '. Normalność reszt
Ponadto należy sprawdzić # 4, ale tak naprawdę nie uważam tego za założenie . Zastanówmy się, jak można sprawdzić założenia.
Niezależność jest często „sprawdzana” po pierwsze przez zastanowienie się nad tym, co oznaczają dane i jak zostały zebrane. Ponadto, może być sprawdzane za pomocą rzeczy jak biegnie testu , testu Durbin-Watson , albo badanie wzorca autokorelacji --you Można również spojrzeć na częściowych autokorelacji . (Należy pamiętać, że można je oceniać wyłącznie w odniesieniu do ciągłej współzmiennej).
fam a x. (Zauważ, że testy te mogą być zastosowane do twoich zmiennych towarzyszących w przeciwieństwie do powyższego.) Dla ciągłego EV, chcę po prostu wykreślić moje resztki względem ciągłej zmiennej towarzyszącej i zbadać je wizualnie, aby zobaczyć, czy rozprzestrzeniają się dalej na jedną stronę, czy na drugą.
Normalność reszt może być oceniana za pomocą pewnych prób, takich jak Shapiro-Wilka , lub testów Kołmogorow-smirnov , ale jest często najlepiej ocenione wzrokowo przez qq poletka . (Zauważ, że to założenie jest zasadniczo najmniej ważne z zestawu; jeśli nie zostanie spełnione, twoje oceny beta nadal będą obiektywne , ale twoje wartości p będą niedokładne.)
Istnieje kilka sposobów oceny wpływu twoich indywidualnych obserwacji. Możliwe jest uzyskanie wartości liczbowych, które to indeksują, ale moim ulubionym sposobem, jeśli możesz to zrobić, jest podbicie danych. Oznacza to, że upuszczasz kolejno każdy punkt danych i dopasowujesz model. Następnie możesz sprawdzić, jak bardzo odbijają się Twoje bety, jeśli obserwacja ta nie była częścią zestawu danych. Ten środek nazywa się dfbeta . Wymaga to trochę programowania, ale istnieją standardowe sposoby, które oprogramowanie może często obliczyć automatycznie. Należą do nich dźwignia i odległość Cooka .
Y
Odnosząc się do „właściwej skali pomiaru zmiennych objaśniających”, odnoszę się do poziomów pomiaru Stevena (tj. Kategorycznego, porządkowego, przedziału i stosunku). Pierwszą rzeczą do zrozumienia jest to, że metody regresji (w tym GLiM) nie przyjmują założeń dotyczących zmiennych objaśniających, a sposób, w jaki używasz zmiennych objaśniających w swoim modelu, odzwierciedla twoje przekonania na ich temat. Co więcej, wydaje mi się, że poziomy Stevena są przecenione; bardziej teoretyczne podejście do tego tematu znajduje się tutaj .