Interpretacja odchylenia rezydualnego i zerowego w GLM R.

47

Jak interpretować zerową i rezydualną dewiację w GLM w R? Mówimy, że mniejszy AIC jest lepszy. Czy istnieje również podobna i szybka interpretacja odchyleń?

Odchylenie zerowe: 1146,1 przy 1077 stopniach swobody Odchylenie resztkowe: 4589.4 przy 1099 stopniach swobody AIC: 11089

Anjali
źródło

Odpowiedzi:

74

Niech LL = loglikelihood

Oto krótkie podsumowanie danych wyjściowych podsumowania (glm.fit),

Null Deviance = 2 (LL (model nasycony) - LL (model zerowy)) na df = df_Sat - df_Null

Resztkowe odchylenie = 2 (LL (model nasycony) - LL (proponowany model)) df = df_Sat - df_Proposed

Nasycone model to model, który zakłada, każdy punkt danych ma swoje własne parametry (co oznacza, że masz n parametrów do oszacowania.)

Null model zakłada dokładną „u boku”, w który jest przyjmuje jeden parametr dla wszystkich punktów danych, co oznacza, że tylko 1 oszacować parametr.

Proponowany model zakłada można wyjaśnić swoje punkty danych o parametrach p + w perspektywie przechwytującym, więc trzeba p + 1 parametrów.

Jeśli twoje zerowe odchylenie jest naprawdę małe, oznacza to, że model zerowy dość dobrze wyjaśnia dane. Podobnie z twoim Pozostałym dewiacją .

Co znaczy naprawdę małe? Jeśli twój model jest „dobry”, to Twoje odchylenie wynosi około Chi ^ 2 z (df_sat - df_model) stopniami swobody.

Jeśli chcesz porównać swój model zerowy z proponowanym modelem, możesz na to spojrzeć

(Odchylenie zerowe - odchylenie resztkowe) około Chi ^ 2 z df Proponowane - df Null = (n- (p + 1)) - (n-1) = p

Czy wyniki dałeś bezpośrednio z R? Wydają się nieco dziwne, ponieważ ogólnie powinieneś zauważyć, że stopnie swobody podane na Null są zawsze wyższe niż stopnie swobody podane na Reszcie. Jest tak, ponieważ ponownie, zerowe odchylenie df = nasycone df - zerowe df = n-1 rezydualne odchylenie df = nasycone df - proponowane df = n- (p + 1)

TeresaStat
źródło
Tak, to bardzo przydatny napis @TeresaStat, dzięki. Jak silny to jest? Czy definicje zmieniają się, jeśli mówimy o modelu wielomianowym zamiast o GLM?
Hack-R
@Teresa: Tak, te wyniki pochodzą z R. Dlaczego tak się stanie? Masz jakiś problem z modelem tutaj?
Anjali,
@ Hack-R: Przepraszam za tak późną odpowiedź, jestem nowy w Stackexchange. W modelach wielomianowych nie używasz funkcji glm w R, a wyniki są inne. Musisz przyjrzeć się modelowi proporcjonalnych szans lub regresji porządkowej, funkcji mlogit. Warto trochę poczytać na wielomianowych glms, mają one nieco inne założenia. Jeśli uda mi się do niego dotrzeć w czasie przerwy, zaktualizuję to o kilka dodatkowych informacji.
TeresaStat,
@Anjali, nie jestem do końca pewien, dlaczego miałbyś uzyskiwać takie wyniki w R. Trudno jest wiedzieć bez zobaczenia twoich danych / wyników. Zasadniczo nie rozumiem, dlaczego rezydualne stopnie swobody byłyby wyższe niż null df. Ile parametrów oszacowałeś?
TeresaStat,
1
@ user4050 Cel modelowania ogólnie można postrzegać jako użycie najmniejszej liczby parametrów, aby wyjaśnić najwięcej na temat Twojej odpowiedzi. Aby dowiedzieć się, ile parametrów należy użyć, należy spojrzeć na zaletę dodania jeszcze jednego parametru. Jeśli dodatkowy parametr wiele wyjaśnia (powoduje duże odchylenie) od mniejszego modelu, potrzebujesz dodatkowego parametru. Aby obliczyć, ile to dużo, potrzebujesz teorii statystycznej. Teoria mówi nam, że odchylenie jest chi do kwadratu ze stopniami swobody równymi różnicy parametrów między dwoma modelami. Czy to jest jaśniejsze?
TeresaStat
13

Odchylenie zerowe pokazuje, jak dobrze model przewiduje reakcję bez przechwytywania.

Odchylenie resztkowe pokazuje, jak dobrze model prognozuje odpowiedź, gdy uwzględnione są predyktory. Z twojego przykładu widać, że odchylenie wzrasta o 3433,3, gdy dodaje się 22 zmienne predykcyjne (uwaga: stopnie swobody = liczba obserwacji - liczba predyktorów). Ten wzrost dewiacji świadczy o znacznym braku dopasowania.

Możemy również użyć odchylenia resztkowego, aby sprawdzić, czy hipoteza zerowa jest prawdziwa (tj. Model regresji logistycznej zapewnia odpowiednie dopasowanie do danych). Jest to możliwe, ponieważ dewiacja jest podawana przez wartość chi-kwadrat przy pewnym stopniu swobody. Aby przetestować istotność, możemy znaleźć powiązane wartości p, stosując poniższy wzór w R:

p-value = 1 - pchisq(deviance, degrees of freedom)

Stosując powyższe wartości rezydualnego odchylenia i DF, otrzymujesz wartość p wynoszącą w przybliżeniu zero, wskazującą, że istnieje znaczący brak dowodów na poparcie hipotezy zerowej.

> 1 - pchisq(4589.4, 1099)
[1] 0
dts86
źródło
2
Skąd wiesz, co to jest odcięcie dla dobrego / złego dopasowania na podstawie dewiacji i liczby zmiennych predykcyjnych (bez pchisq)? Czy to po prostu, czy odchylenie rezydualne> odchylenie NULL, czy też jest jakiś zakres / współczynnik?
Hack-R
3
Twoja odpowiedź nie jest zła, ale może być niezrozumiała. W rzeczywistości został źle zrozumiany (por. Tutaj ). Czy w związku z tym możesz wyjaśnić różnice ukryte w kodzie?
gung - Przywróć Monikę