To wygląda na podobne pytanie i nie uzyskało wielu odpowiedzi.
Pomijając testy, takie jak D Cooka, i patrząc na resztki jako grupę, interesuje mnie, w jaki sposób inni używają resztek podczas oceny dobroci dopasowania. Używam surowych pozostałości:
- na wykresie QQ do oceny normalności
- w wykresie rozrzutu porównaniu do reszt, w celu sprawdzenia gałki ocznej (a) hetereoscedastyczności i (b) seryjnej autokorelacji.
Do wykreślenia względem reszt w celu zbadania wartości których mogą wystąpić wartości odstające, wolę używać uczonych reszt . Powodem, dla którego wolę, jest to, że pozwala na łatwe sprawdzenie, które reszty, przy których wartości są problematyczne, chociaż standaryzowane reszty dają bardzo podobny wynik. Moja teoria, na której się opiera, jest taka, że zależy to od tego, na którą uczelnię poszedłeś.
Czy jest to podobne do sposobu, w jaki inni używają pozostałości? Czy inni używają tej liczby wykresów w połączeniu ze statystykami podsumowującymi?
źródło
Odpowiedzi:
To nie tyle odpowiedź, co wyjaśnienie terminologii. Twoje pytanie dotyczy surowych, znormalizowanych i studenckich pozostałości. Jednak nie jest to terminologia stosowana przez większość statystyków, choć zauważam, że w notatkach klasowych tak jest.
Surowe: tak jak masz.
Standaryzowane: w rzeczywistości są to surowe reszty podzielone przez prawdziwe standardowe odchylenie reszty. Ponieważ prawdziwe odchylenie standardowe jest rzadko znane, znormalizowana reszta prawie nigdy nie jest używana.
Studiowane wewnętrznie: ponieważ prawdziwe odchylenie standardowe reszt nie jest zwykle znane, zamiast tego stosuje się szacowane odchylenie standardowe. Jest to pozostałość między uczniami, którą nazwaliście standaryzowaną.
Studiowane zewnętrznie: to samo co reszty studenckie wewnętrznie, z tym wyjątkiem, że szacunkowe odchylenie standardowe reszt oblicza się na podstawie regresji pomijającej obserwację.
Pearson: surowa reszta podzielona przez odchylenie standardowe zmiennej odpowiedzi (zmiennej y), a nie reszt. Nie ma tego na liście.
„out one out”: Nie ma formalnej nazwy, ale jest taki sam jak notatki klasowe.
znormalizowane „zostaw jedno”: również nie ma formalnej nazwy, ale nie tak uczniowie nazywają notatki klasowe.
Źródła:
ten sam link wiki, który masz o resztach studenckich („resztka studentów jest ilorazem wynikającym z podziału resztki przez oszacowanie jej odchylenia standardowego”)
dokumentacja do obliczeń rezydualnych w SAS
źródło
Re: działki,
Istnieje coś takiego jak nadmierne dopasowanie, ale nadmierne wykreślanie naprawdę nie może wyrządzić wiele szkody, szczególnie na etapie diagnostyki. Standaryzowany wykres normalnego prawdopodobieństwa nie może boleć obok wykresu QQ. Lepiej oceniam środek rozkładu.
Re: pozostałości,
Realizuję zarówno znormalizowane, jak i studenckie resztki na etapie projektu i zwykle kończę kodowanie znormalizowanych. Nie wiem, co faktycznie uruchamiają inni ludzie, ponieważ diagnostyka jest naprawdę zakodowana w materiale replikacyjnym, który znajduję online.
Re: diagnostyka,
W przypadku modelu liniowego zwykle dodaję współczynniki inflacji wariancji (zR2
vif
poleceniem w Stacie) i kilka testów homoscedastyczności (np. Zhettest
poleceniem w Stacie), a także dekompozycję modelu z zagnieżdżoną regresją, aby sprawdzić, czy ma jakiś sens .źródło