Mam regresję liniową, która, jak sądzę, jest całkiem dobra (dotyczy projektu uniwersyteckiego, więc tak naprawdę nie muszę być bardzo dokładna).
Chodzi o to, że jeśli wykreślę wartości rezydualne w stosunku do wartości przewidywanych, to (według mojego nauczyciela) jest wskazówka heteroskedastyczności.
Ale jeśli wykreślę wykres QQ reszt, jasne jest, że są one normalnie rozmieszczone. Co więcej, test Shapiro na resztkach ma wartość wynoszącą , więc myślę, że nie ma wątpliwości, że resztki są normalnie rozłożone.0,8
Pytanie: Jak może istnieć heteroskedastyczność przewidywanych wartości, jeśli reszty są normalnie rozmieszczone?
ncvTest
funkcji pakietu samochodowego doR
przeprowadzenia formalnego testu dla heteroskedastyczności. W przykładzie Whubera poleceniencvTest(fit)
daje wartość która jest prawie równa zero i dostarcza mocnych dowodów przeciwko stałej wariancji błędu (czego oczekiwano oczywiście).Odpowiedzi:
Jednym ze sposobów podejścia do tego pytania jest spojrzenie na to w odwrotny sposób: jak moglibyśmy zacząć od normalnie rozmieszczonych reszt i ustawić je tak, aby były heteroscedastyczne? Z tego punktu widzenia odpowiedź staje się oczywista: powiązać mniejsze reszty z mniejszymi przewidywanymi wartościami.
Aby to zilustrować, oto wyraźna konstrukcja.
Dane po lewej stronie są wyraźnie heteroscedastyczne względem dopasowania liniowego (pokazane na czerwono). Jest to zależne od reszty w porównaniu do przewidywanego wykresu po prawej stronie. Ale - z założenia - nieuporządkowany zbiór reszt jest prawie normalnie rozłożony, jak pokazuje ich histogram na środku. (Wartość p w teście normalności Shapiro-Wilka wynosi 0,60, uzyskana za pomocą
R
poleceniashapiro.test(residuals(fit))
wydanego po uruchomieniu poniższego kodu.)Tak też mogą wyglądać prawdziwe dane. Morał polega na tym, że heteroscedastyczność charakteryzuje związek między wielkością resztkową a przewidywaniami, podczas gdy normalność nie mówi nam nic o tym, jak resztki odnoszą się do czegokolwiek innego.
Oto
R
kod tej konstrukcji.źródło
W regresji ważonej metodą najmniejszych kwadratów (WLS) losowe czynniki szacowanych reszt, które mogą być potrzebne do zobaczenia, są normalnie rozmieszczone, chociaż często nie jest to strasznie ważne. Szacowane wartości resztkowe mogą być uwzględnione, jak pokazano w prostym przypadku regresji (jeden regresor i przez pochodzenie), na dole strony 1 i na dolnych połówkach stron 2 i 7 w https://www.researchgate.net/publication / 263036348_Properties_of_Weighted_Least_Squares_Regression_for_Cutoff_Sampling_in_Establishment_Surveys W każdym razie może to pomóc pokazać, gdzie może pojawić się normalność.
źródło