Heteroskedastyczność i normalność reszt

12

Mam regresję liniową, która, jak sądzę, jest całkiem dobra (dotyczy projektu uniwersyteckiego, więc tak naprawdę nie muszę być bardzo dokładna).

Chodzi o to, że jeśli wykreślę wartości rezydualne w stosunku do wartości przewidywanych, to (według mojego nauczyciela) jest wskazówka heteroskedastyczności.

Ale jeśli wykreślę wykres QQ reszt, jasne jest, że są one normalnie rozmieszczone. Co więcej, test Shapiro na resztkach ma wartość wynoszącą , więc myślę, że nie ma wątpliwości, że resztki są normalnie rozłożone.0,8p0,8

Pytanie: Jak może istnieć heteroskedastyczność przewidywanych wartości, jeśli reszty są normalnie rozmieszczone?

Mrówka
źródło
1
Jeden bardzo krótki dodatek do @whubers doskonałą odpowiedź: Można użyć ncvTestfunkcji pakietu samochodowego do Rprzeprowadzenia formalnego testu dla heteroskedastyczności. W przykładzie Whubera polecenie ncvTest(fit)daje wartość która jest prawie równa zero i dostarcza mocnych dowodów przeciwko stałej wariancji błędu (czego oczekiwano oczywiście). p
COOLSerdash,

Odpowiedzi:

16

Jednym ze sposobów podejścia do tego pytania jest spojrzenie na to w odwrotny sposób: jak moglibyśmy zacząć od normalnie rozmieszczonych reszt i ustawić je tak, aby były heteroscedastyczne? Z tego punktu widzenia odpowiedź staje się oczywista: powiązać mniejsze reszty z mniejszymi przewidywanymi wartościami.

Aby to zilustrować, oto wyraźna konstrukcja.

Postać

Dane po lewej stronie są wyraźnie heteroscedastyczne względem dopasowania liniowego (pokazane na czerwono). Jest to zależne od reszty w porównaniu do przewidywanego wykresu po prawej stronie. Ale - z założenia - nieuporządkowany zbiór reszt jest prawie normalnie rozłożony, jak pokazuje ich histogram na środku. (Wartość p w teście normalności Shapiro-Wilka wynosi 0,60, uzyskana za pomocą Rpolecenia shapiro.test(residuals(fit))wydanego po uruchomieniu poniższego kodu.)

Tak też mogą wyglądać prawdziwe dane. Morał polega na tym, że heteroscedastyczność charakteryzuje związek między wielkością resztkową a przewidywaniami, podczas gdy normalność nie mówi nam nic o tym, jak resztki odnoszą się do czegokolwiek innego.


Oto Rkod tej konstrukcji.

set.seed(17)
n <- 256
x <- (1:n)/n                       # The set of x values
e <- rnorm(n, sd=1)                # A set of *normally distributed* values
i <- order(runif(n, max=dnorm(e))) # Put the larger ones towards the end on average
y <- 1 + 5 * x + e[rev(i)]         # Generate some y values plus "error" `e`.
fit <- lm(y ~ x)                   # Regress `y` against `x`.
par(mfrow=c(1,3))                  # Set up the plots ...
plot(x,y, main="Data", cex=0.8)
abline(coef(fit), col="Red")
hist(residuals(fit), main="Residuals")
plot(predict(fit), residuals(fit), cex=0.8, main="Residuals vs. Predicted")
Whuber
źródło
2
ok, więc mówisz, że jeśli skojarzę niskie reszty z wysokimi przewidywanymi wartościami, heteroscedastyczność może powstać, nawet jeśli reszty są normalnie rozłożone? Myślę, że mam, ale naprawdę powinienem więcej o tym pomyśleć ... w każdym razie dziękuję!
Ant
... lub małe wartości resztkowe o niskich przewidywanych wartościach (jak w przykładzie tutaj), a nawet w bardziej złożony sposób. Na przykład heteroscedastyczność występuje, gdy średnia wielkość reszt oscyluje z przewidywaną wartością. (Większość formalnych testów heteroscedastyczności tego nie wykryje, ale zwykłe wykresy diagnostyczne wyraźnie to pokażą.)
whuber
0

W regresji ważonej metodą najmniejszych kwadratów (WLS) losowe czynniki szacowanych reszt, które mogą być potrzebne do zobaczenia, są normalnie rozmieszczone, chociaż często nie jest to strasznie ważne. Szacowane wartości resztkowe mogą być uwzględnione, jak pokazano w prostym przypadku regresji (jeden regresor i przez pochodzenie), na dole strony 1 i na dolnych połówkach stron 2 i 7 w https://www.researchgate.net/publication / 263036348_Properties_of_Weighted_Least_Squares_Regression_for_Cutoff_Sampling_in_Establishment_Surveys W każdym razie może to pomóc pokazać, gdzie może pojawić się normalność.

Jim Knaub
źródło
Witamy na stronie @JimKnaub. Chcielibyśmy mieć Cię przy sobie, aby od czasu do czasu pożyczyć Twoją wiedzę. Dlaczego nie zarejestrować swojego konta? Możesz dowiedzieć się, jak to zrobić w sekcji Moje konto w naszym centrum pomocy . Ponieważ jesteś tutaj nowy, możesz wybrać się na naszą wycieczkę , która zawiera informacje dla nowych użytkowników.
gung - Przywróć Monikę
3
Staramy się zbudować stałe repozytorium wysokiej jakości informacji statystycznych w formie pytań i odpowiedzi. Dlatego uważamy na odpowiedzi zależne od linków z powodu linkrot. Czy możesz zamieścić pełne cytowanie i streszczenie informacji (np. Rysunki / objaśnienia) z linku, aby informacje pozostały użyteczne, nawet jeśli link przestanie działać?
gung - Przywróć Monikę