Jakie są niebezpieczeństwa związane z naruszeniem założenia homoscedastyczności dla regresji liniowej?

28

Jako przykład rozważmy ChickWeightzestaw danych w R. Wariancja oczywiście rośnie z czasem, więc jeśli użyję prostej regresji liniowej, takiej jak:

m <- lm(weight ~ Time*Diet, data=ChickWeight)

Moje pytania:

  1. Które aspekty modelu będą wątpliwe?
  2. Czy problemy ograniczają się do ekstrapolacji poza tym Timezakresem?
  3. Jak tolerancyjna jest regresja liniowa na naruszenie tego założenia (tj. Jak musi być heteroscedastyczna, aby powodować problemy)?
Dan M.
źródło
1
Poza rzeczami wymienionymi w odpowiedziach przedziały prognozowania również nie będą miały odpowiedniego zasięgu.
Glen_b

Odpowiedzi:

22

Model liniowy (lub „zwykłe najmniejsze kwadraty”) nadal ma w tym przypadku swoją właściwość bezstronności.

W obliczu heteroskedastyczności pod względem błędów nadal masz obiektywne szacunki parametrów, ale tracisz matrycę kowariancji: twoje wnioskowanie (tj. Testy parametrów) może być wyłączone. Częstą poprawką jest użycie niezawodnej metody obliczania macierzy kowariancji, czyli standardowych błędów. To, którego używasz, jest w pewnym stopniu zależne od domeny, ale metoda White'a jest początkiem.

A dla kompletności, szeregowa korelacja terminów błędów jest gorsza, ponieważ doprowadzi to do stronniczych oszacowań parametrów.

Dirk Eddelbuettel
źródło
Solidne oszacowanie standardowych błędów (jak metoda White'a) pomaga w testach / przedziałach ufności parametrów, ale nie pomaga w przedziałach prognoz?
kjetil b halvorsen
Kowariancja wektora parametru jest używana do obliczania prognoz, więc przedziały prognozowania również będą ogólnie tendencyjne.
Mustafa S Eisa
Poprawny. Bezstronne wstrzymania, wnioskowanie może być wyłączone. Pozostałe dwa paras są jednak poprawne.
Dirk Eddelbuettel
1
Dziękujemy za wyłapanie go i wyrażanie się w sposób jawny (zamiast dyskretnego lub „drive-by”). Byłem po prostu trochę niechlujny w używaniu terminologii. Lepiej teraz.
Dirk Eddelbuettel
23

Homoscedastyczność jest jednym z założeń Gaussa Markowa, które są wymagane, aby OLS był najlepszym liniowym obiektywnym estymatorem (NIEBIESKI).

β

Krótko podsumowując informacje z powyższych stron, heteroscedastyczność nie wprowadza błędu w szacunkach współczynników. Jednak biorąc pod uwagę heteroscedastyczność, nie jesteś w stanie właściwie oszacować macierzy wariancji-kowariancji. Dlatego standardowe błędy współczynników są błędne. Oznacza to, że nie można obliczyć żadnych statystyk t i wartości p, w związku z czym testowanie hipotez nie jest możliwe. Ogólnie rzecz biorąc, pod wpływem heteroscedastyczności OLS traci skuteczność i nie jest już NIEBIESKI.

Jednak heteroscedastyczność to nie koniec świata. Na szczęście poprawienie heteroscedastyczności nie jest trudne. Estymator warstwowy pozwala oszacować spójne standardowe błędy współczynników. Niemniej jednak obliczenie standardowych błędów za pomocą estymatora warstwowego wiąże się z pewnymi kosztami. Estymator nie jest bardzo wydajny, a standardowe błędy mogą być bardzo duże. Jednym ze sposobów na odzyskanie części wydajności jest klastra standardowych błędów, jeśli to możliwe.

Bardziej szczegółowe informacje na ten temat można znaleźć na stronach, o których wspomniałem powyżej.

Simon O'Rourke
źródło
12

Brak homoscedastyczności może dawać niewiarygodne oszacowania błędu standardowego parametrów. Szacunki parametrów są obiektywne. Ale szacunki mogą nie być skuteczne (nie NIEBIESKIE). Możesz znaleźć więcej w poniższym linku

vinux
źródło
12

log(Y)Yβs niepoprawnie i skutkuje niekonkurencyjną sumą błędów bezwzględnych. Czasami brak stałości wariancji sygnalizuje bardziej podstawowy problem modelowania.

Ylog(Y)

Frank Harrell
źródło
1

W innych odpowiedziach znajdują się dobre informacje, szczególnie na pierwsze pytanie. Pomyślałem, że dodam dodatkowe informacje dotyczące twoich dwóch ostatnich pytań.

  1. Problemy związane z heteroscedastycznością nie ograniczają się do ekstrapolacji. Ponieważ dotyczą one przede wszystkim niepoprawnych przedziałów ufności, wartości p i limitów prognoz, obowiązują one w całym zakresie danych.
  2. 4×
gung - Przywróć Monikę
źródło