Jako przykład rozważmy ChickWeight
zestaw danych w R. Wariancja oczywiście rośnie z czasem, więc jeśli użyję prostej regresji liniowej, takiej jak:
m <- lm(weight ~ Time*Diet, data=ChickWeight)
Moje pytania:
- Które aspekty modelu będą wątpliwe?
- Czy problemy ograniczają się do ekstrapolacji poza tym
Time
zakresem? - Jak tolerancyjna jest regresja liniowa na naruszenie tego założenia (tj. Jak musi być heteroscedastyczna, aby powodować problemy)?
Odpowiedzi:
Model liniowy (lub „zwykłe najmniejsze kwadraty”) nadal ma w tym przypadku swoją właściwość bezstronności.
W obliczu heteroskedastyczności pod względem błędów nadal masz obiektywne szacunki parametrów, ale tracisz matrycę kowariancji: twoje wnioskowanie (tj. Testy parametrów) może być wyłączone. Częstą poprawką jest użycie niezawodnej metody obliczania macierzy kowariancji, czyli standardowych błędów. To, którego używasz, jest w pewnym stopniu zależne od domeny, ale metoda White'a jest początkiem.
A dla kompletności, szeregowa korelacja terminów błędów jest gorsza, ponieważ doprowadzi to do stronniczych oszacowań parametrów.
źródło
Homoscedastyczność jest jednym z założeń Gaussa Markowa, które są wymagane, aby OLS był najlepszym liniowym obiektywnym estymatorem (NIEBIESKI).
Krótko podsumowując informacje z powyższych stron, heteroscedastyczność nie wprowadza błędu w szacunkach współczynników. Jednak biorąc pod uwagę heteroscedastyczność, nie jesteś w stanie właściwie oszacować macierzy wariancji-kowariancji. Dlatego standardowe błędy współczynników są błędne. Oznacza to, że nie można obliczyć żadnych statystyk t i wartości p, w związku z czym testowanie hipotez nie jest możliwe. Ogólnie rzecz biorąc, pod wpływem heteroscedastyczności OLS traci skuteczność i nie jest już NIEBIESKI.
Jednak heteroscedastyczność to nie koniec świata. Na szczęście poprawienie heteroscedastyczności nie jest trudne. Estymator warstwowy pozwala oszacować spójne standardowe błędy współczynników. Niemniej jednak obliczenie standardowych błędów za pomocą estymatora warstwowego wiąże się z pewnymi kosztami. Estymator nie jest bardzo wydajny, a standardowe błędy mogą być bardzo duże. Jednym ze sposobów na odzyskanie części wydajności jest klastra standardowych błędów, jeśli to możliwe.
Bardziej szczegółowe informacje na ten temat można znaleźć na stronach, o których wspomniałem powyżej.
źródło
Brak homoscedastyczności może dawać niewiarygodne oszacowania błędu standardowego parametrów. Szacunki parametrów są obiektywne. Ale szacunki mogą nie być skuteczne (nie NIEBIESKIE). Możesz znaleźć więcej w poniższym linku
źródło
źródło
W innych odpowiedziach znajdują się dobre informacje, szczególnie na pierwsze pytanie. Pomyślałem, że dodam dodatkowe informacje dotyczące twoich dwóch ostatnich pytań.
źródło