Ten link do Wikipedii zawiera szereg technik wykrywania heteroscedastyczności resztek OLS. Chciałbym dowiedzieć się, która praktyczna technika jest bardziej skuteczna w wykrywaniu regionów dotkniętych heteroscedastycznością.
Na przykład tutaj centralny obszar wykresu OLS „Resztki vs Dopasowane” ma większą wariancję niż boki wykresu (w rzeczywistości nie jestem do końca pewien, ale załóżmy, że tak jest w przypadku pytania). Aby to potwierdzić, patrząc na etykiety błędów na wykresie QQ, możemy zobaczyć, że pasują one do etykiet błędów na środku wykresu Resztki.
Ale jak możemy kwantyfikować region resztkowy, który ma znacznie wyższą wariancję?
regression
least-squares
heteroscedasticity
Robert Kubrick
źródło
źródło
Odpowiedzi:
Ten problem ma charakter eksploracyjny. John Tukey opisuje wiele procedur badania heteroscedastyczności w swojej klasycznej analizie danych eksploracyjnych (Addison-Wesley 1977). Być może najbardziej bezpośrednio użyteczny jest wariant jego „ wędrownego schematu ”. To kroi jedną zmienną (taką jak przewidywana wartość) na przedziały i używa m-literowych podsumowań (uogólnienia wykresów pudełkowych), aby pokazać położenie, rozkład i kształt drugiej zmiennej dla każdego przedziału. Statystyka litery M jest dodatkowo wygładzana, aby podkreślić ogólne wzorce, a nie przypadkowe odchylenia.
Szybką wersję można przygotować, wykorzystując
boxplot
procedurę wR
. Ilustrujemy symulowanymi silnie heteroscedastycznymi danymi:Uzyskajmy przewidywane wartości i reszty z regresji OLS:
Oto więc schemat wędrówki wykorzystujący pojemniki o równej liczbie dla przewidywanych wartości. Używam
lowess
do szybkiego i brudnego wygładzania.Niebieska krzywa wygładza mediany. Jego pozioma tendencja wskazuje, że regresja jest ogólnie dobrze dopasowana. Pozostałe krzywe wygładzają końce skrzynek (kwartyle) i ogrodzenia (które są zwykle skrajnymi wartościami). Ich silna zbieżność i późniejszy rozdział świadczą o heteroscedastyczności - i pomagają nam ją scharakteryzować i określić ilościowo.
(Zwróć uwagę na nieliniową skalę na osi poziomej, odzwierciedlającą rozkład przewidywanych wartości. Przy odrobinie wysiłku oś ta może zostać zlinearyzowana, co czasem jest przydatne.)
źródło
Zazwyczaj heteroskedastyczność jest modelowana przy użyciu podejścia Breuscha-Pagana. Resztki z regresji liniowej są następnie zwiększane do kwadratu i regresowane na zmiennych w oryginalnym modelu liniowym. Ta ostatnia regresja nazywana jest regresją pomocniczą .
Dla swoich celów możesz skupić się na poszczególnych współczynnikach z tego modelu, aby zobaczyć, które zmienne są najbardziej predykcyjne dla wyników wysokiej lub niskiej wariancji.
źródło