Na tej stronie jest kilka wątków omawiających, jak ustalić, czy reszty OLS są asymptotycznie normalnie rozłożone. Inny sposób oceny normalności reszt za pomocą kodu R znajduje się w tej doskonałej odpowiedzi . To kolejna dyskusja na temat praktycznej różnicy między znormalizowanymi a zaobserwowanymi resztkami.
Powiedzmy jednak, że reszty zdecydowanie nie są normalnie rozłożone, jak w tym przykładzie . Mamy tutaj kilka tysięcy obserwacji i wyraźnie musimy odrzucić założenie o rozkładzie normalnym reszt. Jednym ze sposobów rozwiązania tego problemu jest zastosowanie pewnej formy niezawodnego estymatora, jak wyjaśniono w odpowiedzi. Jednak nie jestem ograniczony do OLS i w rzeczywistości chciałbym zrozumieć zalety innych metod glm lub nieliniowych.
Jaki jest najskuteczniejszy sposób modelowania danych naruszających normalność założeń o resztkach OLS? A przynajmniej jaki powinien być pierwszy krok do opracowania metodologii analizy regresji dźwięku?
źródło
Odpowiedzi:
Zwykłe oszacowanie metodą najmniejszych kwadratów jest nadal rozsądnym estymatorem w obliczu niestandardowych błędów. W szczególności twierdzenie Gaussa-Markowa stwierdza, że zwykłe oszacowanie najmniejszych kwadratów jest najlepszym liniowym estymatorem obiektywnym (NIEBIESKIM) współczynników regresji („Najlepsze” oznacza optymalne pod względem minimalizacji średniego błędu kwadratu ), pod warunkiem, że błędy
(1) mają średnią zero
(2) są nieskorelowane
(3) mają stałą wariancję
Zauważ, że nie ma tu żadnego warunku normalności (ani nawet warunku, że błędy to IID ).
Warunek normalności ma zastosowanie, gdy próbujesz uzyskać przedziały ufności i / lub wartości . Jak wspomina @MichaelChernick (+1, btw), można użyć silnego wnioskowania, gdy błędy są nienormalne, o ile odejście od normalności można obsłużyć metodą - na przykład (jak omówiliśmy w tym wątku) Huber -estimator może zapewnić solidne wnioskowanie, gdy prawdziwy rozkład błędów jest mieszanką rozkładu normalnego i długiego ogona (jak wygląda twój przykład), ale może nie być pomocny w przypadku innych odstępstw od normalności. Jedną z interesujących możliwości, o których wspomina Michael, jest ładowanie w celu uzyskania przedziałów ufności dla oszacowań OLS i zobaczenie, jak to porównuje się z wnioskami opartymi na Huberze.p M
Edycja: Często słyszę, jak mówiono, że możesz polegać na Central Limit Theorem, aby zająć się nienormalnymi błędami - nie zawsze jest to prawdą (nie mówię tylko o kontrprzykładach, w których to twierdzenie zawodzi). W przykładzie z danymi rzeczywistymi, do którego odnosi się OP, mamy dużą próbkę, ale widzimy dowody na rozkład błędów o długich ogonach - w sytuacjach, w których występują błędy o długich ogonach, niekoniecznie można polegać na centralnym twierdzeniu o granicy w przybliżeniu obiektywne wnioskowanie dla realistycznych skończonych rozmiarów próbek. Na przykład, jeśli błędy są zgodne z rozkładem z stopni swobody (co nie jest wyraźnie większet 2.01 długookresowe niż błędy widoczne w danych PO), oszacowania współczynników są zwykle asymptotycznie rozkładane, ale „kopnięcie” zajmuje znacznie więcej czasu niż w przypadku innych rozkładów krótszych.
Poniżej symulacją,yi=1+2xi+εi εi∼t2.01 β^1 n=4000
R
że gdy , gdzie , rozkład próbkowania jest wciąż dość długi, nawet jeśli wielkość próby wynosi :źródło
Myślę, że chcesz spojrzeć na wszystkie właściwości pozostałości.
Jeśli jest to tylko 1 i jest to spowodowane ciężkim ogonem lub skośnością z powodu jednego ciężkiego ogona, solidna regresja może być dobrym podejściem lub być może transformacją do normalności. Jeśli jest to niestała wariancja, spróbuj transformacji stabilizującej wariancję lub spróbuj modelować funkcję wariancji. Jeśli jest to tylko 3, sugeruje to inną formę modelu obejmującą tę zmienną towarzyszącą. Niezależnie od problemu ładowanie wektorów lub reszt jest zawsze możliwe.
źródło
rms
pakiecie R. Ale jak zasugerowałeś, znalezienie transformacji, która poprawi stabilność wariancji, a czasem poprawiając normalność reszt, często ma kilka zalet, nawet jeśli ładujemy bootstrap. Oszacowania metodą najmniejszych kwadratów przy użyciu „złej” transformacji mogą być bardzo nieefektywne i prowadzić do dużych średnich bezwzględnych i średnich błędów bezwzględnych w prognozach. Lubię też stosować modele regresji półparametrycznej.Moje doświadczenie jest całkowicie zgodne z Michaelem Chernickiem. Nie tylko zastosowanie transformacji danych powoduje, że błąd modelowania jest normalnie rozkładany, ale może również skorygować heteroskedastyczność.
Przepraszam, ale sugerowanie inaczej, jak zbieranie szalonej ilości danych lub stosowanie mniej wydajnych, niezawodnych metod regresji, jest moim zdaniem mylące, gdy praktykuję tę naukę / sztukę.
źródło
Makro (jsut powyżej) podało poprawną odpowiedź. Tylko trochę precyzji, bo miałem to samo pytanie
Warunek normalności reszt jest użyteczny, gdy reszty są również homoskedastyczne. W rezultacie OLS ma najmniejszą wariancję między wszystkimi estymatorami (liniowy OR nieliniowy).
Rozszerzone założenia OLS:
jeśli zweryfikowano 1-5, wówczas OLS ma najmniejszą wariancję między wszystkimi estymatorami (liniowy LUB nieliniowy) .
jeśli weryfikowany jest tylko 1-4, to według Gaussa-Markowa OLS jest najlepszym liniowym (tylko!) estymatorem (NIEBIESKI).
Źródło: Stock i Watson, ekonometria + mój kurs (EPFL, ekonometria)
źródło
W przypadku warunków nienormalnych można czasem zastosować solidną regresję , szczególnie używając linków do metod .
Aby przedstawić kontekst nienormalności, pomocne może być przejrzenie założeń dotyczących regresji liniowej OLS , które są:
Zależność statystyczna między warunkami błędu a regresorami odgrywa ważną rolę w określaniu, czy procedura szacowania ma pożądane właściwości próbkowania, takie jak obiektywność i spójność.
Rozmieszczenie lub rozkład prawdopodobieństwa zmiennych predykcyjnych x ma duży wpływ na dokładność oszacowań β. Pobieranie próbek i projektowanie eksperymentów są wysoce rozwiniętymi polami statystycznymi, które dostarczają wskazówek w zakresie gromadzenia danych w taki sposób, aby uzyskać dokładne oszacowanie β.
Jak ilustruje ta odpowiedź , symulowane rozkłada błędy osi z linii prowadzącej do linii regresji OLS z przedziałami ufności dla nachylenia i przechwytywania, które zwiększają rozmiar wraz ze spadkiem stopni swobody ( ). Dla , Student- jest rozkładem Cauchy'ego, a przedziały ufności dla nachylenia stają się .t y df df=1 t (−∞,+∞)
Wywoływanie rozkładu Cauchy'ego w odniesieniu do reszt jest arbitralne w tym sensie, że gdy błędy generujące są rozkładane Cauchy'ego, resztki OLS z fałszywej linii przechodzącej przez dane byłyby jeszcze mniej niezawodne, tj. Wyrzucanie śmieci - wyrzucanie śmieci. W takich przypadkach można zastosować regresję regresji Theil-Sen . Theil-Sen jest z pewnością bardziej odporny niż OLS na nienormalne reszty, np. Błąd rozproszenia Cauchy'ego nie pogorszyłby przedziałów ufności i w przeciwieństwie do OLS jest również regułą dwuwariantową, jednak w przypadku dwuwariantowym jest nadal tendencyjny. Regresja przechodząca-Bablok może być bardziej dwuwariantowa, ale nie ma zastosowania do nachyleń regresji ujemnej. Najczęściej stosuje się go w badaniach porównawczych metod. Należy wspomnieć o regresji Demingatutaj, w przeciwieństwie do regresji Theil-Sen i Passing-Bablok, jest to rzeczywiste rozwiązanie problemu dwuwariantowego, ale brakuje mu solidności tych innych regresji. Odporność można zwiększyć poprzez obcięcie danych w celu uwzględnienia bardziej centralnych wartości, np. Konsensus losowej próby (RANSAC) jest iteracyjną metodą szacowania parametrów modelu matematycznego na podstawie zestawu obserwowanych danych, które zawierają wartości odstające.
Czym zatem jest regresja dwuwymiarowa? Brak testowania dwuwariantowego charakteru problemów jest najczęstszą przyczyną rozcieńczenia regresji OLS i został dobrze zaprezentowany gdzie indziej na tej stronie. Pojęcie uprzedzenia OLS w tym kontekście nie jest dobrze rozpoznane, patrz na przykład Frost i Thompson, jak przedstawili Longford i in. (2001), który odsyła czytelnika do innych metod, rozszerzając model regresji w celu potwierdzenia zmienności zmiennej , aby nie powstało żadne odchylenie . Innymi słowy, dwuwymiarowej regresji wielkości liter czasami nie można zignorować, gdy zarówno -, jak ix 1 x y x y y 2 x y x y = f ( x )1 x y -wartości są losowo dystrybuowane. Potrzeba regresji dwuwymiarowej można sprawdzić, dopasowując linię regresji OLS do reszt z regresji danych OLS. Następnie, jeśli reszty OLS mają niezerowe nachylenie, problem jest dwuwymiarowy, a regresja OLS danych będzie miała nachylenie, które jest zbyt płytkie, i punkt przecięcia, który jest zbyt duży, aby reprezentować zależność funkcjonalną od do . W takich przypadkach estymator liniowy najmniejszych błędów wartości rzeczywiście nadal pochodzi z regresji OLS, a jego wartość R będzie mieć maksymalną możliwą wartość, ale linia regresji OLS nie będzie reprezentować faktycznej funkcji linii, która odnosi się ix y y 2 x y losowe zmienne. Jako przeciwny przykład, gdy, jak ma to miejsce wśród innych problemów w szeregu czasowym z jednakowo odległymi wartościami , OLS surowych danych nie zawsze jest niewłaściwe, może reprezentować najlepszą linię , ale nadal podlega transformacja zmiennych, na przykład dla danych zliczania, należy wziąć pierwiastek kwadratowy z liczb, aby przekształcić błędy błędu rozproszonego Poissona na bardziej normalne warunki, i nadal należy sprawdzać niezerowe nachylenie reszt. x y=f(x)
źródło