Regresja, gdy reszty OLS nie są zwykle rozkładane

43

Na tej stronie jest kilka wątków omawiających, jak ustalić, czy reszty OLS są asymptotycznie normalnie rozłożone. Inny sposób oceny normalności reszt za pomocą kodu R znajduje się w tej doskonałej odpowiedzi . To kolejna dyskusja na temat praktycznej różnicy między znormalizowanymi a zaobserwowanymi resztkami.

Powiedzmy jednak, że reszty zdecydowanie nie są normalnie rozłożone, jak w tym przykładzie . Mamy tutaj kilka tysięcy obserwacji i wyraźnie musimy odrzucić założenie o rozkładzie normalnym reszt. Jednym ze sposobów rozwiązania tego problemu jest zastosowanie pewnej formy niezawodnego estymatora, jak wyjaśniono w odpowiedzi. Jednak nie jestem ograniczony do OLS i w rzeczywistości chciałbym zrozumieć zalety innych metod glm lub nieliniowych.

Jaki jest najskuteczniejszy sposób modelowania danych naruszających normalność założeń o resztkach OLS? A przynajmniej jaki powinien być pierwszy krok do opracowania metodologii analizy regresji dźwięku?

Robert Kubrick
źródło
5
Istnieje również kilka wątków omawiających, w jaki sposób normalność jest zasadniczo nieistotna dla wielu celów. Jeśli masz niezależne obserwacje i przynajmniej umiarkowaną wielkość próby, jedyną rzeczą, która ma znaczenie dla wnioskowania OLS, jest to, że wszystkie reszty mają tę samą wariancję. Nie normalność. Jeśli użyjesz solidnych / zgodnych z heteroskedastycznością / sandwich / Huber-Eicker-White szacunkowych błędów standardowych, to nawet wymóg stałej wariancji nie jest wymagany.
gość
@guest Czytam tylko o wydajności testu normalności w tym wątku. Analiza regresji nie jest nawet oznaczona.
Robert Kubrick
Spróbuj tego . Oto zewnętrzny link . I zobacz rozdziały OLS np. Stock i Watson, Wprowadzenie do ekonometrii . Przysięgam, że nie zmyślam tego!
gość
@guest Dwa linki dotyczą rozkładu normalności wyników, a nie reszt.
Robert Kubrick
1
Nie, nie robią tego. Autorzy często nazywają „rozkład Y” skrótem „rozkład Y zależny od X”. Aby wrócić do pierwotnego pytania; chyba że masz małą próbkę lub dane o ogromnych rozmiarach, użycie OLS z solidnymi standardowymi błędami jest dobrym pierwszym krokiem. W takich przypadkach normalność nie stanowi problemu.
gość

Odpowiedzi:

53

Zwykłe oszacowanie metodą najmniejszych kwadratów jest nadal rozsądnym estymatorem w obliczu niestandardowych błędów. W szczególności twierdzenie Gaussa-Markowa stwierdza, że ​​zwykłe oszacowanie najmniejszych kwadratów jest najlepszym liniowym estymatorem obiektywnym (NIEBIESKIM) współczynników regresji („Najlepsze” oznacza optymalne pod względem minimalizacji średniego błędu kwadratu ), pod warunkiem, że błędy

(1) mają średnią zero

(2) są nieskorelowane

(3) mają stałą wariancję

Zauważ, że nie ma tu żadnego warunku normalności (ani nawet warunku, że błędy to IID ).

Warunek normalności ma zastosowanie, gdy próbujesz uzyskać przedziały ufności i / lub wartości . Jak wspomina @MichaelChernick (+1, btw), można użyć silnego wnioskowania, gdy błędy są nienormalne, o ile odejście od normalności można obsłużyć metodą - na przykład (jak omówiliśmy w tym wątku) Huber -estimator może zapewnić solidne wnioskowanie, gdy prawdziwy rozkład błędów jest mieszanką rozkładu normalnego i długiego ogona (jak wygląda twój przykład), ale może nie być pomocny w przypadku innych odstępstw od normalności. Jedną z interesujących możliwości, o których wspomina Michael, jest ładowanie w celu uzyskania przedziałów ufności dla oszacowań OLS i zobaczenie, jak to porównuje się z wnioskami opartymi na Huberze.pM

Edycja: Często słyszę, jak mówiono, że możesz polegać na Central Limit Theorem, aby zająć się nienormalnymi błędami - nie zawsze jest to prawdą (nie mówię tylko o kontrprzykładach, w których to twierdzenie zawodzi). W przykładzie z danymi rzeczywistymi, do którego odnosi się OP, mamy dużą próbkę, ale widzimy dowody na rozkład błędów o długich ogonach - w sytuacjach, w których występują błędy o długich ogonach, niekoniecznie można polegać na centralnym twierdzeniu o granicy w przybliżeniu obiektywne wnioskowanie dla realistycznych skończonych rozmiarów próbek. Na przykład, jeśli błędy są zgodne z rozkładem z stopni swobody (co nie jest wyraźnie większet2.01 długookresowe niż błędy widoczne w danych PO), oszacowania współczynników są zwykle asymptotycznie rozkładane, ale „kopnięcie” zajmuje znacznie więcej czasu niż w przypadku innych rozkładów krótszych.

Poniżej symulacją, Rże gdy , gdzie , rozkład próbkowania jest wciąż dość długi, nawet jeśli wielkość próby wynosi :yi=1+2xi+εiεit2.01β^1n=4000

set.seed(5678)
B = matrix(0,1000,2)
for(i in 1:1000)
{
    x = rnorm(4000) 
    y = 1 + 2*x + rt(4000,2.01)
    g = lm(y~x)
    B[i,] = coef(g)
}
qqnorm(B[,2])
qqline(B[,2])

wprowadź opis zdjęcia tutaj

Makro
źródło
2
+1, to naprawdę świetny przegląd tematu. Szczególnie doceniam edycję. Czy jest coś specjalnego w ? To wydaje się strasznie specyficzne. df=2.01
gung - Przywróć Monikę
2
@gung, Dzięki - wybrałem ponieważ wariancja zmiennej losowej podzielonej na nie istnieje, gdy i dlatego nie ma zastosowania twierdzenie o granicy centralnej. df=2.01tdf2
Makro
1
@guest, był to wymyślony przykład pokazujący, że nie możesz ślepo ufać CLT, gdy masz długie błędy. Zgadzam się, że jest to skrajne w przypadku wielu aplikacji, ale w przykładzie ( stats.stackexchange.com/questions/29636/... ), o którym mowa w OP, dane pokazują bardzo długi rozkład błędów - kształt jest nieco inny niż , ale nie jest wyraźnie mniej długoogoniasty i wynikał z rzeczywistych danych. Zredagowałem „Edytuj”, aby to podkreślić. t2.01
Makro
2
p
2
@guest, nigdy nie kłóciłem się z OLS. W rzeczywistości uważam, że duża część mojej odpowiedzi brzmiała, że ​​OLS było rozsądnym rozwiązaniem, niezależnie od jakichkolwiek założeń dystrybucyjnych. Nigdy też nie argumentowałem, że do wnioskowania należy przestrzegać ścisłej normalności - mówię o tym, że w przypadku błędów o długich ogonach wnioskowanie oparte na normalnym przybliżeniu może być mylące (nie jestem pewien, w jaki sposób / jeśli nie zgadza się to z wszystko z tym, co mówisz) i dobrze byłoby rozważyć alternatywę (np. bootstrap). .
Makro
10

Myślę, że chcesz spojrzeć na wszystkie właściwości pozostałości.

  1. normalność
  2. stała wariancja
  3. skorelowane z współzmienną.
  4. kombinacje powyższych

Jeśli jest to tylko 1 i jest to spowodowane ciężkim ogonem lub skośnością z powodu jednego ciężkiego ogona, solidna regresja może być dobrym podejściem lub być może transformacją do normalności. Jeśli jest to niestała wariancja, spróbuj transformacji stabilizującej wariancję lub spróbuj modelować funkcję wariancji. Jeśli jest to tylko 3, sugeruje to inną formę modelu obejmującą tę zmienną towarzyszącą. Niezależnie od problemu ładowanie wektorów lub reszt jest zawsze możliwe.

Michael Chernick
źródło
Czy dla 1 możesz nieco rozwinąć kwestię transformacji do normalności dla grubo resztkowych resztek?
Robert Kubrick,
2
transformacja kłody lub Box-Cox z małą lambda kurczą ogony. Może to działać w przypadku niektórych ciężkich i rozłożonych dystrybucji. Nie wiem co, jeśli jakieś transformacje będą działać dla bardzo grubych dystrybucji.
Michael Chernick
3
Ładne odpowiedzi Michael. Zacząłem bardziej rutynowo używać bootstrapu dla przedziałów ufności obejmujących oszacowania regresji i ogólne kontrasty, i ułatwiłem to w moim rmspakiecie R. Ale jak zasugerowałeś, znalezienie transformacji, która poprawi stabilność wariancji, a czasem poprawiając normalność reszt, często ma kilka zalet, nawet jeśli ładujemy bootstrap. Oszacowania metodą najmniejszych kwadratów przy użyciu „złej” transformacji mogą być bardzo nieefektywne i prowadzić do dużych średnich bezwzględnych i średnich błędów bezwzględnych w prognozach. Lubię też stosować modele regresji półparametrycznej.
Frank Harrell,
2

Moje doświadczenie jest całkowicie zgodne z Michaelem Chernickiem. Nie tylko zastosowanie transformacji danych powoduje, że błąd modelowania jest normalnie rozkładany, ale może również skorygować heteroskedastyczność.

Przepraszam, ale sugerowanie inaczej, jak zbieranie szalonej ilości danych lub stosowanie mniej wydajnych, niezawodnych metod regresji, jest moim zdaniem mylące, gdy praktykuję tę naukę / sztukę.

AJKOER
źródło
1

Makro (jsut powyżej) podało poprawną odpowiedź. Tylko trochę precyzji, bo miałem to samo pytanie

Warunek normalności reszt jest użyteczny, gdy reszty są również homoskedastyczne. W rezultacie OLS ma najmniejszą wariancję między wszystkimi estymatorami (liniowy OR nieliniowy).

Rozszerzone założenia OLS:

  1. E(u|Xi=x)=0
  2. (Xi,Yi),i=1,,n,
  3. Duże wartości odstające są rzadkie
  4. jesteś homoskedastyczny
  5. u jest dystrybuowaneN(0,σ2)

jeśli zweryfikowano 1-5, wówczas OLS ma najmniejszą wariancję między wszystkimi estymatorami (liniowy LUB nieliniowy) .

jeśli weryfikowany jest tylko 1-4, to według Gaussa-Markowa OLS jest najlepszym liniowym (tylko!) estymatorem (NIEBIESKI).

Źródło: Stock i Watson, ekonometria + mój kurs (EPFL, ekonometria)

firepod
źródło
Nie ma wymogu normalności dla zwykłych najmniejszych kwadratów w resztach, chociaż normalność nadaje pewne pożądane właściwości, na przykład do analizy maksymalnego prawdopodobieństwa. Ten ostatni jest często używany w kryterium informacyjnym Akaike. Jest to jednak niepotrzebnie restrykcyjne, rzadko spotykane, a bardziej formalnym wymogiem jest homoscedastyczność, a nie normalność, co jest szczęśliwe, ponieważ w przeciwnym przypadku nie byłoby zastosowania zwykłych najmniejszych kwadratów y.
Carl
@Carl: ściśle mówiąc, nie ma żadnych wymagań dotyczących OLS, nawet 1 lub 2 (poproś Excela o uruchomienie regresji i nie będzie zadawać pytań): normalność jest jedną z kilku właściwości, które sprawiają, że wnioskowanie jest sensowne, np. Przewidywanie, zaufanie interwały, testy.
PatrickT
@PatrickT Możliwość obliczenia czegoś nie nadaje znaczenia. Na przykład regresja liniowa OLS wokół linii z rozproszonymi błędami wartości Cauchy'ego zwiększa CI nachylenia i przechwytuje, aby przyjąć praktycznie wszystko, nie zwraca oryginalnej linii ani nachylenia. Można to nazwać kalkulacją Pyrrhic. y
Carl
Musimy mówić to samo. Być może zdanie pierwszego komentarza mnie zdezorientowało.
PatrickT
1

W przypadku warunków nienormalnych można czasem zastosować solidną regresję , szczególnie używając linków do metod .

Aby przedstawić kontekst nienormalności, pomocne może być przejrzenie założeń dotyczących regresji liniowej OLS , które są:

  • Słaba egzogeniczność . Zasadniczo oznacza to, że zmienne predykcyjne, x , mogą być traktowane jako wartości stałe, a nie zmienne losowe. Oznacza to na przykład, że zakłada się, że zmienne predykcyjne są wolne od błędów - to znaczy nie są zanieczyszczone błędami pomiaru. To założenie jest najczęściej naruszane i prowadzi do błędów wyliczonych zgodnie z tą listą założeń.
  • Liniowość. Oznacza to, że średnia zmiennej odpowiedzi jest liniową kombinacją parametrów (współczynników regresji) i zmiennych predykcyjnych. Zauważ, że to założenie jest znacznie mniej restrykcyjne, niż mogłoby się początkowo wydawać. Ponieważ zmienne predykcyjne są traktowane jako wartości stałe (patrz wyżej), liniowość jest tak naprawdę ograniczeniem parametrów. Same zmienne predykcyjne mogą być dowolnie transformowane, aw rzeczywistości można dodać wiele kopii tej samej podstawowej zmiennej predykcyjnej, każda transformowana inaczej.
  • Stała wariancja (inaczej homoscedastyczność). Oznacza to, że różne wartości zmiennej odpowiedzi mają tę samą wariancję w swoich błędach, niezależnie od wartości zmiennych predykcyjnych. W praktyce założenie to jest nieważne (tj. Błędy są heteroscedastyczne), jeżeli zmienna odpowiedzi może się zmieniać w szerokim zakresie. W celu sprawdzenia heterogenicznej wariancji błędu lub gdy wzór reszt narusza założenia modelu homoscedastyczności (błąd jest jednakowo zmienny wokół „najlepiej dopasowanej linii” dla wszystkich punktów x), rozsądnie jest szukać „efektu wachlowania” między błędem resztkowym a przewidywanymi wartościami. Oznacza to, że nastąpi systematyczna zmiana wartości bezwzględnych lub kwadratowych po wykreśleniu ze zmiennymi predykcyjnymi. Błędy nie będą równomiernie rozłożone w linii regresji. Heteroscedastyczność spowoduje uśrednienie rozróżnialnych różnic wokół punktów, aby uzyskać pojedynczą wariancję, która niedokładnie reprezentuje wszystkie wariancje linii. W efekcie reszty wydają się skupione i rozłożone na swoich przewidywanych wykresach dla coraz większych wartości punktów wzdłuż linii regresji liniowej, a średni błąd kwadratu dla modelu będzie błędny.
  • Niezależność błędów. Zakłada się, że błędy zmiennych odpowiedzi są ze sobą nieskorelowane. (Rzeczywista niezależność statystyczna jest silniejszym warunkiem niż zwykły brak korelacji i często nie jest potrzebna, chociaż można ją wykorzystać, jeśli wiadomo, że się utrzymuje. Ta ostatnia może być zbadana za pomocą analizy skupień i korekty interakcji). Niektóre metody (np. Uogólnione najmniejszych kwadratów) są w stanie obsłużyć skorelowane błędy, chociaż zwykle wymagają znacznie więcej danych, chyba że zastosuje się pewien rodzaj regularyzacji w celu odchylenia modelu w kierunku przyjęcia niepowiązanych błędów. Bayesowska regresja liniowa jest ogólnym sposobem radzenia sobie z tym problemem.
  • Zależność statystyczna między warunkami błędu a regresorami odgrywa ważną rolę w określaniu, czy procedura szacowania ma pożądane właściwości próbkowania, takie jak obiektywność i spójność.

  • Rozmieszczenie lub rozkład prawdopodobieństwa zmiennych predykcyjnych x ma duży wpływ na dokładność oszacowań β. Pobieranie próbek i projektowanie eksperymentów są wysoce rozwiniętymi polami statystycznymi, które dostarczają wskazówek w zakresie gromadzenia danych w taki sposób, aby uzyskać dokładne oszacowanie β.

Jak ilustruje ta odpowiedź , symulowane rozkłada błędy osi z linii prowadzącej do linii regresji OLS z przedziałami ufności dla nachylenia i przechwytywania, które zwiększają rozmiar wraz ze spadkiem stopni swobody ( ). Dla , Student- jest rozkładem Cauchy'ego, a przedziały ufności dla nachylenia stają się .tydfdf=1t(,+)

Wywoływanie rozkładu Cauchy'ego w odniesieniu do reszt jest arbitralne w tym sensie, że gdy błędy generujące są rozkładane Cauchy'ego, resztki OLS z fałszywej linii przechodzącej przez dane byłyby jeszcze mniej niezawodne, tj. Wyrzucanie śmieci - wyrzucanie śmieci. W takich przypadkach można zastosować regresję regresji Theil-Sen . Theil-Sen jest z pewnością bardziej odporny niż OLS na nienormalne reszty, np. Błąd rozproszenia Cauchy'ego nie pogorszyłby przedziałów ufności i w przeciwieństwie do OLS jest również regułą dwuwariantową, jednak w przypadku dwuwariantowym jest nadal tendencyjny. Regresja przechodząca-Bablok może być bardziej dwuwariantowa, ale nie ma zastosowania do nachyleń regresji ujemnej. Najczęściej stosuje się go w badaniach porównawczych metod. Należy wspomnieć o regresji Demingatutaj, w przeciwieństwie do regresji Theil-Sen i Passing-Bablok, jest to rzeczywiste rozwiązanie problemu dwuwariantowego, ale brakuje mu solidności tych innych regresji. Odporność można zwiększyć poprzez obcięcie danych w celu uwzględnienia bardziej centralnych wartości, np. Konsensus losowej próby (RANSAC) jest iteracyjną metodą szacowania parametrów modelu matematycznego na podstawie zestawu obserwowanych danych, które zawierają wartości odstające.

Czym zatem jest regresja dwuwymiarowa? Brak testowania dwuwariantowego charakteru problemów jest najczęstszą przyczyną rozcieńczenia regresji OLS i został dobrze zaprezentowany gdzie indziej na tej stronie. Pojęcie uprzedzenia OLS w tym kontekście nie jest dobrze rozpoznane, patrz na przykład Frost i Thompson, jak przedstawili Longford i in. (2001), który odsyła czytelnika do innych metod, rozszerzając model regresji w celu potwierdzenia zmienności zmiennej , aby nie powstało żadne odchylenie . Innymi słowy, dwuwymiarowej regresji wielkości liter czasami nie można zignorować, gdy zarówno -, jak ix1 x y x y y 2 x y x y = f ( x )1xy-wartości są losowo dystrybuowane. Potrzeba regresji dwuwymiarowej można sprawdzić, dopasowując linię regresji OLS do reszt z regresji danych OLS. Następnie, jeśli reszty OLS mają niezerowe nachylenie, problem jest dwuwymiarowy, a regresja OLS danych będzie miała nachylenie, które jest zbyt płytkie, i punkt przecięcia, który jest zbyt duży, aby reprezentować zależność funkcjonalną od do . W takich przypadkach estymator liniowy najmniejszych błędów wartości rzeczywiście nadal pochodzi z regresji OLS, a jego wartość R będzie mieć maksymalną możliwą wartość, ale linia regresji OLS nie będzie reprezentować faktycznej funkcji linii, która odnosi się ixyy2xy losowe zmienne. Jako przeciwny przykład, gdy, jak ma to miejsce wśród innych problemów w szeregu czasowym z jednakowo odległymi wartościami , OLS surowych danych nie zawsze jest niewłaściwe, może reprezentować najlepszą linię , ale nadal podlega transformacja zmiennych, na przykład dla danych zliczania, należy wziąć pierwiastek kwadratowy z liczb, aby przekształcić błędy błędu rozproszonego Poissona na bardziej normalne warunki, i nadal należy sprawdzać niezerowe nachylenie reszt. xy=f(x)

  1. Longford, NT (2001). "Korespondencja". Journal of Royal Statistics Society, Series A. 164: 565. doi: 10.1111 / 1467-985x.00219
Carl
źródło