Założenia dotyczące najmniejszych kwadratów

9

Załóżmy następującą zależność liniową: , gdzie jest zmienną zależną, pojedynczą zmienną niezależną, a termin błędu.Yi=β0+β1Xi+uiYiXiui

Według Stock & Watson (Wprowadzenie do ekonometrii; Rozdział 4 ), trzecim najmniejszym kwadratem jest założenie, że czwarte momenty i są niezerowe i skończone .Xiui(0<E(Xi4)< and 0<E(ui4)<)

Mam trzy pytania:

  1. Nie do końca rozumiem rolę tego założenia. Czy OLS jest stronniczy i niespójny, jeśli to założenie się nie sprawdza, czy też potrzebujemy tego założenia do wnioskowania?

  2. Stock i Watson piszą: „założenie to ogranicza prawdopodobieństwo wyciągnięcia obserwacji z wyjątkowo dużymi wartościami lub ”. Mam jednak intuicję, że to założenie jest ekstremalne. Czy mamy kłopoty, jeśli mamy duże wartości odstające (takie, że czwarte momenty są duże), ale jeśli te wartości są wciąż skończone? Nawiasem mówiąc: Jaka jest podstawowa definicja odstająca?Xiui

  3. Możemy przeformułować to w następujący sposób: „kurtozę i są niezerowe i skończona?”Xiui

kawaler
źródło
Niestety nie mogę teraz napisać pełnej odpowiedzi, ale aby odpowiedzieć na pytanie: 1, spójność OLS działa niezależnie. 2, nie ma jasnej definicji wartości odstających, ale OLS działa dobrze w dużej próbce w obecności wartości odstających. 3, za moje życie nie mogę wymyślić przykładu, w którym to nie byłoby prawdą, ale ktoś może udowodnić, że się mylę, więc nie ma gwarancji
Repmat
5
Spieram się "ale OLS działa dobrze w dużej próbce w obecności wartości odstających" ... weź wystarczająco dużą wartość odstającą w przestrzeni X (tj. Wpływową obserwację), a jeden punkt może zmusić LS do przejścia przez nią; jeśli jest to także wartość odstająca w kierunku Y, linia nadal będzie przechodzić przez ten jeden punkt, bez względu na to, jak ekstremalna jest.
Glen_b
2
Wartości odstające są łatwe do zdefiniowania. Są to obserwacje niezgodne z wzorcem większości danych. Jak pokazuje przykład Glen_b, taki punkt ma nieuzasadniony wpływ na dopasowanie, na granicy przeważającej nad wszystkimi innymi obserwacjami w zbiorze danych, co prowadzi do bardzo tendencyjnych oszacowań.
user603,
1
@ user603 Jasne ... i co z tego ... jeszcze nie spotkałem programu / skryptu, który automatycznie wykrywa wartości odstające i robi to w jasny sposób, że wszyscy się zgadzamy, jest właściwy sposób ... więc zgadzam się z twoim sentymentem, to nie pomaga OP
Repmat
@Repmat: proszę ponownie przeczytać pytanie OP. Mój komentarz bezpośrednio odpowiada na jedno z tamtych zdań, które są przerywane znakiem zapytania.
user603

Odpowiedzi:

9

Zdajesz nie potrzeba założenia na 4. momentów dla spójności estymatora OLS, ale trzeba robić założeń potrzebujemy na wyższych momentówx i ϵ dla asymptotycznej normalności i konsekwentnego szacowania, czym jest asymptotyczna macierz kowariancji.

W pewnym sensie jest to jednak punkt matematyczny, techniczny, a nie praktyczny. Aby OLS działał dobrze w skończonych próbkach, w pewnym sensie wymaga więcej niż minimalnych założeń niezbędnych do osiągnięcia asymptotycznej spójności lub normalności, ponieważn.

Wystarczające warunki dla spójności:

Jeśli masz równanie regresji:

yi=xiβ+ϵi

Estymator OLS można zapisać jako: b^

b^=β+(XXn)1(Xϵn)

Aby zachować spójność , musisz być w stanie zastosować prawo wielkich liczb Kołmogorowa lub, w przypadku szeregów czasowych z szeregową zależnością, coś w rodzaju twierdzenia Ergodycznego Karlina i Taylora, aby:

1nXXpE[xixi]1nXϵpE[xiϵi]

Inne potrzebne założenia to:

  • E[xixi] ma pełną rangę, a zatem macierz jest odwracalna.
  • Regresory są z góry określone lub ściśle egzogeniczne, więc .E[xiϵi]=0

Następnie a otrzymasz(XXn)1(Xϵn)p0b^pβ

Jeśli chcesz centralne twierdzenie graniczne zastosować wtedy trzeba założenia dotyczące wyższych momentach, na przykład, gdzie . Centralne twierdzenie o limicie daje asymptotyczną normalność i pozwala mówić o standardowych błędach. Aby istniał drugi moment , potrzebujesz czwartego momentu i . Chcesz argumentować, że gdzieE[gigi]gi=xiϵib^E[gigi]xϵn(1nixiϵi)dN(0,Σ)Σ=E[xixiϵi2] . Aby to zadziałało, musi być skończona.Σ

Ładna dyskusja (która motywowała ten post) znajduje się w Econometrics Hayashi . (Zobacz także s. 149, aby zapoznać się z 4. momentami i oszacowaniem macierzy kowariancji).

Dyskusja:

Te wymagania dotyczące 4 momentów są prawdopodobnie punktem technicznym, a nie praktycznym. Prawdopodobnie nie spotkasz się z rozkładami patologicznymi, jeśli jest to problem w codziennych danych? Chodzi o bardziej powszechne lub inne założenia OLS.

Innym pytaniem, na które niewątpliwie odpowiedziano w innym miejscu na Stackexchange, jest to, jak duża próbka jest potrzebna, aby próbki skończone zbliżyły się do asymptotycznych wyników. W pewnym sensie fantastyczne wartości odstające prowadzą do powolnej konwergencji. Na przykład spróbuj oszacować średnią rozkładu logarytmicznego z naprawdę dużą wariancją. Średnia próbki jest spójnym, bezstronnym estymatorem średniej populacji, ale w tym logarytmicznym przypadku z szalonym nadmiarem kurtozy itp. (Link), skończone wyniki próby są naprawdę bardzo złe.

Skończone vs. nieskończone jest niezwykle ważnym rozróżnieniem w matematyce. To nie jest problem, który napotykasz w codziennych statystykach. Problemy praktyczne są bardziej w kategorii małej kontra dużej. Czy wariancja, kurtoza itp. Są wystarczająco małe, aby uzyskać rozsądne oszacowania na podstawie wielkości mojej próbki?

Patologiczny przykład, w którym estymator OLS jest spójny, ale nie asymptotycznie normalny

Rozważać:

yi=bxi+ϵi
Gdzie ale jest rysowane z rozkładu t o 2 stopniach swobody, więc . Oszacowanie OLS jest zbieżne z prawdopodobieństwem do ale rozkład próbki dla oszacowania OLS zwykle nie jest rozkładem. Poniżej przedstawiono rozkład empiryczny dla oparty na 10000 symulacjach regresji z 10000 obserwacji.xiN(0,1)ϵiVar(ϵi)=bb^b^QQPlot dla estymatora (nie jest zbieżny w rozkładzie do normalnego)

Rozkład nie jest normalny, ogony są zbyt ciężkie. Ale jeśli zwiększysz stopnie swobody do 3, aby istniał drugi moment , wówczas obowiązuje centralny limit i otrzymujesz: b^ϵiQQPlot dla estymatora (zbieżny w rozkładzie do normalnego)

Kod do wygenerowania:

beta = [-4; 3.7];
n = 1e5;    
n_sim = 10000;    
for s=1:n_sim
    X = [ones(n, 1), randn(n, 1)];  
    u  = trnd(2,n,1) / 100;
    y = X * beta + u;

    b(:,s) = X \ y;
end
b = b';
qqplot(b(:,2));
Matthew Gunn
źródło
1
Niezła odpowiedź. Ale tak naprawdę zależy to od kontekstu: w codziennych danych nie napotkasz rozkładów patologicznych z nieistniejącymi 4. momentami. Dane finansowe (zwroty z aktywów finansowych) zazwyczaj są tak szczegółowe, że nie mają skończonego czwartego momentu. Tak więc troska o 4. moment jest tam bardzo realna. (Prawdopodobnie możesz dodać to jako nawiasowy kontrprzykład do swojego roszczenia.) Także pytanie: w twoim przykładzie, dlaczego daje asymptotyczną normalność, mimo że nie ma skończonego czwartego momentu? t(3)
Richard Hardy,
1
@RichardHardy Chcesz gdzie . Potrzebujesz czwartego momentu , a jest zasadniczo drugim momentem w kiedy jest skorelowany z . n(1nixiϵi)dN(0,Σ)Σ=E[xixiϵi2]ΣΣϵiϵi2xixi
Matthew Gunn
6
  1. Jest to założenie wystarczające, ale nie minimalne [1]. OLS nie jest stronniczy w tych warunkach, jest po prostu niespójny. Asymptotyczne właściwości OLS rozpadają się, gdy może mieć bardzo duży wpływ i / lub jeśli można uzyskać bardzo duże pozostałości. Być może nie spotkałeś się z formalną prezentacją twierdzenia centralnego limitu Lindeberga Fellera, ale do tego właśnie odnoszą się warunki czwartej chwili, a warunek Lindeberga mówi nam w zasadzie to samo: brak nadmiernych punktów wpływu, brak nadmiernie dużej dźwigni punkty [2].X

  2. Te teoretyczne podstawy statystyki powodują wiele nieporozumień, gdy sprowadza się je do praktycznych zastosowań. Nie ma definicji wartości odstającej, jest to koncepcja intuicyjna. Aby go z grubsza zrozumieć, obserwacja musiałaby być wysokim punktem dźwigni lub wysokim punktem wpływu, np. Takim, dla którego diagnostyka usuwania (DF beta) jest bardzo duża lub dla którego odległość Mahalanobisa w predyktorach jest duża (w statystykach jednowymiarowych to tylko wynik Z). Wróćmy jednak do kwestii praktycznych: jeśli przeprowadzę losową ankietę na temat ludzi i ich dochodów w gospodarstwach domowych, a na 100 osób, 1 z osób, które próbuję, jest milionerem, domyślam się, że milionerzy reprezentują 1% populacji . W wykładzie biostatystycznym te zasady są omawiane i podkreślane, że każde narzędzie diagnostyczne ma zasadniczo charakter eksploracyjny [3].nie „analiza, która wyklucza wartość odstającą, jest tą, w którą wierzę”, to znaczy „usunięcie jednego punktu całkowicie zmieniło moją analizę”.

  3. Kurtoza jest skalowaną wielkością, która zależy od drugiego momentu rozkładu, ale założenie skończonej, niezerowej wariancji dla tych wartości jest milczące, ponieważ nie można zachować tej właściwości w czwartym momencie, ale nie w drugim. Tak w zasadzie tak, ale ogólnie nigdy nie badałem ani kurtozy, ani czwartych chwil. Nie uważam ich za praktyczny ani intuicyjny środek. W dniu, w którym powstaje histogram lub wykres rozproszenia przez pstryknięcie palcami, powinniśmy korzystać z jakościowych graficznych statystyk diagnostycznych, sprawdzając te wykresy.

[1] /math/79773/how-does-one-prove-that-lindeberg-condition-is-satisfied

[2] http://projecteuclid.org/download/pdf_1/euclid.ss/1177013818

[3] http://faculty.washington.edu/semerson/b517_2012/b517L03-2012-10-03/b517L03-2012-10-03.html

AdamO
źródło
Jak już wspomniano wcześniej, intuicja dotycząca wartości odstających załamuje się, gdy jest ich więcej niż jedna. Niekoniecznie będą się wyróżniać na wykresie beta DF lub mają duże wyniki Z, ponieważ same statystyki mogą być zakłócane przez wartości odstające. Jak już mówiliśmy wcześniej, wartości odstające , jeśli pozostaną niezaznaczone, będą generować tendencyjne współczynniki, chyba że je usuniesz lub użyjesz solidnej dla nich techniki szacowania.
user603
1
Myślę, że bardziej ogólnie, wyrażając opinie, twoje odpowiedzi zyskałyby na uwzględnieniu wskazówek do odpowiedniej literatury, aby PO wiedział, która z tych opinii jest powszechnie uznawana.
user603
@ user603 Do pierwszego komentarza nie wskazałem DFbetas (ani żadnego narzędzia diagnostycznego) jako wyłącznej metody identyfikowania wartości odstających, ale z pewnością przydatnej. Podczas przeprowadzania wnioskowania półparametrycznego (niepoprawna średnia modelu) wartości NIE odchylają modeli LS. Czy możesz podać odniesienie, a nawet przykład w innym przypadku niż nieparametryczny LS? Twój drugi komentarz jest dobry i poświęcę kilka następnych chwil na dostarczenie cytatów.
AdamO,
Twoje stwierdzenie „OLS nie jest stronnicze w tych warunkach, jest po prostu niespójne” nie jest poprawne. Wyższe momenty są potrzebne do asymptotycznej normalności. Nie są one potrzebne do zachowania spójności próbek IID, do których stosuje się prawo dużych liczb Kołmogorowa.
Matthew Gunn