Jakie są typowe założenia regresji liniowej?
Czy obejmują one:
- liniowa zależność między zmienną niezależną i zależną
- niezależne błędy
- normalny rozkład błędów
- homoscedastyczność
Czy są jeszcze jakieś?
regression
assumptions
Tony
źródło
źródło
Odpowiedzi:
Odpowiedź zależy w dużej mierze od tego, jak zdefiniujesz kompletne i zwykłe. Załóżmy, że zapisujemy model regresji liniowej w następujący sposób:
gdzie jest wektorem zmiennych predykcyjnych, jest parametrem przedmiotem zainteresowania, jest zmienną odpowiedzi, a są zaburzeniem. Jednym z możliwych oszacowań jest oszacowanie metodą najmniejszych kwadratów:xi β yi ui β β^=argminβ∑(yi−xiβ)2=(∑xix′i)−1∑xiyi.
Teraz praktycznie wszystkie podręczniki zajmują się założeniami, gdy szacunek ma pożądane właściwości, takie jak bezstronność, spójność, wydajność, niektóre właściwości dystrybucyjne itp.β^
Każda z tych właściwości wymaga pewnych założeń, które nie są takie same. Lepszym pytaniem byłoby więc pytanie, które założenia są potrzebne dla pożądanych właściwości oszacowania LS.
Wymienione powyżej właściwości wymagają pewnego modelu prawdopodobieństwa regresji. I tutaj mamy sytuację, w której różne modele są używane w różnych zastosowanych polach.
Prostym przypadkiem jest traktowanie jako niezależnych zmiennych losowych, przy czym jest nieprzypadkowy. Nie podoba mi się słowo zwykłe, ale możemy powiedzieć, że jest to zwykły przypadek w większości stosowanych dziedzin (o ile mi wiadomo).yi xi
Oto lista niektórych pożądanych właściwości szacunków statystycznych:
Istnienie
Właściwość egzystencji może wydawać się dziwna, ale jest bardzo ważna. W definicji odwracamy macierzβ^ ∑xix′i.
Nie ma gwarancji, że odwrotność tej macierzy istnieje dla wszystkich możliwych wariantów . Natychmiast otrzymujemy nasze pierwsze założenie:xi
Macierz powinna mieć pełną rangę, czyli odwracalną.∑xix′i
Bezstronność
Mamy jeśliEβ^=(∑xix′i)−1(∑xiEyi)=β, Eyi=xiβ.
Możemy zaliczyć to drugie założenie, ale mogliśmy to stwierdzić wprost, ponieważ jest to jeden z naturalnych sposobów definiowania relacji liniowej.
Zauważ, że aby uzyskać bezstronność, potrzebujemy tylko, aby dla wszystkich , i były stałymi. Właściwość Niezależność nie jest wymagana.Eyi=xiβ i xi
Konsystencja
Aby uzyskać założenia dotyczące spójności, musimy jaśniej określić, co rozumiemy przez . Dla sekwencji zmiennych losowych mamy różne tryby zbieżności: w prawdopodobieństwie, prawie na pewno, w rozkładzie i czuciowym momencie. Załóżmy, że chcemy uzyskać zbieżność prawdopodobieństwa. Możemy użyć prawa dużej liczby lub bezpośrednio użyć wielowymiarowej nierówności Czebyszewa (wykorzystując fakt, że ):→ p Eβ^=β
(Ten wariant nierówności wynika bezpośrednio z zastosowania nierówności Markowa do , zauważając, że .)∥β^−β∥2 E∥β^−β∥2=TrVar(β^)
Ponieważ zbieżność prawdopodobieństwa oznacza, że lewy termin musi zniknąć dla każdego jako , potrzebujemy tego jako . Jest to całkowicie uzasadnione, ponieważ przy większej ilości danych dokładność, z jaką szacujemy powinna wzrosnąć.ε>0 n→∞ Var(β^)→0 n→∞ β
MamyVar(β^)=(∑xix′i)−1(∑i∑jxix′jCov(yi,yj))(∑xix′i)−1.
Niezależność zapewnia, że , stąd wyrażenie upraszcza się doCov(yi,yj)=0 Var(β^)=(∑xix′i)−1(∑ixix′iVar(yi))(∑xix′i)−1.
Załóżmy teraz, że , a następnieVar(yi)=const Var(β^)=(∑xix′i)−1Var(yi).
Teraz, jeśli dodatkowo wymagamy ograniczenia dla każdego , natychmiast otrzymujemy1n∑xix′i n Var(β)→0 as n→∞.
Aby więc uzyskać spójność, przyjęliśmy, że nie ma autokorelacji ( ), wariancja jest stała, a nie rosną zbytnio. Pierwsze założenie jest spełnione, jeśli pochodzi z niezależnych próbek.Cov(yi,yj)=0 Var(yi) xi yi
Wydajność
Klasycznym rezultatem jest twierdzenie Gaussa-Markowa . Warunki są dokładnie dwoma pierwszymi warunkami spójności i warunkiem bezstronności.
Właściwości dystrybucyjne
Jeśli są normalne, natychmiast otrzymujemy, że jest normalny, ponieważ jest to liniowa kombinacja normalnych zmiennych losowych. Jeśli przyjmiemy wcześniejsze założenia niezależności, nieskorelacji i stałej wariancji, otrzymamy, że gdzie .yi β^ β^∼N(β,σ2(∑xix′i)−1) Var(yi)=σ2
Jeśli nie są normalne, ale niezależne, możemy uzyskać przybliżony rozkład dzięki centralnemu twierdzeniu o limicie. W tym celu trzeba przyjąć, że na pewnym macierzy . Stała wariancja normalności asymptotycznej nie jest wymagana, jeśli założymy, żeyi β^ limn→∞1n∑xix′i→A A limn→∞1n∑xix′iVar(yi)→B.
Należy zauważyć, że ze stałym wariancją mamy że . Twierdzenie o granicy centralnej daje nam następujący wynik:y B=σ2A
Z tego wynika, że niezależność i stała wariancja dla oraz pewne założenia dla dają nam wiele użytecznych właściwości dla oszacowania LS .yi xi β^
Chodzi o to, że te założenia można rozluźnić. Na przykład wymagaliśmy, aby nie były zmiennymi losowymi. To założenie nie jest wykonalne w zastosowaniach ekonometrycznych. Jeśli pozwolimy, aby była losowa, możemy uzyskać podobne wyniki, jeśli użyjemy warunkowych oczekiwań i uwzględnimy losowość . Założenie dotyczące niezależności można również złagodzić. Wykazaliśmy już, że czasami potrzebna jest tylko nieskorelacja. Nawet to można dodatkowo rozluźnić i nadal można wykazać, że oszacowanie LS będzie spójne i asymptotycznie normalne. Więcej informacji można znaleźć na przykład w książce White'a .xi xi xi
źródło
Istnieje wiele dobrych odpowiedzi tutaj. Przyszło mi do głowy, że istnieje jedno założenie, które nie zostało jednak stwierdzone (przynajmniej nie wprost). W szczególności model regresji zakłada, że (wartości zmiennych objaśniających / predykcyjnych) jest stały i znany , oraz że cała niepewność sytuacji występuje w obrębie zmiennejPonadto zakłada się, że niepewność ta jest jedynie błędem próbkowania .X Y
Oto dwa sposoby, aby myśleć o tym: Jeśli budujesz model wyjaśniający (modelowanie wyników doświadczeń), wiesz dokładnie, co poziomy zmiennych niezależnych są, bo jesteś manipulowany / podawano im. Ponadto zdecydowałeś, jakie będą te poziomy, zanim zaczniesz gromadzić dane. Więc konceptualizujesz całą niepewność relacji istniejącą w odpowiedzi. Z drugiej strony, jeśli budujesz model predykcyjny, to prawda, że sytuacja jest inna, ale nadal traktujesz predyktory tak, jakby były ustalone i znane, ponieważ w przyszłości, gdy użyjesz modelu do prognozy o prawdopodobnej wartości , będziesz miał wektor,y x , a model zaprojektowano tak, aby traktował te wartości tak, jakby były poprawne. Oznacza to, że poczujesz niepewność jako nieznaną wartość . y
Te założenia można zobaczyć w równaniu prototypowego modelu regresji: Model o niepewności (być może z powodu błędu pomiaru) w również może mieć ten sam proces generowania danych, ale model Szacuje się, że wyglądałoby to tak: gdzie reprezentuje losowy błąd pomiaru. (Sytuacje takie jak ta druga doprowadziły do pracy nad błędami w modelach zmiennych ; podstawowym wynikiem jest to, że jeśli występuje błąd pomiaru w , naiwny
Jedną praktyczną konsekwencją wewnętrznej asymetrii w typowym założeniu jest to, że regresja na różni się od regresji na . (Zobacz moją odpowiedź tutaj: Jaka jest różnica między przeprowadzeniem regresji liniowej dla y względem x kontra x dla y? W celu bardziej szczegółowego omówienia tego faktu.)y x x y
źródło
Założenia klasycznego modelu regresji liniowej obejmują:
Chociaż odpowiedzi tutaj zapewniają już dobry przegląd klasycznego założenia OLS, bardziej wyczerpujący opis założenia klasycznego modelu regresji liniowej można znaleźć tutaj:
https://economictheoryblog.com/2015/04/01/ols_assumptions/
Ponadto artykuł opisuje konsekwencje w przypadku naruszenia pewnych założeń.
źródło
Do uzasadnienia OLS można zastosować różne założenia
Co daje?!
Odpowiedź jest taka, że można użyć nieco różnych zestawów założeń, aby uzasadnić zastosowanie zwykłego oszacowania metodą najmniejszych kwadratów (OLS). OLS to narzędzie takie jak młotek: możesz użyć młotka do paznokci, ale możesz go również użyć do kołków, aby rozbić lód itp.
Dwie szerokie kategorie założeń to te, które dotyczą małych próbek i te, które opierają się na dużych próbkach, aby można było zastosować centralne twierdzenie graniczne .
1. Założenia małej próby
Małe przykładowe założenia omówione w Hayashi (2000) to:
Pod (1) - (4) obowiązuje twierdzenie Gaussa-Markowa , a zwykły estymator najmniejszych kwadratów jest najlepszym liniowym estymatorem obiektywnym.
Dalsze przyjęcie normalnych terminów błędów pozwala na testowanie hipotez . Jeśli warunki błędu są warunkowo normalne, rozkład estymatora OLS jest również warunkowo normalny.
Innym godnym uwagi punktem jest to, że przy normalności estymator OLS jest również estymatorem maksymalnego prawdopodobieństwa .
2. Założenia dużej próby
Założenia te można modyfikować / rozluźniać, jeśli mamy wystarczająco dużą próbkę, abyśmy mogli oprzeć się na prawie wielkich liczb (dla spójności estymatora OLS) i centralnym twierdzeniu granicznym (tak, aby rozkład próbkowania estymatora OLS był zbieżny z rozkład normalny i możemy przeprowadzić test hipotez, porozmawiać o wartościach p itd.).
Hayashi jest facetem od makroekonomii, a jego założenia dotyczące dużej próby zostały sformułowane z uwzględnieniem kontekstu szeregów czasowych:
Możesz napotkać silniejsze wersje tych założeń, na przykład, że terminy błędów są niezależne.
Prawidłowe założenia dla dużej próby prowadzą do rozkładu prób estymatora OLS, który jest asymptotycznie normalny.
Bibliografia
Hayashi, Fumio, 2000, Econometrics
źródło
Wszystko zależy od tego, co chcesz zrobić ze swoim modelem. Wyobraź sobie, że Twoje błędy były wypaczone / nienormalne. Jeśli chcesz zrobić przedział predykcji, możesz zrobić coś lepszego niż użycie rozkładu T. Jeśli Twoja wariancja jest mniejsza przy mniejszych przewidywanych wartościach, ponownie zrobiłbyś przedział predykcji, który jest zbyt duży.
Lepiej zrozumieć, dlaczego istnieją takie założenia.
źródło
Poniższe diagramy pokazują, jakie założenia są wymagane, aby uzyskać implikacje w scenariuszach skończonych i asymptotycznych.
Myślę, że ważne jest, aby pomyśleć nie tylko o tym, jakie są założenia, ale jakie są implikacje tych założeń. Na przykład, jeśli zależy ci tylko na obiektywnych współczynnikach, nie potrzebujesz homoskedastyczności.
źródło
Poniżej przedstawiono założenia analizy regresji liniowej.
Prawidłowa specyfikacja . Liniowa forma funkcjonalna jest poprawnie określona.
Ścisła egzogeniczność . Błędy w regresji powinny mieć warunkową średnią zero.
Brak wielokoliniowości . Regresory w X muszą być liniowo niezależne.
Homoscedastyczność, co oznacza, że termin błędu ma tę samą wariancję w każdej obserwacji.
Brak autokorelacji : błędy są nieskorelowane między obserwacjami.
Normalność. Czasami zakłada się dodatkowo, że błędy mają rozkład normalny zależny od regresorów.
Iid spostrzeżenia : jest niezależny i ma taki sam rozkład, jak dla wszystkich .(xi,yi) (xj,yj) i≠j
Aby uzyskać więcej informacji odwiedź tę stronę .
źródło
Nie ma czegoś takiego jak pojedyncza lista założeń, będą co najmniej 2: jedno dla ustalonego i jedno dla losowej macierzy projektowej. Ponadto możesz przyjrzeć się założeniom regresji szeregów czasowych (patrz str. 13)
Przypadek, w którym macierz projektowa jest stała, może być najbardziej powszechna, a jej założenia są często wyrażane jako twierdzenie Gaussa-Markowa . Stała konstrukcja oznacza, że naprawdę kontrolujesz regresory. Na przykład przeprowadzasz eksperyment i możesz ustawić parametry, takie jak temperatura, ciśnienie itp. Patrz także str . 13 tutaj .X
Niestety w naukach społecznych, takich jak ekonomia, rzadko można kontrolować parametry eksperymentu. Zwykle obserwujesz, co dzieje się w gospodarce, rejestrujesz wskaźniki środowiska, a następnie je regresujesz. Okazuje się, że jest to bardzo inna i trudniejsza sytuacja, zwana przypadkowym projektem. W tym przypadku twierdzenie Gaussa-Markowa jest modyfikowana również zobaczyć str.12 tutaj . Możesz zobaczyć, jak warunki są teraz wyrażane w kategoriach prawdopodobieństw warunkowych , co nie jest nieszkodliwą zmianą.
W ekonometrii założenia mają nazwy:
Zauważ, że nigdy nie wspominałem o normalności. To nie jest standardowe założenie. Jest często używany w kursach regresji wstępnej, ponieważ ułatwia niektóre pochodne, ale nie jest wymagany, aby regresja działała i miała ładne właściwości.
źródło
Założeniem liniowości jest to, że model ma parametry liniowe. Dobrze jest mieć model regresji z efektami kwadratowymi lub wyższego rzędu, o ile funkcja mocy zmiennej niezależnej jest częścią liniowego modelu addytywnego. Jeśli model nie zawiera warunków wyższego rzędu, kiedy powinien, wówczas brak dopasowania będzie widoczny na wykresie reszt. Jednak standardowe modele regresji nie obejmują modeli, w których zmienna niezależna jest podnoszona do potęgi parametru (chociaż istnieją inne podejścia, które można zastosować do oceny takich modeli). Takie modele zawierają parametry nieliniowe.
źródło
Współczynnik regresji najmniejszych kwadratów zapewnia sposób na podsumowanie trendu pierwszego rzędu w dowolnym rodzaju danych. Odpowiedź @mpiktas polega na dokładnym przeanalizowaniu warunków, w których najmniejsze kwadraty są coraz bardziej optymalne. Chciałbym pójść w drugą stronę i pokazać najbardziej ogólny przypadek, kiedy działa najmniejszych kwadratów. Zobaczmy najbardziej ogólne sformułowanie równania najmniejszych kwadratów:
Jest to po prostu model liniowy dla warunkowej średniej odpowiedzi.
Uwaga: Usunąłem termin błędu. Jeśli chcesz podsumować niepewność , musisz odwołać się do centralnego twierdzenia o limicie. Najbardziej ogólna klasa estymatorów najmniejszych kwadratów zbliża się do normalnej, gdy warunek Lindeberga jest spełniony : sprowadzony, warunek Lindeberga dla najmniejszych kwadratów wymaga, aby ułamek największej reszty kwadratowej w sumie sumy reszty kwadratowej musiał wynosić 0, ponieważ . Jeśli twój projekt będzie pobierał coraz większe pozostałości, wówczas eksperyment jest „martwy w wodzie”.β n→∞
Gdy warunek Lindeberga jest spełniony, parametr regresji jest dobrze zdefiniowany, a estymator jest obiektywnym estymatorem o znanym przybliżonym rozkładzie. Mogą istnieć bardziej wydajne estymatory. W innych przypadkach heteroscedastyczności lub skorelowanych danych zwykle ważony estymator jest bardziej wydajny . Dlatego nigdy nie zalecałbym stosowania naiwnych metod, gdy dostępne są lepsze. Ale często nie są!β β^
źródło