72

Jakie są typowe założenia regresji liniowej?

Czy obejmują one:

liniowa zależność między zmienną niezależną i zależną
niezależne błędy
normalny rozkład błędów
homoscedastyczność

Czy są jeszcze jakieś?

regression assumptions Tony
źródło

3

Dość kompletną listę można znaleźć w małej książce Williama Berry'ego w „Understanding Regression Assumptions”: books.google.com/books/about/…

3

Chociaż respondenci wymienili kilka dobrych zasobów, trudno jest odpowiedzieć w tym formacie, a (wiele) książek poświęcono wyłącznie temu tematowi. Nie ma książki kucharskiej, nie należy też uwzględniać potencjalnej różnorodności sytuacji, które mogłaby obejmować regresja liniowa.

Andy W

3

Technicznie (zwykła) regresja liniowa jest modelem w postaci , iid. To proste stwierdzenie matematyczne obejmuje wszystkie założenia. To prowadzi mnie do myślenia, @Andy W., że możesz interpretować pytanie szerzej, być może w sensie sztuki i praktyki regresji. Przydatne mogą być twoje dalsze przemyślenia na ten temat.

E [Y_{i}] = X_{i} β

$\mathbb{E}[Y_i] = \mathbf{X}_i \beta$

Y_{i}

$Y_i$

whuber

2

@Andy WI nie próbowała sugerować, że twoja interpretacja jest nieprawidłowa. Twój komentarz sugerował sposób myślenia o pytaniu wykraczającym poza założenia techniczne, być może wskazujący na to, co może być potrzebne do prawidłowej interpretacji wyników regresji. Nie byłoby konieczne pisanie traktatu w odpowiedzi, ale nawet lista niektórych z tych szerszych kwestii może być pouczająca i może poszerzyć zakres i zainteresowanie tym wątkiem.

whuber

1

@whuber jeśli Oznacza to, że środki te są różne dla różnych stąd nie może być IID :)

E Y_{i} = X_{i} β

$EY_i=X_i\beta$

i

$i$

Y_{i}

$Y_i$

mpiktas

78

Odpowiedź zależy w dużej mierze od tego, jak zdefiniujesz kompletne i zwykłe. Załóżmy, że zapisujemy model regresji liniowej w następujący sposób: $\newcommand{\x}{\mathbf{x}} \newcommand{\bet}{\boldsymbol\beta} \DeclareMathOperator{\E}{\mathbb{E}} \DeclareMathOperator{\Var}{Var} \DeclareMathOperator{\Cov}{Cov} \DeclareMathOperator{\Tr}{Tr}$

y_{i} = x_{i}^{'} β + u_{i}

$y_i = \x_i'\bet + u_i$

gdzie jest wektorem zmiennych predykcyjnych, jest parametrem przedmiotem zainteresowania, jest zmienną odpowiedzi, a są zaburzeniem. Jednym z możliwych oszacowań jest oszacowanie metodą najmniejszych kwadratów: $\mathbf{x}_i$ $\beta$ $y_i$ $u_i$ $\beta$

\hat{β} = {argmin}_{β} \sum (y_{i} - x_{i} β)^{2} = {(\sum x_{i} x_{i}^{'})}^{- 1} \sum x_{i} y_{i} .

$\hat\bet = \textrm{argmin}_{\bet}\sum(y_i-\x_i\bet)^2 = \left(\sum \x_i \x_i'\right)^{-1} \sum \x_i y_i .$

Teraz praktycznie wszystkie podręczniki zajmują się założeniami, gdy szacunek ma pożądane właściwości, takie jak bezstronność, spójność, wydajność, niektóre właściwości dystrybucyjne itp. $\hat\bet$

Każda z tych właściwości wymaga pewnych założeń, które nie są takie same. Lepszym pytaniem byłoby więc pytanie, które założenia są potrzebne dla pożądanych właściwości oszacowania LS.

Wymienione powyżej właściwości wymagają pewnego modelu prawdopodobieństwa regresji. I tutaj mamy sytuację, w której różne modele są używane w różnych zastosowanych polach.

Prostym przypadkiem jest traktowanie jako niezależnych zmiennych losowych, przy czym jest nieprzypadkowy. Nie podoba mi się słowo zwykłe, ale możemy powiedzieć, że jest to zwykły przypadek w większości stosowanych dziedzin (o ile mi wiadomo). $y_i$ $\x_i$

Oto lista niektórych pożądanych właściwości szacunków statystycznych:

Szacunek istnieje.
Bezstronność: . $E\hat\bet=\bet$
Spójność: as ( jest wielkością próbki danych). $\hat\bet \to \bet$ $n\to\infty$ $n$
Wydajność: jest mniejsza niż dla alternatywnych oszacowań od . $\Var(\hat\bet)$ $\Var(\tilde\bet)$ $\tilde\bet$ $\bet$
Możliwość przybliżenia lub obliczenia funkcji rozkładu . $\hat\bet$

Istnienie

Właściwość egzystencji może wydawać się dziwna, ale jest bardzo ważna. W definicji odwracamy macierz $\hat\beta$ $\sum \x_i \x_i'.$

Nie ma gwarancji, że odwrotność tej macierzy istnieje dla wszystkich możliwych wariantów . Natychmiast otrzymujemy nasze pierwsze założenie: $\x_i$

Macierz powinna mieć pełną rangę, czyli odwracalną. $\sum \x_i \x_i'$

Bezstronność

Mamy jeśli

E \hat{β} = {(\sum x_{i} x_{i}^{'})}^{- 1} (\sum x_{i} E y_{i}) = β,

$\E\hat\bet = \left(\sum \x_i \x_i' \right)^{-1}\left(\sum \x_i \E y_i \right) = \bet,$

E y_{i} = x_{i} β .

$\E y_i = \x_i \bet.$

Możemy zaliczyć to drugie założenie, ale mogliśmy to stwierdzić wprost, ponieważ jest to jeden z naturalnych sposobów definiowania relacji liniowej.

Zauważ, że aby uzyskać bezstronność, potrzebujemy tylko, aby dla wszystkich , i były stałymi. Właściwość Niezależność nie jest wymagana. $\E y_i = \x_i \bet$ $i$ $\x_i$

Konsystencja

Aby uzyskać założenia dotyczące spójności, musimy jaśniej określić, co rozumiemy przez . Dla sekwencji zmiennych losowych mamy różne tryby zbieżności: w prawdopodobieństwie, prawie na pewno, w rozkładzie i czuciowym momencie. Załóżmy, że chcemy uzyskać zbieżność prawdopodobieństwa. Możemy użyć prawa dużej liczby lub bezpośrednio użyć wielowymiarowej nierówności Czebyszewa (wykorzystując fakt, że ): $\to$ $p$ $\E \hat\bet = \bet$

Pr (‖ \hat{β} - β ‖ > ε) \leq \frac{Tr (Var (\hat{β}))}{ε^{2}} .

$\Pr(\lVert \hat\bet - \bet \rVert >\varepsilon)\le \frac{\Tr(\Var(\hat\bet))}{\varepsilon^2}.$

(Ten wariant nierówności wynika bezpośrednio z zastosowania nierówności Markowa do , zauważając, że .) $\lVert \hat\bet - \bet\rVert^2$ $\E \lVert \hat\bet - \bet\rVert^2 = \Tr \Var(\hat\bet)$

Ponieważ zbieżność prawdopodobieństwa oznacza, że lewy termin musi zniknąć dla każdego jako , potrzebujemy tego jako . Jest to całkowicie uzasadnione, ponieważ przy większej ilości danych dokładność, z jaką szacujemy powinna wzrosnąć. $\varepsilon>0$ $n\to\infty$ $\Var(\hat\bet)\to 0$ $n\to\infty$ $\bet$

Mamy

Var (\hat{β}) = {(\sum x_{i} x_{i}^{'})}^{- 1} (\sum_{i} \sum_{j} x_{i} x_{j}^{'} Cov (y_{i}, y_{j})) {(\sum x_{i} x_{i}^{'})}^{- 1} .

$\Var(\hat\bet) =\left( \sum \x_i \x_i' \right)^{-1} \left( \sum_i \sum_j \x_i \x_j' \Cov(y_i, y_j) \right) \left(\sum \mathbf{x}_i\mathbf{x}_i'\right)^{-1}.$

Niezależność zapewnia, że , stąd wyrażenie upraszcza się do $\Cov(y_i, y_j) = 0$

Var (\hat{β}) = {(\sum x_{i} x_{i}^{'})}^{- 1} (\sum_{i} x_{i} x_{i}^{'} Var (y_{i})) {(\sum x_{i} x_{i}^{'})}^{- 1} .

$\Var(\hat\bet) = \left( \sum \x_i \x_i' \right)^{-1} \left( \sum_i \x_i \x_i' \Var(y_i) \right) \left( \sum \x_i \x_i' \right)^{-1} .$

Załóżmy teraz, że , a następnie $\Var(y_i) = \text{const}$

Var (\hat{β}) = {(\sum x_{i} x_{i}^{'})}^{- 1} Var (y_{i}) .

$\Var(\hat\beta) = \left(\sum \x_i \x_i' \right)^{-1} \Var(y_i) .$

Teraz, jeśli dodatkowo wymagamy ograniczenia dla każdego , natychmiast otrzymujemy $\frac{1}{n} \sum \x_i \x_i'$ $n$

Var (β) \to 0 as n \to \infty .

$\Var(\bet) \to 0 \text{ as } n \to \infty.$

Aby więc uzyskać spójność, przyjęliśmy, że nie ma autokorelacji ( ), wariancja jest stała, a nie rosną zbytnio. Pierwsze założenie jest spełnione, jeśli pochodzi z niezależnych próbek. $\Cov(y_i, y_j) = 0$ $\Var(y_i)$ $\x_i$ $y_i$

Wydajność

Klasycznym rezultatem jest twierdzenie Gaussa-Markowa . Warunki są dokładnie dwoma pierwszymi warunkami spójności i warunkiem bezstronności.

Właściwości dystrybucyjne

Jeśli są normalne, natychmiast otrzymujemy, że jest normalny, ponieważ jest to liniowa kombinacja normalnych zmiennych losowych. Jeśli przyjmiemy wcześniejsze założenia niezależności, nieskorelacji i stałej wariancji, otrzymamy, że gdzie . $y_i$ $\hat\bet$

\hat{β} \sim N (β, σ^{2} {(\sum x_{i} x_{i}^{'})}^{- 1})

$\hat\bet \sim \mathcal{N}\left(\bet, \sigma^2\left(\sum \x_i \x_i' \right)^{-1} \right)$

Var (y_{i}) = σ^{2}

$\Var(y_i)=\sigma^2$

Jeśli nie są normalne, ale niezależne, możemy uzyskać przybliżony rozkład dzięki centralnemu twierdzeniu o limicie. W tym celu trzeba przyjąć, że na pewnym macierzy . Stała wariancja normalności asymptotycznej nie jest wymagana, jeśli założymy, że $y_i$ $\hat\bet$

lim_{n \to \infty} \frac{1}{n} \sum x_{i} x_{i}^{'} \to A

$\lim_{n \to \infty} \frac{1}{n} \sum \x_i \x_i' \to A$

A

$A$

lim_{n \to \infty} \frac{1}{n} \sum x_{i} x_{i}^{'} Var (y_{i}) \to B .

$\lim_{n \to \infty} \frac{1}{n} \sum \x_i \x_i' \Var(y_i) \to B.$

Należy zauważyć, że ze stałym wariancją mamy że . Twierdzenie o granicy centralnej daje nam następujący wynik: $y$ $B = \sigma^2 A$

\sqrt{n} (\hat{β} - β) \to N (0, A^{- 1} B A^{- 1}) .

$\sqrt{n}(\hat\bet - \bet) \to \mathcal{N}\left(0, A^{-1} B A^{-1} \right).$

Z tego wynika, że niezależność i stała wariancja dla oraz pewne założenia dla dają nam wiele użytecznych właściwości dla oszacowania LS . $y_i$ $\mathbf{x}_i$ $\hat\bet$

Chodzi o to, że te założenia można rozluźnić. Na przykład wymagaliśmy, aby nie były zmiennymi losowymi. To założenie nie jest wykonalne w zastosowaniach ekonometrycznych. Jeśli pozwolimy, aby była losowa, możemy uzyskać podobne wyniki, jeśli użyjemy warunkowych oczekiwań i uwzględnimy losowość . Założenie dotyczące niezależności można również złagodzić. Wykazaliśmy już, że czasami potrzebna jest tylko nieskorelacja. Nawet to można dodatkowo rozluźnić i nadal można wykazać, że oszacowanie LS będzie spójne i asymptotycznie normalne. Więcej informacji można znaleźć na przykład w książce White'a . $\x_i$ $\x_i$ $\x_i$

mpiktas
źródło

Komentarz na temat twierdzenia Gaussa-Markowa. Stwierdza tylko, że OLS jest lepszy niż inne estymatory, które są liniowymi funkcjami danych. Jednak wiele powszechnie stosowanych estymatorów, w szczególności maksymalne prawdopodobieństwo (ML), nie są liniowymi funkcjami danych i mogą być znacznie wydajniejsze niż OLS w warunkach twierdzenia Gaussa-Markowa.

Peter Westfall,

@PeterWestfall W przypadku normalnych błędów gaussowskich MLE to OLS :) I nie można uzyskać większej wydajności niż MLE. Starałem się być lekki z matematycznymi szczegółami w tym poście.

mpiktas

1

Chodzi mi o to, że istnieje wiele bardziej wydajnych estymatorów niż OLS w niestandardowych rozkładach, gdy utrzymują się warunki GM. GM jest zasadniczo bezużyteczne jako stwierdzenie, że OLS jest „dobry” w przypadku nienormalności, ponieważ najlepszym estymatorem w nietypowych przypadkach są nieliniowe funkcje danych.

Peter Westfall,

@mpiktas Więc albo bierzemy jako nieprzypadkowy i używamy estymatora lub bierzemy jako losowy i używamy estymatora ?

x

$\mathbf x$

\hat{Y}

$\mathbf{\hat{Y}}$

x

$\mathbf x$

\hat{Y | x}

$\mathbf{\hat{Y|x}}$

Parthiban Rajendran

16

Istnieje wiele dobrych odpowiedzi tutaj. Przyszło mi do głowy, że istnieje jedno założenie, które nie zostało jednak stwierdzone (przynajmniej nie wprost). W szczególności model regresji zakłada, że (wartości zmiennych objaśniających / predykcyjnych) jest stały i znany , oraz że cała niepewność sytuacji występuje w obrębie zmiennejPonadto zakłada się, że niepewność ta jest jedynie błędem próbkowania . $\mathbf X$ $Y$

Oto dwa sposoby, aby myśleć o tym: Jeśli budujesz model wyjaśniający (modelowanie wyników doświadczeń), wiesz dokładnie, co poziomy zmiennych niezależnych są, bo jesteś manipulowany / podawano im. Ponadto zdecydowałeś, jakie będą te poziomy, zanim zaczniesz gromadzić dane. Więc konceptualizujesz całą niepewność relacji istniejącą w odpowiedzi. Z drugiej strony, jeśli budujesz model predykcyjny, to prawda, że sytuacja jest inna, ale nadal traktujesz predyktory tak, jakby były ustalone i znane, ponieważ w przyszłości, gdy użyjesz modelu do prognozy o prawdopodobnej wartości , będziesz miał wektor, $y$ $\mathbf x$ , a model zaprojektowano tak, aby traktował te wartości tak, jakby były poprawne. Oznacza to, że poczujesz niepewność jako nieznaną wartość . $y$

Te założenia można zobaczyć w równaniu prototypowego modelu regresji: Model o niepewności (być może z powodu błędu pomiaru) w również może mieć ten sam proces generowania danych, ale model Szacuje się, że wyglądałoby to tak: gdzie reprezentuje losowy błąd pomiaru. (Sytuacje takie jak ta druga doprowadziły do pracy nad błędami w modelach zmiennych ; podstawowym wynikiem jest to, że jeśli występuje błąd pomiaru w , naiwny

y_{i} = β_{0} + β_{1} x_{i} + ε_{i}

$y_i = \beta_0 + \beta_1x_i + \varepsilon_i$

x

$x$

y_{i} = {\hat{β}}_{0} + {\hat{β}}_{1} (x_{i} + η_{i}) + {\hat{ε}}_{i},

$y_i = \hat\beta_0 + \hat\beta_1(x_i + \eta_i) + \hat\varepsilon_i,$

η

$\eta$

x

$x$

{\hat{β}}_{1}

$\hat\beta_1$ byłby osłabiony - bliższy zeru niż jego prawdziwa wartość, oraz że jeśli wystąpi błąd pomiaru w , testy statystyczne byłyby słabsze, ale poza tym bezstronne.)

y

$y$

\hat{β}

$\hat\beta$

Jedną praktyczną konsekwencją wewnętrznej asymetrii w typowym założeniu jest to, że regresja na różni się od regresji na . (Zobacz moją odpowiedź tutaj: Jaka jest różnica między przeprowadzeniem regresji liniowej dla y względem x kontra x dla y? W celu bardziej szczegółowego omówienia tego faktu.) $y$ $x$ $x$ $y$

gung
źródło

Co to znaczy „naprawione” | „losowy” w prostym języku? Jak odróżnić efekty stałe od losowych (= czynniki)? Myślę, że w moim projekcie jest 1 znany znany czynnik z 5 poziomami. Dobrze?

stan

1

@stan, rozumiem twoje zamieszanie. Terminologia w statystykach jest często myląca i nieprzydatna. W tym przypadku „ustalone” nie jest dokładnie tym samym, co ustalone w „ustalonych efektach i efektach losowych” (chociaż są one powiązane) Nie mówimy tutaj o efektach - mówimy o danych , tj. O twoich predyktorach / zmiennych objaśniających. Najłatwiejszym sposobem zrozumienia idei danych jest zaplanowanie eksperymentu. Zanim cokolwiek zrobisz, projektując eksperyment, decydujesz, jakie będą poziomy twojego wyjaśnienia, nie odkryjesz ich po drodze.

X

$X$

X

$X$

gung

W / modelowanie predykcyjne, to nie do końca prawda, ale będziemy traktować nasze dane ten sposób w przyszłości, gdy użyjemy modelu do prognozowania.

X

$X$

gung

Dlaczego β i ε mają kapelusz w dolnym równaniu, ale nie w górnym?

user1205901

2

@ user1205901, najwyższy model dotyczy procesu generowania danych, najniższy to jego ocena.

gung

8

Założenia klasycznego modelu regresji liniowej obejmują:

Parametr liniowy i poprawna specyfikacja modelu
Pełna ranga macierzy X.
Zmienne wyjaśniające muszą być egzogenne
Niezależne i identycznie rozłożone warunki błędów
Normalne warunki błędu rozproszonego w populacji

Chociaż odpowiedzi tutaj zapewniają już dobry przegląd klasycznego założenia OLS, bardziej wyczerpujący opis założenia klasycznego modelu regresji liniowej można znaleźć tutaj:

https://economictheoryblog.com/2015/04/01/ols_assumptions/

Ponadto artykuł opisuje konsekwencje w przypadku naruszenia pewnych założeń.

Tristian Onari
źródło

6

Do uzasadnienia OLS można zastosować różne założenia

W niektórych sytuacjach autor sprawdza resztki pod kątem normalności.
- Ale w innych sytuacjach pozostałości nie są normalne, a autor i tak korzysta z OLS!
Zobaczysz teksty mówiące, że homoscedastyczność jest założeniem.
- Ale widzisz naukowców używających OLS, gdy naruszona jest homoscedastyczność.

Co daje?!

Odpowiedź jest taka, że można użyć nieco różnych zestawów założeń, aby uzasadnić zastosowanie zwykłego oszacowania metodą najmniejszych kwadratów (OLS). OLS to narzędzie takie jak młotek: możesz użyć młotka do paznokci, ale możesz go również użyć do kołków, aby rozbić lód itp.

Dwie szerokie kategorie założeń to te, które dotyczą małych próbek i te, które opierają się na dużych próbkach, aby można było zastosować centralne twierdzenie graniczne .

1. Założenia małej próby

Małe przykładowe założenia omówione w Hayashi (2000) to:

Liniowość
Ścisła egzogeniczność
Brak wielokoliniowości
Błędy sferyczne (homoscedastyczność)

Pod (1) - (4) obowiązuje twierdzenie Gaussa-Markowa , a zwykły estymator najmniejszych kwadratów jest najlepszym liniowym estymatorem obiektywnym.

Normalność terminów błędów

Dalsze przyjęcie normalnych terminów błędów pozwala na testowanie hipotez . Jeśli warunki błędu są warunkowo normalne, rozkład estymatora OLS jest również warunkowo normalny.

Innym godnym uwagi punktem jest to, że przy normalności estymator OLS jest również estymatorem maksymalnego prawdopodobieństwa .

2. Założenia dużej próby

Założenia te można modyfikować / rozluźniać, jeśli mamy wystarczająco dużą próbkę, abyśmy mogli oprzeć się na prawie wielkich liczb (dla spójności estymatora OLS) i centralnym twierdzeniu granicznym (tak, aby rozkład próbkowania estymatora OLS był zbieżny z rozkład normalny i możemy przeprowadzić test hipotez, porozmawiać o wartościach p itd.).

Hayashi jest facetem od makroekonomii, a jego założenia dotyczące dużej próby zostały sformułowane z uwzględnieniem kontekstu szeregów czasowych:

liniowość
ergodyczna stacjonarność
z góry określone regresory: terminy błędów są ortogonalne w stosunku do współczesnych warunków błędów.
$\operatorname{E}[\mathbf{x}\mathbf{x}']$ ma pełną rangę
$\mathbf{x}_i \epsilon_i$ to sekwencja różnic martingale ze skończonymi sekundami.
Skończone 4. momenty regresorów

Możesz napotkać silniejsze wersje tych założeń, na przykład, że terminy błędów są niezależne.

Prawidłowe założenia dla dużej próby prowadzą do rozkładu prób estymatora OLS, który jest asymptotycznie normalny.

Bibliografia

Hayashi, Fumio, 2000, Econometrics

Matthew Gunn
źródło

5

Wszystko zależy od tego, co chcesz zrobić ze swoim modelem. Wyobraź sobie, że Twoje błędy były wypaczone / nienormalne. Jeśli chcesz zrobić przedział predykcji, możesz zrobić coś lepszego niż użycie rozkładu T. Jeśli Twoja wariancja jest mniejsza przy mniejszych przewidywanych wartościach, ponownie zrobiłbyś przedział predykcji, który jest zbyt duży.

Lepiej zrozumieć, dlaczego istnieją takie założenia.

Adam
źródło

4

Poniższe diagramy pokazują, jakie założenia są wymagane, aby uzyskać implikacje w scenariuszach skończonych i asymptotycznych.

Myślę, że ważne jest, aby pomyśleć nie tylko o tym, jakie są założenia, ale jakie są implikacje tych założeń. Na przykład, jeśli zależy ci tylko na obiektywnych współczynnikach, nie potrzebujesz homoskedastyczności.

DVL
źródło

2

Poniżej przedstawiono założenia analizy regresji liniowej.

Prawidłowa specyfikacja . Liniowa forma funkcjonalna jest poprawnie określona.

Ścisła egzogeniczność . Błędy w regresji powinny mieć warunkową średnią zero.

Brak wielokoliniowości . Regresory w X muszą być liniowo niezależne.

Homoscedastyczność, co oznacza, że termin błędu ma tę samą wariancję w każdej obserwacji.

Brak autokorelacji : błędy są nieskorelowane między obserwacjami.

Normalność. Czasami zakłada się dodatkowo, że błędy mają rozkład normalny zależny od regresorów.

Iid spostrzeżenia : jest niezależny i ma taki sam rozkład, jak dla wszystkich . $(x_i, y_i)$ $(x_j, y_j)$ $i\neq j$

Aby uzyskać więcej informacji odwiedź tę stronę .

statystyki miłości
źródło

4

Zamiast „bez wielokolonowości” powiedziałbym „bez zależności liniowej”. Współliniowość jest często stosowana jako miara ciągła, a nie kategoryczna. Zabroniona jest tylko ścisła lub dokładna kolinearność.

Peter Flom

2

Co z regresją szeregów czasowych? Co z uogólnionymi najmniejszymi kwadratami? Twoja lista przypomina trochę przykazanie, gdy w rzeczywistości ostatnie 4 założenia mogą być zbyt restrykcyjne, jeśli zależy nam tylko na spójności i asymptotycznej normalności szacunków najmniejszych kwadratów.

mpiktas

1

Wielokoliniowość rodzi problemy interpretacyjne (związane z identyfikowalnością niektórych parametrów), ale zdecydowanie nie jest to standardowe założenie modeli regresji liniowej. Niemal wielokoliniowość jest przede wszystkim problemem obliczeniowym, ale wiąże się również z podobnymi problemami interpretacyjnymi.

whuber

@whuber & Peter Flom: Jak czytałem w książce gudżarati na stronie nr. 65–75. tiny.cc/cwb2g Liczy „brak wielokoliniowości” jako założenie analizy regresji.

love-stats

@mpiktas: Jeśli odwiedzisz podany adres URL w odpowiedzi, znajdziesz założenie dotyczące regresji szeregów czasowych.

love-stats

2

Nie ma czegoś takiego jak pojedyncza lista założeń, będą co najmniej 2: jedno dla ustalonego i jedno dla losowej macierzy projektowej. Ponadto możesz przyjrzeć się założeniom regresji szeregów czasowych (patrz str. 13)

Przypadek, w którym macierz projektowa jest stała, może być najbardziej powszechna, a jej założenia są często wyrażane jako twierdzenie Gaussa-Markowa . Stała konstrukcja oznacza, że naprawdę kontrolujesz regresory. Na przykład przeprowadzasz eksperyment i możesz ustawić parametry, takie jak temperatura, ciśnienie itp. Patrz także str . 13 tutaj . $X$

Niestety w naukach społecznych, takich jak ekonomia, rzadko można kontrolować parametry eksperymentu. Zwykle obserwujesz, co dzieje się w gospodarce, rejestrujesz wskaźniki środowiska, a następnie je regresujesz. Okazuje się, że jest to bardzo inna i trudniejsza sytuacja, zwana przypadkowym projektem. W tym przypadku twierdzenie Gaussa-Markowa jest modyfikowana również zobaczyć str.12 tutaj . Możesz zobaczyć, jak warunki są teraz wyrażane w kategoriach prawdopodobieństw warunkowych , co nie jest nieszkodliwą zmianą.

W ekonometrii założenia mają nazwy:

liniowość
ścisła egzogeniczność
brak wielokoliniowości
wariancja błędu sferycznego (obejmuje homoscedastyczność i brak korelacji)

Zauważ, że nigdy nie wspominałem o normalności. To nie jest standardowe założenie. Jest często używany w kursach regresji wstępnej, ponieważ ułatwia niektóre pochodne, ale nie jest wymagany, aby regresja działała i miała ładne właściwości.

Aksakal
źródło

1

Założeniem liniowości jest to, że model ma parametry liniowe. Dobrze jest mieć model regresji z efektami kwadratowymi lub wyższego rzędu, o ile funkcja mocy zmiennej niezależnej jest częścią liniowego modelu addytywnego. Jeśli model nie zawiera warunków wyższego rzędu, kiedy powinien, wówczas brak dopasowania będzie widoczny na wykresie reszt. Jednak standardowe modele regresji nie obejmują modeli, w których zmienna niezależna jest podnoszona do potęgi parametru (chociaż istnieją inne podejścia, które można zastosować do oceny takich modeli). Takie modele zawierają parametry nieliniowe.

StatisticsDoc Consulting
źródło

1

Współczynnik regresji najmniejszych kwadratów zapewnia sposób na podsumowanie trendu pierwszego rzędu w dowolnym rodzaju danych. Odpowiedź @mpiktas polega na dokładnym przeanalizowaniu warunków, w których najmniejsze kwadraty są coraz bardziej optymalne. Chciałbym pójść w drugą stronę i pokazać najbardziej ogólny przypadek, kiedy działa najmniejszych kwadratów. Zobaczmy najbardziej ogólne sformułowanie równania najmniejszych kwadratów:

E [Y | X] = α + β X

$E[Y|X] = \alpha + \beta X$

Jest to po prostu model liniowy dla warunkowej średniej odpowiedzi.

Uwaga: Usunąłem termin błędu. Jeśli chcesz podsumować niepewność , musisz odwołać się do centralnego twierdzenia o limicie. Najbardziej ogólna klasa estymatorów najmniejszych kwadratów zbliża się do normalnej, gdy warunek Lindeberga jest spełniony : sprowadzony, warunek Lindeberga dla najmniejszych kwadratów wymaga, aby ułamek największej reszty kwadratowej w sumie sumy reszty kwadratowej musiał wynosić 0, ponieważ . Jeśli twój projekt będzie pobierał coraz większe pozostałości, wówczas eksperyment jest „martwy w wodzie”. $\beta$ $n \rightarrow \infty$

Gdy warunek Lindeberga jest spełniony, parametr regresji jest dobrze zdefiniowany, a estymator jest obiektywnym estymatorem o znanym przybliżonym rozkładzie. Mogą istnieć bardziej wydajne estymatory. W innych przypadkach heteroscedastyczności lub skorelowanych danych zwykle ważony estymator jest bardziej wydajny . Dlatego nigdy nie zalecałbym stosowania naiwnych metod, gdy dostępne są lepsze. Ale często nie są! $\beta$ $\hat{\beta}$

AdamO
źródło

1

Dla ekonometrów: Warto zauważyć, że warunek ten implikuje ścisłą egzogeniczność, więc ścisła egzogeniczność nie musi być określona jako założenie w modelu średniej warunkowej. Jest to automatycznie prawdziwe matematycznie. (Mówiąc tutaj o teorii, a nie szacunkach)

Peter Westfall,

Jaka jest pełna lista typowych założeń regresji liniowej?

Odpowiedzi:

Do uzasadnienia OLS można zastosować różne założenia

1. Założenia małej próby

2. Założenia dużej próby

Bibliografia