Założenia dotyczące regresji resztkowej regresji

12

Dlaczego konieczne jest założenie podziału na błędy, tj

yi=Xβ+ϵi , z ϵiN(0,σ2) .

Dlaczego nie napisać?

yi=Xβ+ϵi , z yiN(Xβ^,σ2) ,

gdzie w obu przypadkach ϵi=yiy^ .
Podkreśliłem, że założenia dystrybucyjne dotyczą błędów, a nie danych, ale bez wyjaśnienia.

Naprawdę nie rozumiem różnicy między tymi dwoma sformułowaniami. W niektórych miejscach widzę, że na danych umieszczane są założenia dystrybucyjne (Bayesian, jak się wydaje, wydaje się to głównie), ale w większości przypadków założenia są oparte na błędach.

Dlaczego podczas modelowania / dlaczego ktoś powinien zacząć od założeń dotyczących jednego lub drugiego?

bill_e
źródło
Po pierwsze, nie jest to „konieczne”, zależy od tego, co zamierzasz zrobić. Istnieje kilka dobrych odpowiedzi, ale myślę, że sednem jest podstawowe założenie przyczynowości, w sensie, że X „powodują” y, a jeśli spojrzysz na to w ten sposób, zobaczysz, że rozkład y jest „spowodowany” przez rozkład rh, to znaczy X i błędy (jeśli występują). Możesz wykonywać wiele ekonometrii przy bardzo ograniczonych założeniach dystrybucyjnych, a zwłaszcza bez normalności. Dzięki Bogu.
PatrickT
3
XpyE( Y )=e(y)=Xβy^ nie jest , a średnia populacji nie jest taka sama jak szacunkowa próbka tego. To znaczy, że druga rzecz nie jest w rzeczywistości tym samym, co pierwsza, ale jeśli zastąpisz ją oczekiwaniami ( ), oba będą równoważne. XβyE(y^)=E(y)=Xβ
Glen_b
Co to jest ? A jeśli zmienia się w , dlaczego zmienia? Zdecyduj, jakiej notacji chcesz użyć, wektora lub macierzy. Teraz, jeśli założymy, że twoja notacja jest czymś więcej niż bizzare: , tzn. definiujesz rozkład w kategoriach siebie i wszystkich innych obserwacji ! YIIXβ Y =X β Yi~N(x " i (Σxjx ' j )-1ΣxJrJ,Ď2)rıyjy^yiiXβy^=Xβ^yiN(xi(xjxj)1xjyj,σ2)yiyj
mpiktas
1
Głosowałem za pytaniem, ponieważ myślę, że notacja jest myląca, a to już spowodowało kilka subtelnie sprzecznych odpowiedzi.
mpiktas

Odpowiedzi:

9

W ustawieniach regresji liniowej często wykonuje się analizy i uzyskuje wyniki zależne od , tj. Zależne od „danych”. Potrzebne jest więc to, że jest normalny, to znaczy musi być normalny. Jak pokazuje przykład Petera Floma, można mieć normalność bez normalności , a zatem, ponieważ potrzebna jest normalność , jest to rozsądne założenie.y X ϵ ϵ y ϵXyXϵϵyϵ

ekvall
źródło
9

Drugą definicję napisałbym jako

yiN(Xiβ,σ2)

lub (jak sugeruje Karl Oskar +1)

yi|XiN(Xiβ,σ2)

tj. założeniem modelowania jest to, że zmienna odpowiedzi jest zwykle rozkładana wokół linii regresji (która jest oszacowaniem średniej warunkowej), ze stałą wariancją . To nie to samo, co sugerowanie, że są normalnie rozłożone, ponieważ średnia rozkładu zależy od .y i X iσ2yiXi

Myślę, że widziałem podobne sformułowania w literaturze dotyczącej uczenia maszynowego; o ile widzę, jest to równoważne z pierwszą definicją, wszystko, co zrobiłem, to nieco inaczej wyrażać drugą formułę, aby wyeliminować i .Yϵiy^

Dikran Torbacz
źródło
3

Różnicę najłatwiej zilustrować przykładem. Oto prosty:

Załóżmy, że Y jest bimodalny, a modalność jest uwzględniana przez zmienną niezależną. Załóżmy na przykład, że Y jest wzrostem, a twoja próbka (z jakiegokolwiek powodu) składa się z dżokejów i koszykarzy. np. wR

set.seed(123)
tall <- rnorm(100, 78, 3)
short <- rnorm(100, 60, 3)

height <- c(tall, short)
sport <- c(rep("B", 100), rep("H",100))

plot(density(height))

m1 <- lm(height~sport)
plot(m1)

pierwsza gęstość jest bardzo nienormalna. Ale resztki z modelu są bardzo bliskie normalności.

Jeśli chodzi o to, dlaczego ograniczenia zostały umieszczone w ten sposób - pozwolę komuś innemu na to odpowiedzieć.

Peter Flom - Przywróć Monikę
źródło
1
Dziękuję Ci! Rozumiem, co masz na myśli z rozkładem bimodalnym. Dalsze pytanie: co, jeśli wariancje danych są różne (heteroscedastyczność?) Powiedz… wszyscy dżokeje są mali, ale wysokość koszykarzy jest bardzo zróżnicowana. Może dla nich wysoki <- rnorm (100,78,10). W jaki sposób taka sytuacja zmienia twoje założenia dotyczące lub ? ε iyiϵi
bill_e
W takim przypadku heteroscedastyczność byłaby problemem i musiałbyś użyć innej formy regresji lub ewentualnie transformacji, lub możesz dodać inną zmienną (w tym głupim przykładzie może to zrobić pozycja grana w koszykówkę).
Peter Flom - Przywróć Monikę
Nie jestem pewien, czy sformułowanie ma sugerować, że ys są normalnie rozmieszczone, tylko że mają normalny rozkład warunkowy.
Dikran Torbacz
2

Musisz dodać suscripted i do drugiego sformułowania: ponieważ musi być w stanie zmieniać się wraz z .
R x i

yiN(y^i,σε2)
y^xi

Jak już wspomniano, czym jest ? Jest to . Prowadzi to do sformułowania @DikranMarsupial przedstawia: Warto zauważyć, że jest to dokładnie to samo co twój pierwszy sformułowanie, ponieważ oba określają rozkład normalny, a oczekiwane wartości są równe. To znaczy: (I oczywiście wariancje są równe.) Innymi słowy, to jesty^ixiβ^

yiN(xiβ^,σε2)

E[xiβ^]=E[xiβ^+E[N(0,σε2)]]=E[xiβ^+0]=E[xiβ^]
nie różnica w założeniach, ale po prostu różnica notacyjna.

Powstaje więc pytanie, czy istnieje powód, aby preferować prezentowanie pomysłu przy użyciu pierwszego sformułowania?

Myślę, że odpowiedź jest twierdząca z dwóch powodów:

  1. Ludzie często mylą, czy surowe dane powinny być normalnie dystrybuowane (tj. ), czy też dane od / błędy powinny być normalnie dystrybuowane (tj. / ), na przykład patrz : Co jeśli resztki są normalnie rozłożone, ale nie jest?X T | X εYXY|Xε
  2. Ludzie często mylą to, co powinno być niezależne, surowe dane lub błędy. Co więcej, często wspominamy o tym, że coś powinno być identyfikowane (niezależne i identycznie dystrybuowane); jeśli myślisz w kategoriach może to być inne potencjalne źródło zamieszania, ponieważ może być niezależny, ale nie może być identycznie rozłożony, chyba że utrzyma się hipoteza zerowa (ponieważ średnia byłaby różna). Y | XY|XY|X

Uważam, że te konfuzje są bardziej prawdopodobne przy użyciu drugiego sformułowania niż pierwszego.

gung - Przywróć Monikę
źródło
1
@Glen_b, nie śledzę twojego komentarza. Nie twierdzę, że jest równy , ale że jest równy . Indeksowaną indeksowania uwagi jest istotne. Chodzi o to, że przewidywana wartość dla danej obserwacji to . To nie ma nic do zrobienia w / średniej populacji . (Wygląda na to, że zapomniałem dodać czapki do moich bet, ale poprawiłem to teraz.) Xβ r ixi β I r ixi β Yy^Xβy^ixiβ^iy^ixiβ^Y
Gung - Przywróć Monikę
@Glen_b, gdyby to była próbka, oznacza, że ​​będzie to zamiast . Początkowo uznałem też, że notacja jest myląca, ale fakt, że wynika z oświadczeń, że i . Aby oba te elementy były prawdziwe, może być tylko . Y Y =XβRi=Xβ+εiεI=Yi - Y Y Xβy¯y^y^=Xβyi=Xβ+ϵiϵi=yiy^y^Xβ
Dikran Torbacz