Założenia regresji wielokrotnej: czym różni się założenie normalności od założenia o stałej wariancji?

20

Przeczytałem, że są to warunki korzystania z modelu regresji wielokrotnej:

  1. reszty modelu są prawie normalne,
  2. zmienność reszt jest prawie stała
  3. reszty są niezależne i
  4. każda zmienna jest liniowo powiązana z wynikiem.

Czym różnią się 1 i 2?

Możesz go zobaczyć tutaj:

wprowadź opis zdjęcia tutaj

Tak więc powyższy wykres mówi, że reszta, która wynosi 2 odchylenia standardowe, jest oddalona o 10 od Y-hat. Oznacza to, że reszty mają rozkład normalny. Nie możesz wywnioskować z tego 2? Czy zmienność reszt jest prawie stała?

Jwan622
źródło
7
Twierdziłbym, że ich kolejność jest nieprawidłowa. W kolejności ważności powiedziałbym 4, 3, 2, 1. W ten sposób każde dodatkowe założenie pozwala na zastosowanie modelu do rozwiązania większego zestawu problemów, w przeciwieństwie do kolejności w twoim pytaniu, gdzie najbardziej restrykcyjne założenie jest pierwszy.
Matthew Drury
2
Te założenia są wymagane w przypadku wnioskowania statystycznego. Nie poczyniono żadnych założeń, aby zminimalizować sumę błędów do kwadratu.
David Lane
1
Myślę, że miałem na myśli 1, 3, 2, 4. 1 musi być spełniony przynajmniej w przybliżeniu, aby model był w ogóle przydatny, 3 jest potrzebne, aby model był spójny, tj. Zbiegał się w coś stabilnego, gdy otrzymujesz więcej danych , 2 jest potrzebne, aby oszacowanie było skuteczne, tzn. Nie ma innego lepszego sposobu wykorzystania danych do oszacowania tej samej linii, a 4 jest potrzebne, przynajmniej w przybliżeniu, do przeprowadzenia testów hipotez dotyczących oszacowanych parametrów.
Matthew Drury
3
Obowiązkowy link do posta na blogu A. Gelmana na temat Jakie są kluczowe założenia regresji liniowej? .
usεr11852 mówi Przywróć Monic
2
Podaj źródło diagramu, jeśli nie jest to Twoja własna praca.
Nick Cox

Odpowiedzi:

44

1. Normalny rozkład resztek :

Warunek normalności ma zastosowanie, gdy próbujesz uzyskać przedziały ufności i / lub wartości p.

nie jestwarunkiem Gaussa Markowa.ε|XN.(0,σ2)jan)


wprowadź opis zdjęcia tutaj

Ten wykres próbuje zilustrować rozkład punktów w populacji na niebiesko (z linią regresji populacji jako ciągłą cyjanową linią), nałożoną na przykładowy zestaw danych w dużych żółtych kropkach (z oszacowaną linią regresji wykreśloną jako przerywana żółta linia). Oczywiście dotyczy to tylko konsumpcji pojęciowej, ponieważ dla każdej wartości X = x byłyby punkty nieskończonościX=x - więc jest to graficzna dyskretyzacja ikonograficzna pojęcia regresji jako ciągłego rozkładu wartości wokół średniej (odpowiadającej przewidywanej wartości zmiennej „niezależnej”) przy każdej podanej wartości regresora lub zmiennej objaśniającej.

Gdybyśmy uruchomili diagnostyczne wykresy R na symulowanych danych „populacji”, otrzymalibyśmy ...

wprowadź opis zdjęcia tutaj

Wariancja z reszt jest stała wzdłuż wszystkich wartości X.

Typowa fabuła to:

wprowadź opis zdjęcia tutaj


Koncepcyjnie wprowadzenie wielu regresorów lub zmiennych objaśniających nie zmienia idei. Uważam, że praktyczny samouczek pakietu jest swirl()niezwykle pomocny w zrozumieniu, w jaki sposób regresja wielokrotna jest tak naprawdę procesem regresji zmiennych zależnych względem siebie, przenosząc resztkową, niewyjaśnioną zmienność w modelu; lub prościej, wektorowa forma prostej regresji liniowej :

Ogólna technika polega na wybraniu jednego regresora i zastąpieniu wszystkich innych zmiennych resztami ich regresji względem tej.


2. Zmienność reszt jest prawie stała (Homoskedasticity) :

mi[εja2)|X]=σ2)

Problem naruszenie tego warunku jest:

Heteroskedastyczność ma poważne konsekwencje dla estymatora OLS. Chociaż estymator OLS pozostaje bezstronny, oszacowana SE jest błędna. Z tego powodu nie można polegać na przedziałach ufności i testach hipotez. Ponadto estymator OLS nie jest już NIEBIESKI.


wprowadź opis zdjęcia tutaj

Na tym wykresie wariancja rośnie wraz z wartościami regresora (zmiennej objaśniającej), a nie pozostaje stała. W tym przypadku reszty są zwykle rozkładane, ale wariancja tego rozkładu normalnego zmienia się (zwiększa) wraz ze zmienną objaśniającą.

Zauważ, że „prawdziwa” (regresyjna) linia regresji nie zmienia się w stosunku do linii regresji populacyjnej pod homoskedastycznością na pierwszym wykresie (jednolity ciemnoniebieski), ale intuicyjnie jasne jest, że szacunki będą bardziej niepewne.

Wykresy diagnostyczne w zestawie danych to ...

wprowadź opis zdjęcia tutaj

które odpowiadają rozkładowi „ciężkiego ogona” , co ma sens, gdybyśmy teleskopowali wszystkie pionowe wykresy gaussowskie „obok siebie” w jeden, który zachowałby swój kształt dzwonu, ale miałby bardzo długie ogony.


@Glen_b „... pełne uwzględnienie różnicy między nimi rozważałoby również homoskedastyczne, ale nie normalne”.

wprowadź opis zdjęcia tutaj

Reszty są mocno wypaczone, a wariancja wzrasta wraz z wartościami zmiennej objaśniającej.

To byłyby wykresy diagnostyczne ...

wprowadź opis zdjęcia tutaj

odpowiadający zaznaczonej prawej skośności.

Aby zamknąć pętlę, zobaczymy również wypaczenie w modelu homoskedastycznym z nie Gaussowskim rozkładem błędów:

wprowadź opis zdjęcia tutaj

z wykresami diagnostycznymi jako ...

wprowadź opis zdjęcia tutaj

Antoni Parellada
źródło
2
Dziękuję Ci bardzo. Czułem, że konieczne jest zlikwidowanie rażącej dyskretyzacji populacji wykorzystywanej jako narzędzie do wizualizacji. Mogę opublikować kod, ale waham się, ponieważ był pewien stopień kreatywnej matematyki :-)
Antoni Parellada
3
Ilustracja rozróżnienia między błędami normalnymi a błędami homoscedastycznymi, pokazująca wykres spełniający oba te kryteria, a następnie pokazująca normalny, ale nie homoskedastyczny, jest doskonała. Wydaje mi się, że pełne omówienie różnicy między nimi rozważałoby również homoskedastyczne, ale nie normalne. [Nie sugeruję dodania takiej ilustracji, ale jest to przydatne trzecie ramię, o którym ludzie
powinni
7

To nie wina OP, ale zaczynam męczyć się czytając takie dezinformacje.

Przeczytałem, że są to warunki korzystania z modelu regresji wielokrotnej:

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

„Model regresji wielokrotnej” to tylko etykieta deklarująca, że ​​jedną zmienną można wyrazić jako funkcję innych zmiennych.

Ani prawdziwy warunek błędu, ani reszty modelu nie muszą być niczym szczególnym - jeśli reszty wyglądają normalnie, jest to dobre do późniejszego wnioskowania statystycznego.

Zmienność (wariancja) terminu błędu nie musi być prawie stała - jeśli nie jest, mamy model z heteroskedastycznością, który obecnie jest dość łatwy do opanowania.

Resztki w żadnym wypadku nie są niezależne, ponieważ każda jest funkcją całej próbki. Te prawdziwe warunki błędach nie muszą być niezależne -jeżeli nie są mamy model z autokorelacji, która, choć trudniejsze niż heteroskedastyczności, mogą być uregulowane do pewnego stopnia.

Każda zmienna nie musi być liniowo powiązana z wynikiem. W rzeczywistości rozróżnienie między regresją „liniową” i „nieliniową” nie ma nic wspólnego z relacją między zmiennymi - ale z tym, jak nieznane współczynniki wchodzą w relację.

Można powiedzieć, że jeśli pierwsze trzy trzymają się, a czwarty jest poprawnie określony, to otrzymujemy „Klasyczny normalny model regresji liniowej”, który jest tylko jednym (choć historycznie pierwszym) wariantem modeli regresji wielokrotnej.

Alecos Papadopoulos
źródło
3
XβXβX
2
W pytaniu brakuje absolutnie fundamentalnego założenia, że ​​warunkowe oczekiwanie na warunki błędu wynosi zero!
Matthew Gunn
1
@MatthewGunn Cóż, ... otwiera to bardzo dużą dyskusję na temat tego, co robimy z tym modelem: jeśli weźmiemy pogląd „deterministyczny / inżynierski”, potrzebujemy tego założenia, aby upewnić się, że konkretność jest rzeczywiście deterministyczna. Jeśli chcemy oszacować funkcję warunkowego oczekiwania w odniesieniu do konkretnych regresorów , wówczas kodowanie jest automatycznie spełnione (lub przynajmniej jego słabsza postać, ortogonalność).
Alecos Papadopoulos
1
@AlecosPapadopoulos Tak, w pewnym sensie zwykłe najmniejsze kwadraty zawsze dają oszacowanie czegoś! Ale to może nie być coś, czego chcesz. Jeśli PO chce po prostu liniowej, warunkowej funkcji oczekiwania w odniesieniu do konkretnych regresorów, zgadzam się, że warunek jest automatycznie przyjmowany. Ale jeśli OP próbuje oszacować jakiś parametr, uzasadnienie warunku ortogonalności ma kluczowe znaczenie!
Matthew Gunn
@MatthewGunn Rzeczywiście tak jest.
Alecos Papadopoulos
3

Antoni Parellada miał doskonałą odpowiedź z ładną ilustracją graficzną.

Chcę tylko dodać jeden komentarz, aby podsumować różnicę między dwoma stwierdzeniami

  1. reszty modelu są prawie normalne

  2. zmienność reszt jest prawie stała

  • Oświadczenie 1 podaje, że „kształt” reszty to „krzywa w kształcie dzwonu” .
  • Komunikat 2 poprawia rozpiętość w postaci „” (ciągły), na wykresie Antoni Parellada 3 na są 3 dzwon kształcie krzywych, ale są one różne rozproszonym.
Haitao Du
źródło
1

Nie ma jednego unikalnego zestawu założeń regresji, ale istnieje kilka odmian. Niektóre z tych zestawów założeń są bardziej rygorystyczne, tj. Węższe niż inne. Ponadto w większości przypadków nie potrzebujesz, aw wielu przypadkach nie możesz naprawdę założyć, że rozkład jest normalny.

Przytoczone przez ciebie założenia są bardziej rygorystyczne niż większość, ale sformułowane są w niepotrzebnie luźnym języku. Na przykład, co dokładnie jest prawie ? Ponadto to nie resztki, na które narzucamy założenia, to błędy . Resztki są szacunkami błędów, których nie można zaobserwować. To mówi mi, że cytujesz z kiepskiego źródła. Wyrzuć to.

Krótka odpowiedź na twoje pytanie jest taka, że ​​jeśli weźmiesz pod uwagę jakikolwiek rozkład, np. Rozkład t Studenta, dla twoich błędów (użyję poprawnego terminu w mojej odpowiedzi), możesz zobaczyć, jak błędy mogą mieć „prawie stałą” zmienność bez bycia z rozkładu normalnego i jak posiadanie „prawie stałej” wariancji nie wymaga rozkładu normalnego. Innymi słowy, nie, nie można wymyślić jednego założenia z drugiego bez dodatkowych wymagań.

yja=Xjaβ+εjaεjaN.(0,σ2))
  1. N.(.)
  2. σεja
  3. N.X
  4. y=Xβ

Kiedy więc w ten sposób połączymy wszystkie założenia w jedno lub dwa równania, może się wydawać, że wszystkie są od siebie zależne, co nie jest prawdą. Pokażę to później.

Przykład 1

yja=Xjaβ+εjaεjatν
ν

Przykład 2

yja=Xjaβ+εjaεjaN.(0,σ2)ja)
ja
Aksakal
źródło
1

Próbowałem dodać nowy wymiar dyskusji i uczynić ją bardziej ogólną. Przepraszam, jeśli było zbyt szczątkowe.

Model regresji jest formalnym sposobem wyrażenia dwóch podstawowych składników relacji statystycznej:

  1. YX
  2. Rozrzut punktów wokół krzywej relacji statystycznej.

Y

Postulując, że:

  1. YX

  2. X

Y (symetryczne, skośne) i na inne sposoby.

YX

YXYX w relacji statystycznej.

Źródło: Stosowane liniowe modele statystyczne, KNNL

YX

Yja=β0 +β1Xja+ϵ

YjaXja

β0β1 są parametrami

ϵN.(O,σ2))

ja

mi(Y|X)β0β1σ2)β0β1σ2)

the residuals of the model are nearly normal,
the variability of the residuals is nearly constant
the residuals are independent, and
each variable is linearly related to the outcome.

Czym różnią się 1 i 2?

Przechodzę do pytania

Pierwsze i drugie założenie, jak twierdzisz, to dwie części tego samego założenia normalności z zerową średnią i stałą wariancją. Myślę, że należy postawić pytanie jako konsekwencje dwóch założeń dla normalnego modelu regresji błędów, a nie różnicę między tymi dwoma założeniami. Mówię to, ponieważ wydaje się, że porównuje się jabłka z pomarańczami, ponieważ próbujesz znaleźć różnicę między założeniami dotyczącymi rozkładu rozproszenia punktów i założeń nad jego zmiennością. Zmienność jest własnością rozkładu. Postaram się więc odpowiedzieć na bardziej odpowiednie pytanie o konsekwencje obu założeń.

Przy założeniu normalności estymatory maksymalnego prawdopodobieństwa (MLE) są takie same jak estymatory najmniejszych kwadratów, a MLE mają właściwość bycia UMVUE, co oznacza, że ​​mają minimalną wariancję między wszystkimi estymatorami.

β0β1t

naiwny
źródło
1
To doskonały opis regresji. Ale jak odpowiada na konkretne pytanie w tym wątku?
whuber