W jaki sposób regresja liniowa wykorzystuje rozkład normalny?

26

W regresji liniowej zakłada się, że każda przewidywana wartość została wybrana z normalnego rozkładu możliwych wartości. Patrz poniżej.

Ale dlaczego zakłada się, że każda przewidywana wartość pochodzi z rozkładu normalnego? Jak regresja liniowa wykorzystuje to założenie? Co, jeśli możliwe wartości nie są normalnie rozdzielane?

wprowadź opis zdjęcia tutaj

luciano
źródło
2
Tylko błędy mają rozkład normalny (co sugeruje, że warunkowe prawdopodobieństwo Y, gdy X jest również normalne). Jest to prawdopodobnie tradycyjne z powodów związanych z centralnym twierdzeniem o granicy. Ale możesz zastąpić normalną dowolnym symetrycznym rozkładem prawdopodobieństwa i uzyskać te same oszacowania współczynników za pomocą najmniejszych kwadratów. Różni się jednak resztkowym błędem standardowym, poprawnością dopasowania i sposobem weryfikacji założeń.
Kian
4
Wnioskowane są głównie normalne założenia - testowanie hipotez, CI, PI. Jeśli przyjmujesz różne założenia, będą one różne, przynajmniej w małych próbkach.
Glen_b
7
Nawiasem mówiąc, w przypadku zwykłej regresji liniowej diagram powinien rysować krzywe normalne w pionie, a nie po przekątnej.
Glen_b

Odpowiedzi:

29

Regresja liniowa sama w sobie nie potrzebuje normalnego (gaussowskiego) założenia, estymatory można obliczyć (liniowymi najmniejszymi kwadratami) bez potrzeby takiego założenia i bez niego ma to sens.

Ale jako statystycy chcemy zrozumieć niektóre właściwości tej metody, odpowiedzi na pytania takie jak: czy estymatory najmniejszych kwadratów są w pewnym sensie optymalne ? czy możemy zrobić lepiej z niektórymi alternatywnymi estymatorami? Następnie, przy normalnym rozkładzie terminów błędu, możemy pokazać, że estymatory te są rzeczywiście optymalne, na przykład są „niezależne od minimalnej wariancji” lub maksymalnego prawdopodobieństwa. Nie można tego udowodnić bez normalnego założenia.

Ponadto, jeśli chcemy konstruować (i analizować właściwości) przedziały ufności lub testy hipotez, wówczas przyjmujemy normalne założenie. Ale zamiast tego moglibyśmy budować przedziały ufności za pomocą innych środków, takich jak ładowanie. Zatem nie używamy normalnego założenia, ale niestety bez tego moglibyśmy zastosować inne estymatory niż te najmniejszych kwadratów, może jakieś solidne estymatory?

W praktyce rozkład normalny jest co najwyżej wygodną fikcją. Tak więc naprawdę ważne pytanie brzmi: jak blisko normalności musimy być, aby twierdzić, że wykorzystujemy wyniki, o których mowa powyżej? To o wiele trudniejsze pytanie! Wyniki optymalności nie są solidne , więc nawet bardzo małe odchylenie od normalności może zniszczyć optymalność. To argument na rzecz solidnych metod. Aby uzyskać inną odpowiedź na to pytanie, zobacz moją odpowiedź na Dlaczego powinniśmy używać t błędów zamiast zwykłych błędów?

Kolejnym istotnym pytaniem jest dlaczego normalność reszt jest „w ogóle nieistotna ” w celu oszacowania linii regresji?

 EDIT

Ta odpowiedź doprowadziła do dużej dyskusji w komentarzach, która ponownie doprowadziła do mojego nowego pytania: regresja liniowa: jakikolwiek niestandardowy rozkład dający tożsamość OLS i MLE? które teraz w końcu otrzymały (trzy) odpowiedzi, podając przykłady, w których rozkłady nienormalne prowadzą do estymatorów najmniejszych kwadratów.

kjetil b halvorsen
źródło
Błąd najmniejszych kwadratów jest równoważny normalnemu założeniu.
Neil G
4
Nie ma takiej sprzeczności. Na przykład, twierdzenie Gaussa-Markowa mówi, że liniowe najmniejsze kwadraty są optymalne (w sensie przynajmniej wariancji) wśród wszystkich estymatorów liniowych, bez potrzeby założeń dystrybucyjnych (oprócz istniejącej wariancji). Najmniejsze kwadraty to procedura numeryczna, którą można zdefiniować niezależnie od dowolnego modelu probabilistycznego! Model probabilistyczny jest następnie wykorzystywany do analizy tej procedury z perspektywy statystycznej.
kjetil b halvorsen
2
@NeilG Z pewnością MLE dla normalności to najmniejsze kwadraty, ale to nie oznacza, że ​​najmniejsze kwadraty muszą pociągać za sobą założenie normalności. Z drugiej strony duże odchylenia od normalności mogą sprawić, że najmniejsze kwadraty są złym wyborem (gdy wszystkie estymatory liniowe są złe).
Glen_b
1
@NeilG To, co powiedziałem, w żaden sposób nie oznacza równoważności LS i normalności, ale wyraźnie mówicie, że są one równoważne, więc naprawdę nie sądzę, aby nasze dwa stwierdzenia były nawet bliskie tautologii.
Glen_b
1
@Neil Czy możesz pokazać, w jaki sposób twoje oświadczenie faktycznie implikuje to, co powiedziałem? Naprawdę tego nie widzę.
Glen_b
3

Ta dyskusja Co się stanie, jeśli reszty są zwykle dystrybuowane, ale nie jest? dobrze rozwiązał to pytanie.

Krótko mówiąc, w przypadku problemu z regresją zakładamy, że odpowiedź jest normalnie zależna od wartości x. Nie jest konieczne, aby zmienne niezależne lub zmienne odpowiedzi były niezależne.

enaJ
źródło
1
  1. Ale dlaczego zakłada się, że każda przewidywana wartość pochodzi z rozkładu normalnego?

Nie ma ku temu głębokiego powodu i możesz swobodnie zmieniać założenia dystrybucyjne, przechodzić na GLM lub na solidną regresję. LM (rozkład normalny) jest popularny, ponieważ jest łatwy do obliczenia, dość stabilny, a reszty są w praktyce mniej więcej normalne.

  1. Jak regresja liniowa wykorzystuje to założenie?

Jak każda regresja, model liniowy (= regresja z błędem normalnym) wyszukuje parametry, które optymalizują prawdopodobieństwo dla danego założenia dystrybucyjnego. Zobacz tutaj przykład jawnego obliczenia prawdopodobieństwa dla modelu liniowego. Jeśli weźmiesz pod uwagę prawdopodobieństwo logarytmiczne modelu liniowego, okaże się ono proporcjonalne do sumy kwadratów, a optymalizację tego można obliczyć dość wygodnie.

  1. Co, jeśli możliwe wartości nie są normalnie rozdzielane?

Jeśli chcesz dopasować model z różnymi rozkładami, następnymi krokami podręcznika byłyby uogólnione modele liniowe (GLM), które oferują różne rozkłady lub ogólne modele liniowe, które są nadal normalne, ale rozluźniają niezależność. Możliwych jest wiele innych opcji. Jeśli chcesz tylko ograniczyć efekt wartości odstających, możesz na przykład rozważyć solidną regresję.

Florian Hartig
źródło
0

Po ponownym przejrzeniu pytania myślę, że nie ma powodu, aby używać rozkładu normalnego, chyba że chcesz wykonać jakieś wnioskowanie na temat parametru regresji. I możesz zastosować regresję liniową i zignorować rozkład składnika szumu.

Yu Zhang
źródło
2
To nie ma dla mnie większego sensu.
SmallChess
0

(xja,yja)y=βx+doβja(yja-jaβxja-do)2)ηja=yja-(βxja+do)βββββ

aginensky
źródło