Co oznaczają normalne wartości resztkowe i co to mówi mi o moich danych?

13

Dość podstawowe pytanie:

Co oznacza normalny rozkład reszt z regresji liniowej? Pod względem tego, w jaki sposób wpływa to na moje oryginalne dane z regresji?

Jestem totalnie zakłopotany, dzięki chłopaki

smar
źródło

Odpowiedzi:

5

Regresja liniowa faktycznie modeluje warunkowe oczekiwane wartości wyniku. Oznacza to: jeśli znasz prawdziwe wartości parametrów regresji (powiedzmy i ), podając wartość twojego predyktora X, wypełniając to równaniem będzie masz obliczyć wartość oczekiwaną dla nad wszystkimi (ewentualnego) obserwacji, które mają tę daną wartość dla .β 1 E [ Y | X ] = β 0 + β 1 X Y Xβ0β1

E[Y|X]=β0+β1X
YX

Jednak: tak naprawdę nie oczekujesz, że żadna pojedyncza wartość dla tej podanej wartości będzie dokładnie równa (warunkowej) średniej. Nie dlatego, że twój model jest zły, ale dlatego, że istnieją pewne efekty, których nie uwzględniono (np. Błąd pomiaru). Zatem te wartości dla danych wartości będą oscylować wokół wartości średniej (tj. Geometrycznie: wokół punktu linii regresji dla tego ).X Y X XYXYXX

Założenie o normalności mówi teraz, że różnica między a ich dopasowaniem ma rozkład normalny ze średnią zero. Oznacza to, że jeśli masz wartość , możesz próbkować wartość , najpierw obliczając (tj. Ponownie , punkt na linii regresji), a następnie próbkując z tego rozkład normalny i dodawanie ich: E [ Y | X ] X Y β 0 + β 1 X E [ Y | X ] ϵ Y = E [ Y | X ] + ϵYE[Y|X]XYβ0+β1XE[Y|X]ϵ

Y=E[Y|X]+ϵ

W skrócie: to rozkład normalny reprezentuje zmienność w wynikach na szczycie zmienności wyjaśnione przez model.

Uwaga: w większości zestawów danych nie ma wielu wartości dla danego (chyba że twój zestaw predykcyjny jest kategoryczny), ale ta normalność dotyczy całej populacji, a nie tylko obserwacji w zbiorze danych.XYX

Uwaga: Zrobiłem uzasadnienie regresji liniowej za pomocą jednego predyktora, ale to samo dotyczy więcej: po prostu zamień „linię” na „hiperpłaszczyzna” w powyższym.

Nick Sabbe
źródło
To świetne wytłumaczenie! Jedno pytanie: e rozkład normalny oznaczałby, że zakładasz, że najbardziej prawdopodobne wartości e wynoszą od -1 do +1 (po ich standaryzacji)? Więc w zasadzie używasz rozkładu normalnego zamiast, powiedzmy, rozkładu Poissona, ponieważ rozkład normalny lepiej modeluje zachowanie tych wartości w prawdziwym życiu?
user3813234
1

To może wiele znaczyć lub nic. Jeśli dopasujesz model, aby uzyskać najwyższy R-Squared, może to oznaczać, że byłeś głupi. Jeśli pasujesz do modelu, aby być oszczędnym, ponieważ zmienne są konieczne i potrzebne, i zależy ci na identyfikowaniu wartości odstających, to zrobiłeś dobrą robotę. Więcej informacji na temat tego http://www.autobox.com/cms/index.php?option=com_content&view=article&id=175

Tom Reilly
źródło
0

Normalność reszt to założenie prowadzenia modelu liniowego. Tak więc, jeśli twoje wartości resztowe są normalne, oznacza to, że twoje założenie jest prawidłowe i wnioskowanie modelu (przedziały ufności, prognozy modelu) również powinno być prawidłowe. To takie proste!

wcampbell
źródło
Założenie normalności dotyczy błędu nieobserwowalnego (stąd potrzeba założenia), a nie obserwowalnych reszt.
DL Dahly,
2
Tak, ale używasz resztek, aby sprawdzić swoje przypuszczenia dotyczące nieobserwowalnego błędu.
wcampbell
Nie zgadzam się, że normalne reszty gwarantują prawidłowy model regresji. Załóżmy, że masz okrągły model Gaussa z błędami X i Y, które są równe. Zatem przedział ufności linii regresji to . To nie jest jedyny kontrprzykład, jest ich znacznie więcej.  to 
Carl