Dość podstawowe pytanie:
Co oznacza normalny rozkład reszt z regresji liniowej? Pod względem tego, w jaki sposób wpływa to na moje oryginalne dane z regresji?
Jestem totalnie zakłopotany, dzięki chłopaki
źródło
Dość podstawowe pytanie:
Co oznacza normalny rozkład reszt z regresji liniowej? Pod względem tego, w jaki sposób wpływa to na moje oryginalne dane z regresji?
Jestem totalnie zakłopotany, dzięki chłopaki
Regresja liniowa faktycznie modeluje warunkowe oczekiwane wartości wyniku. Oznacza to: jeśli znasz prawdziwe wartości parametrów regresji (powiedzmy i ), podając wartość twojego predyktora X, wypełniając to równaniem będzie masz obliczyć wartość oczekiwaną dla nad wszystkimi (ewentualnego) obserwacji, które mają tę daną wartość dla .β 1 E [ Y | X ] = β 0 + β 1 X Y X
Jednak: tak naprawdę nie oczekujesz, że żadna pojedyncza wartość dla tej podanej wartości będzie dokładnie równa (warunkowej) średniej. Nie dlatego, że twój model jest zły, ale dlatego, że istnieją pewne efekty, których nie uwzględniono (np. Błąd pomiaru). Zatem te wartości dla danych wartości będą oscylować wokół wartości średniej (tj. Geometrycznie: wokół punktu linii regresji dla tego ).X Y X X
Założenie o normalności mówi teraz, że różnica między a ich dopasowaniem ma rozkład normalny ze średnią zero. Oznacza to, że jeśli masz wartość , możesz próbkować wartość , najpierw obliczając (tj. Ponownie , punkt na linii regresji), a następnie próbkując z tego rozkład normalny i dodawanie ich: E [ Y | X ] X Y β 0 + β 1 X E [ Y | X ] ϵ Y ′ = E [ Y | X ] + ϵ
W skrócie: to rozkład normalny reprezentuje zmienność w wynikach na szczycie zmienności wyjaśnione przez model.
Uwaga: w większości zestawów danych nie ma wielu wartości dla danego (chyba że twój zestaw predykcyjny jest kategoryczny), ale ta normalność dotyczy całej populacji, a nie tylko obserwacji w zbiorze danych.X
Uwaga: Zrobiłem uzasadnienie regresji liniowej za pomocą jednego predyktora, ale to samo dotyczy więcej: po prostu zamień „linię” na „hiperpłaszczyzna” w powyższym.
To może wiele znaczyć lub nic. Jeśli dopasujesz model, aby uzyskać najwyższy R-Squared, może to oznaczać, że byłeś głupi. Jeśli pasujesz do modelu, aby być oszczędnym, ponieważ zmienne są konieczne i potrzebne, i zależy ci na identyfikowaniu wartości odstających, to zrobiłeś dobrą robotę. Więcej informacji na temat tego http://www.autobox.com/cms/index.php?option=com_content&view=article&id=175
źródło
Normalność reszt to założenie prowadzenia modelu liniowego. Tak więc, jeśli twoje wartości resztowe są normalne, oznacza to, że twoje założenie jest prawidłowe i wnioskowanie modelu (przedziały ufności, prognozy modelu) również powinno być prawidłowe. To takie proste!
źródło