O ile się nie mylę, zakłada się, że w modelu liniowym rozkład odpowiedzi ma składową systematyczną i składową losową. Termin błędu przechwytuje składową losową. Dlatego jeśli założymy, że termin błędu jest normalnie dystrybuowany, czy nie oznacza to, że odpowiedź jest również normalnie dystrybuowana? Myślę, że tak, ale stwierdzenia takie jak poniższe wydają się dość mylące:
Widać wyraźnie, że jedynym założeniem „normalności” w tym modelu jest to, że reszty (lub „błędy” ) powinny być normalnie rozłożone. Nie zakłada o rozkładzie predyktora x I lub zmiennej odpowiedzi y ı .
Źródło: Predyktory, odpowiedzi i resztki: co tak naprawdę powinno być normalnie dystrybuowane?
regression
assumptions
Ernest A.
źródło
źródło
Odpowiedzi:
źródło
Nawet zdalnie. Pamiętam, że reszty są normalne, zależnie od deterministycznej części modelu . Oto demonstracja tego, jak to wygląda w praktyce.
Zaczynam od losowego generowania niektórych danych. Następnie określam wynik, który jest funkcją liniową predyktorów i oceniam model.
Zobaczmy, jak wyglądają te pozostałości. Podejrzewam, że powinny one być normalnie rozmieszczone, ponieważ w wyniku
y
dodałem do tego normalny hałas. I rzeczywiście tak jest.Sprawdzając rozkład y, widzimy jednak, że zdecydowanie nie jest to normalne! Nałożyłem funkcję gęstości z tym samym środkiem i wariancją co
y
, ale to oczywiście okropne dopasowanie!Powodem tego jest to, że dane wejściowe nie są nawet zdalnie normalne. Nic w tym modelu regresji nie wymaga normalności, z wyjątkiem reszt - nie w zmiennej niezależnej i nie w zmiennej zależnej.
źródło
Nie, nie ma. Załóżmy na przykład, że mamy model przewidujący wagę sportowców olimpijskich. Podczas gdy waga może być normalnie rozłożona na sportowców w każdym sporcie, nie będzie ona dotyczyła wszystkich sportowców - może nawet nie być jednomodalna.
źródło