Przeczytałem, że są to warunki korzystania z modelu regresji wielokrotnej:
- reszty modelu są prawie normalne,
- zmienność reszt jest prawie stała
- reszty są niezależne i
- każda zmienna jest liniowo powiązana z wynikiem.
Czym różnią się 1 i 2?
Możesz go zobaczyć tutaj:
Tak więc powyższy wykres mówi, że reszta, która wynosi 2 odchylenia standardowe, jest oddalona o 10 od Y-hat. Oznacza to, że reszty mają rozkład normalny. Nie możesz wywnioskować z tego 2? Czy zmienność reszt jest prawie stała?
Odpowiedzi:
1. Normalny rozkład resztek :
nie jestwarunkiem Gaussa Markowa.ε|X∼N(0,σ2In)
Ten wykres próbuje zilustrować rozkład punktów w populacji na niebiesko (z linią regresji populacji jako ciągłą cyjanową linią), nałożoną na przykładowy zestaw danych w dużych żółtych kropkach (z oszacowaną linią regresji wykreśloną jako przerywana żółta linia). Oczywiście dotyczy to tylko konsumpcji pojęciowej, ponieważ dla każdej wartości X = x byłyby punkty nieskończonościX= x - więc jest to graficzna dyskretyzacja ikonograficzna pojęcia regresji jako ciągłego rozkładu wartości wokół średniej (odpowiadającej przewidywanej wartości zmiennej „niezależnej”) przy każdej podanej wartości regresora lub zmiennej objaśniającej.
Gdybyśmy uruchomili diagnostyczne wykresy R na symulowanych danych „populacji”, otrzymalibyśmy ...
Wariancja z reszt jest stała wzdłuż wszystkich wartościX.
Typowa fabuła to:
Koncepcyjnie wprowadzenie wielu regresorów lub zmiennych objaśniających nie zmienia idei. Uważam, że praktyczny samouczek pakietu jest
swirl()
niezwykle pomocny w zrozumieniu, w jaki sposób regresja wielokrotna jest tak naprawdę procesem regresji zmiennych zależnych względem siebie, przenosząc resztkową, niewyjaśnioną zmienność w modelu; lub prościej, wektorowa forma prostej regresji liniowej :2. Zmienność reszt jest prawie stała (Homoskedasticity) :
Problem naruszenie tego warunku jest:
Na tym wykresie wariancja rośnie wraz z wartościami regresora (zmiennej objaśniającej), a nie pozostaje stała. W tym przypadku reszty są zwykle rozkładane, ale wariancja tego rozkładu normalnego zmienia się (zwiększa) wraz ze zmienną objaśniającą.
Zauważ, że „prawdziwa” (regresyjna) linia regresji nie zmienia się w stosunku do linii regresji populacyjnej pod homoskedastycznością na pierwszym wykresie (jednolity ciemnoniebieski), ale intuicyjnie jasne jest, że szacunki będą bardziej niepewne.
Wykresy diagnostyczne w zestawie danych to ...
które odpowiadają rozkładowi „ciężkiego ogona” , co ma sens, gdybyśmy teleskopowali wszystkie pionowe wykresy gaussowskie „obok siebie” w jeden, który zachowałby swój kształt dzwonu, ale miałby bardzo długie ogony.
Reszty są mocno wypaczone, a wariancja wzrasta wraz z wartościami zmiennej objaśniającej.
To byłyby wykresy diagnostyczne ...
odpowiadający zaznaczonej prawej skośności.
Aby zamknąć pętlę, zobaczymy również wypaczenie w modelu homoskedastycznym z nie Gaussowskim rozkładem błędów:
z wykresami diagnostycznymi jako ...
źródło
To nie wina OP, ale zaczynam męczyć się czytając takie dezinformacje.
„Model regresji wielokrotnej” to tylko etykieta deklarująca, że jedną zmienną można wyrazić jako funkcję innych zmiennych.
Ani prawdziwy warunek błędu, ani reszty modelu nie muszą być niczym szczególnym - jeśli reszty wyglądają normalnie, jest to dobre do późniejszego wnioskowania statystycznego.
Zmienność (wariancja) terminu błędu nie musi być prawie stała - jeśli nie jest, mamy model z heteroskedastycznością, który obecnie jest dość łatwy do opanowania.
Resztki w żadnym wypadku nie są niezależne, ponieważ każda jest funkcją całej próbki. Te prawdziwe warunki błędach nie muszą być niezależne -jeżeli nie są mamy model z autokorelacji, która, choć trudniejsze niż heteroskedastyczności, mogą być uregulowane do pewnego stopnia.
Każda zmienna nie musi być liniowo powiązana z wynikiem. W rzeczywistości rozróżnienie między regresją „liniową” i „nieliniową” nie ma nic wspólnego z relacją między zmiennymi - ale z tym, jak nieznane współczynniki wchodzą w relację.
Można powiedzieć, że jeśli pierwsze trzy trzymają się, a czwarty jest poprawnie określony, to otrzymujemy „Klasyczny normalny model regresji liniowej”, który jest tylko jednym (choć historycznie pierwszym) wariantem modeli regresji wielokrotnej.
źródło
Antoni Parellada miał doskonałą odpowiedź z ładną ilustracją graficzną.
Chcę tylko dodać jeden komentarz, aby podsumować różnicę między dwoma stwierdzeniami
źródło
Nie ma jednego unikalnego zestawu założeń regresji, ale istnieje kilka odmian. Niektóre z tych zestawów założeń są bardziej rygorystyczne, tj. Węższe niż inne. Ponadto w większości przypadków nie potrzebujesz, aw wielu przypadkach nie możesz naprawdę założyć, że rozkład jest normalny.
Przytoczone przez ciebie założenia są bardziej rygorystyczne niż większość, ale sformułowane są w niepotrzebnie luźnym języku. Na przykład, co dokładnie jest prawie ? Ponadto to nie resztki, na które narzucamy założenia, to błędy . Resztki są szacunkami błędów, których nie można zaobserwować. To mówi mi, że cytujesz z kiepskiego źródła. Wyrzuć to.
Krótka odpowiedź na twoje pytanie jest taka, że jeśli weźmiesz pod uwagę jakikolwiek rozkład, np. Rozkład t Studenta, dla twoich błędów (użyję poprawnego terminu w mojej odpowiedzi), możesz zobaczyć, jak błędy mogą mieć „prawie stałą” zmienność bez bycia z rozkładu normalnego i jak posiadanie „prawie stałej” wariancji nie wymaga rozkładu normalnego. Innymi słowy, nie, nie można wymyślić jednego założenia z drugiego bez dodatkowych wymagań.
Kiedy więc w ten sposób połączymy wszystkie założenia w jedno lub dwa równania, może się wydawać, że wszystkie są od siebie zależne, co nie jest prawdą. Pokażę to później.
Przykład 1
Przykład 2
źródło
Próbowałem dodać nowy wymiar dyskusji i uczynić ją bardziej ogólną. Przepraszam, jeśli było zbyt szczątkowe.
Model regresji jest formalnym sposobem wyrażenia dwóch podstawowych składników relacji statystycznej:
Postulując, że:
Źródło: Stosowane liniowe modele statystyczne, KNNL
Przechodzę do pytania
Pierwsze i drugie założenie, jak twierdzisz, to dwie części tego samego założenia normalności z zerową średnią i stałą wariancją. Myślę, że należy postawić pytanie jako konsekwencje dwóch założeń dla normalnego modelu regresji błędów, a nie różnicę między tymi dwoma założeniami. Mówię to, ponieważ wydaje się, że porównuje się jabłka z pomarańczami, ponieważ próbujesz znaleźć różnicę między założeniami dotyczącymi rozkładu rozproszenia punktów i założeń nad jego zmiennością. Zmienność jest własnością rozkładu. Postaram się więc odpowiedzieć na bardziej odpowiednie pytanie o konsekwencje obu założeń.
Przy założeniu normalności estymatory maksymalnego prawdopodobieństwa (MLE) są takie same jak estymatory najmniejszych kwadratów, a MLE mają właściwość bycia UMVUE, co oznacza, że mają minimalną wariancję między wszystkimi estymatorami.
źródło