Jestem trochę zdezorientowany, jakie są założenia regresji liniowej.
Do tej pory sprawdziłem, czy:
- wszystkie zmienne objaśniające korelowały liniowo ze zmienną odpowiedzi. (Tak było)
- między zmiennymi objaśniającymi była jakakolwiek kolinearność. (była niewielka kolinearność).
- odległości Cooka od punktów danych mojego modelu są mniejsze niż 1 (tak jest, wszystkie odległości są mniejsze niż 0,4, więc nie ma punktów wpływu).
- reszty są zwykle rozkładane. (może nie być tak)
Ale potem przeczytałem następujące:
naruszenia normalności często powstają albo dlatego, że (a) rozkłady zmiennych zależnych i / lub niezależnych same w sobie są znacznie nienormalne i / lub (b) naruszone jest założenie liniowości.
Pytanie 1 Brzmi to tak, jakby zmienne niezależne i zależne musiały być normalnie rozdzielone, ale o ile mi wiadomo, tak nie jest. Moja zmienna zależna, jak również jedna z moich zmiennych niezależnych, nie są zwykle rozłożone. Powinny być?
Pytanie 2 Mój normalny wykres QQ reszt wygląda następująco:
To nieznacznie różni się od rozkładu normalnego, a shapiro.test
także odrzuca hipotezę zerową, że reszty pochodzą z rozkładu normalnego:
> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06
Wartości resztkowe względem dopasowanych wyglądają następująco:
Co mogę zrobić, jeśli moje resztki zwykle nie są dystrybuowane? Czy to oznacza, że model liniowy jest całkowicie bezużyteczny?
Odpowiedzi:
Po pierwsze, kupiłbym sobie kopię tego klasycznego i przystępnego artykułu i przeczytałem go: Anscombe FJ. (1973) Wykresy w analizie statystycznej The American Statistician . 27: 17–21.
Do twoich pytań:
Odpowiedź 1: Ani zależna, ani niezależna zmienna nie musi być normalnie dystrybuowana. W rzeczywistości mogą mieć wszelkiego rodzaju rozkłady pętli. Założenie normalności dotyczy rozkładu błędów ( ).Yja- Y^ja
Odpowiedź 2: W rzeczywistości pytasz o dwa oddzielne założenia regresji zwykłej najmniejszych kwadratów (OLS):
Jednym z nich jest założenie liniowości . Oznacza to, że związek między i jest wyrażony linią prostą (tak? Prosto z powrotem do algebry: , gdzie oznacza punkt , a to nachylenie linii.) Naruszenie założenie to oznacza po prostu, że związek nie jest dobrze opisany linią prostą (np. jest funkcją sinusoidalnąY X y= a + b x za y b Y X lub funkcja kwadratowa, a nawet linia prosta, która w pewnym momencie zmienia nachylenie). Moim preferowanym dwustopniowym podejściem do rozwiązania problemu nieliniowości jest (1) wykonanie pewnego rodzaju nieparametrycznej regresji wygładzania w celu zasugerowania określonych nieliniowych zależności funkcjonalnych między i (np. Przy użyciu LOWESS lub GAM itp.), i (2) w celu określenia zależności funkcjonalnej przy użyciu regresji wielokrotnej, która obejmuje nieliniowości w (np. ), lub nieliniowego modelu regresji metodą najmniejszych kwadratów, który obejmuje nieliniowości w parametrach X ( np. , gdzieY X X Y∼ X+ X2) Y∼ X+ maks. ( X- θ , 0 ) θ reprezentuje punkt, w którym linia regresji na zmienia nachylenie).Y X
Innym jest założenie normalnie rozłożonych reszt. Czasami można słusznie uciec od nietypowych reszt w kontekście OLS; patrz na przykład Lumley T, Emerson S. (2002) Znaczenie założenia normalności w dużych zbiorach danych dotyczących zdrowia publicznego . Coroczny przegląd zdrowia publicznego . 23: 151–69. Czasami nie można (ponownie, zobacz artykuł Anscombe).
Poleciłbym jednak myśleć o założeniach OLS nie tyle o pożądanych właściwościach danych, ile raczej o ciekawych punktach wyjścia do opisu natury. W końcu większość tego, na czym nam zależy, jest bardziej interesująca niż intercept i nachylenie. Kreatywne naruszanie założeń OLS (odpowiednimi metodami) pozwala nam zadawać i odpowiadać na bardziej interesujące pytania.y
źródło
log
, a proste transformacje mocy są powszechne.Twoje pierwsze problemy to
pomimo twoich zapewnień, wykres resztkowy pokazuje, że warunkowa oczekiwana odpowiedź nie jest liniowa w dopasowanych wartościach; model średniej jest zły.
nie masz stałej wariancji. Model wariancji jest nieprawidłowy.
z tymi problemami nie można nawet ocenić normalności.
źródło
Nie powiedziałbym, że model liniowy jest całkowicie bezużyteczny. Oznacza to jednak, że Twój model nie wyjaśnia poprawnie / w pełni danych. Jest część, w której musisz zdecydować, czy model jest „wystarczająco dobry”, czy nie.
W przypadku pierwszego pytania nie sądzę, aby model regresji liniowej zakładał, że zmienne zależne i niezależne muszą być normalne. Istnieje jednak założenie dotyczące normalności reszt.
W przypadku drugiego pytania można rozważyć dwie różne rzeczy:
Oprócz twojego pytania widzę, że twój QQPlot nie jest „znormalizowany”. Zwykle łatwiej jest spojrzeć na fabułę, gdy twoje resztki są znormalizowane, patrz stdres .
Mam nadzieję, że to ci pomoże, może ktoś inny wytłumaczy to lepiej niż ja.
źródło
Oprócz poprzedniej odpowiedzi chciałbym dodać kilka punktów w celu ulepszenia twojego modelu:
Czasami nienormalność reszt wskazuje na obecność wartości odstających. W takim przypadku należy najpierw zastosować wartości odstające.
Być może przy użyciu niektórych przekształceń rozwiązać cel.
Dodatkowo, aby poradzić sobie z wielokoliniowością, możesz skierować https://www.researchgate.net/post/My_data_has_the_problem_of_multicolinearity_Removing_unique_variables_using_variance_inflation_factor_VIF_didnt_work_Any_solution
źródło
Na twoje drugie pytanie
Coś, co przydarzyło mi się w praktyce, polegało na tym, że nadużywałem odpowiedzi wieloma niezależnymi zmiennymi. W modelu przebudowanym miałem resztki normalne. Mimo to wyniki ustaliły, że nie było wystarczających dowodów, aby odrzucić możliwość, że niektóre współczynniki były zerowe (przy wartościach p większych niż 0,2). Tak więc w drugim modelu, odrzucając zmienne po procedurze selekcji wstecznej, otrzymałem normalne reszty zwalidowane zarówno graficznie za pomocą qqplot, jak i poprzez testowanie hipotez testem Shapiro-Wilka. Sprawdź, czy to może być twoja sprawa.
źródło