Założenia modeli liniowych i co zrobić, jeśli reszty nie są normalnie rozłożone

22

Jestem trochę zdezorientowany, jakie są założenia regresji liniowej.

Do tej pory sprawdziłem, czy:

  • wszystkie zmienne objaśniające korelowały liniowo ze zmienną odpowiedzi. (Tak było)
  • między zmiennymi objaśniającymi była jakakolwiek kolinearność. (była niewielka kolinearność).
  • odległości Cooka od punktów danych mojego modelu są mniejsze niż 1 (tak jest, wszystkie odległości są mniejsze niż 0,4, więc nie ma punktów wpływu).
  • reszty są zwykle rozkładane. (może nie być tak)

Ale potem przeczytałem następujące:

naruszenia normalności często powstają albo dlatego, że (a) rozkłady zmiennych zależnych i / lub niezależnych same w sobie są znacznie nienormalne i / lub (b) naruszone jest założenie liniowości.

Pytanie 1 Brzmi to tak, jakby zmienne niezależne i zależne musiały być normalnie rozdzielone, ale o ile mi wiadomo, tak nie jest. Moja zmienna zależna, jak również jedna z moich zmiennych niezależnych, nie są zwykle rozłożone. Powinny być?

Pytanie 2 Mój normalny wykres QQ reszt wygląda następująco:

kontrola normalności pozostałości

To nieznacznie różni się od rozkładu normalnego, a shapiro.testtakże odrzuca hipotezę zerową, że reszty pochodzą z rozkładu normalnego:

> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06

Wartości resztkowe względem dopasowanych wyglądają następująco:

wartości rezydualne vs dopasowane

Co mogę zrobić, jeśli moje resztki zwykle nie są dystrybuowane? Czy to oznacza, że ​​model liniowy jest całkowicie bezużyteczny?

Stefan
źródło
3
Twoje wartości rezydualne względem dopasowanego sugerują, że twoja zależna zmienna ma dolną granicę. Może to napędzać widoczne wzory. To może dać ci wskazówki dotyczące alternatywnych modeli, które możesz rozważyć.
Maarten Buis

Odpowiedzi:

25

Po pierwsze, kupiłbym sobie kopię tego klasycznego i przystępnego artykułu i przeczytałem go: Anscombe FJ. (1973) Wykresy w analizie statystycznej The American Statistician . 27: 17–21.

Do twoich pytań:

Odpowiedź 1: Ani zależna, ani niezależna zmienna nie musi być normalnie dystrybuowana. W rzeczywistości mogą mieć wszelkiego rodzaju rozkłady pętli. Założenie normalności dotyczy rozkładu błędów ( ).YiY^i

Odpowiedź 2: W rzeczywistości pytasz o dwa oddzielne założenia regresji zwykłej najmniejszych kwadratów (OLS):

  1. Jednym z nich jest założenie liniowości . Oznacza to, że związek między i jest wyrażony linią prostą (tak? Prosto z powrotem do algebry: , gdzie oznacza punkt , a to nachylenie linii.) Naruszenie założenie to oznacza po prostu, że związek nie jest dobrze opisany linią prostą (np. jest funkcją sinusoidalnąYXy=a+bxaybYXlub funkcja kwadratowa, a nawet linia prosta, która w pewnym momencie zmienia nachylenie). Moim preferowanym dwustopniowym podejściem do rozwiązania problemu nieliniowości jest (1) wykonanie pewnego rodzaju nieparametrycznej regresji wygładzania w celu zasugerowania określonych nieliniowych zależności funkcjonalnych między i (np. Przy użyciu LOWESS lub GAM itp.), i (2) w celu określenia zależności funkcjonalnej przy użyciu regresji wielokrotnej, która obejmuje nieliniowości w (np. ), lub nieliniowego modelu regresji metodą najmniejszych kwadratów, który obejmuje nieliniowości w parametrach X ( np. , gdzieYXXYX+X2YX+max(Xθ,0)θreprezentuje punkt, w którym linia regresji na zmienia nachylenie).YX

  2. Innym jest założenie normalnie rozłożonych reszt. Czasami można słusznie uciec od nietypowych reszt w kontekście OLS; patrz na przykład Lumley T, Emerson S. (2002) Znaczenie założenia normalności w dużych zbiorach danych dotyczących zdrowia publicznego . Coroczny przegląd zdrowia publicznego . 23: 151–69. Czasami nie można (ponownie, zobacz artykuł Anscombe).

Poleciłbym jednak myśleć o założeniach OLS nie tyle o pożądanych właściwościach danych, ile raczej o ciekawych punktach wyjścia do opisu natury. W końcu większość tego, na czym nam zależy, jest bardziej interesująca niż intercept i nachylenie. Kreatywne naruszanie założeń OLS (odpowiednimi metodami) pozwala nam zadawać i odpowiadać na bardziej interesujące pytania.y

Alexis
źródło
2
Dzięki! Na slajdach kursu statystycznego napisano, że jeśli założenia się nie powiodą, możesz spróbować przekształcić Y lub przekształcić zmienne objaśniające. Kiedy przekształcam Y wykonując na przykład lm (Y ^ 0,3 ~ + X1 + X2 + ...), wtedy moje reszty normalnie się rozkładają. Czy to jest ważna rzecz do zrobienia?
Stefan
@Stefan Tak! Przekształcanie odpowiedzi jest często dobrą rzeczą log, a proste transformacje mocy są powszechne.
Gregor
@Stefan Może, może nie. Jeśli przekształcisz swój wynik, wówczas twoje wnioski oparte na przekształconych relacjach niekoniecznie dotyczą transformacji odwrotnych po przeprowadzeniu analizy; dzieje się tak, ponieważ . Więc jeśli przeanalizujesz , znalezienie znaczącego niekoniecznie przekłada się na znaczący , a także CI niekoniecznie odpowiada .Var(f(x)f(Var(x))lnY=β0+βXX+εβXeβXβXeCIβX
Alexis
@Alexis: Dlaczego te strony mówią, że zmienne muszą być normalnie dystrybuowane? (1) pareonline.net/getvn.asp?n=2&v=8 (2) statisticssolutions.com/…
stackoverflowuser2010
7
@ stackoverflowuser2010 Ponieważ nie wiedzą o czym mówią? Założenie jest wbudowane w formalizm matematyczny : gdzie . Zauważ, że ostatnia część: reszty, a nie zmienne, które są rozkładane normalnie. Spójrz: (1) symuluj X przy użyciu równomiernego rozkładu od, och, powiedz 0 do 100; (2) symulować ; (3) cofnij na i odzyskaj . Następnie spójrz na histogramy iε N ( 0 , σ ) Y = 3 + 0,5 × X + N ( 0 , 1 ) Y X β 03 , β X0,5 X YY=β0+βXX+εεN(0,σ)Y=3+0.5×X+N(0,1)YXβ03,βX0.5XY .
Alexis,
11

Twoje pierwsze problemy to

  • pomimo twoich zapewnień, wykres resztkowy pokazuje, że warunkowa oczekiwana odpowiedź nie jest liniowa w dopasowanych wartościach; model średniej jest zły.

  • nie masz stałej wariancji. Model wariancji jest nieprawidłowy.

z tymi problemami nie można nawet ocenić normalności.

Glen_b - Przywróć Monikę
źródło
Proszę wyjaśnić, w jaki sposób doszedłeś do wniosku o liniowości, patrząc na wykresy? Rozumiem, że nie spełniono tutaj założenia homoskedastyczności.
Dr Nisha Arora
Średnia warunkowa reszt zmienia się wraz ze zmianą ; mamy wyraźny trend, a potem wyraźny skok w górę, gdy poruszamy się w prawo. Jeśli nie możesz tego zobaczyć, pokrój fabułę w powiedzmy 4 plastry. Umieściłbym środek zakresu przewidywanych wartości o , więc wytnij go, a następnie przeciąć każdą połowę na pół - powiedzmy na i . Patrząc teraz na punkty w każdym z tych wycinków ( , , , ), narysuj najlepsze oszacowanie linii prostej. Dla mnie dwa środkowe są niemal zbieżne, więc połączyli swoje wiersze, dając coś w stylu tego y =30060<00-3030-60>60y^y^=30060<00303060>60
Glen_b -Reinstate Monica
W środkowej połowie prawie wszystkie reszty są ujemne, w częściach zewnętrznych prawie wszystkie reszty są dodatnie. Nie tak wyglądają losowe reszty.
Glen_b
Dzięki, @Glen_b. Po długiej przerwie ponownie analizuję moje koncepcje, więc nie mogłem wizualizować na pierwszym miejscu.
Dr Nisha Arora
Chociaż nie ma tu wiele do zrobienia, spodziewam się, że oryginalne dane są nieujemne, i albo uogólniony model liniowy (być może gamma z logarytmem), albo transformacja (prawdopodobnie transformacja logów) byłaby bardziej odpowiednim wyborem .
Glen_b
3

Nie powiedziałbym, że model liniowy jest całkowicie bezużyteczny. Oznacza to jednak, że Twój model nie wyjaśnia poprawnie / w pełni danych. Jest część, w której musisz zdecydować, czy model jest „wystarczająco dobry”, czy nie.

W przypadku pierwszego pytania nie sądzę, aby model regresji liniowej zakładał, że zmienne zależne i niezależne muszą być normalne. Istnieje jednak założenie dotyczące normalności reszt.

W przypadku drugiego pytania można rozważyć dwie różne rzeczy:

  1. Sprawdź różne rodzaje modeli. Inny model może być lepszy do wyjaśnienia danych (na przykład regresja nieliniowa itp.). Nadal będziesz musiał sprawdzić, czy założenia tego „nowego modelu” nie zostały naruszone.
  2. Twoje dane mogą nie zawierać wystarczającej liczby zmiennych towarzyszących (zmiennych zależnych), aby wyjaśnić odpowiedź (wynik). W takim przypadku nie możesz zrobić nic więcej. Czasami możemy zaakceptować sprawdzenie, czy reszty mają inne rozkłady (np. Rozkład t), ale wydaje się, że tak nie jest.

Oprócz twojego pytania widzę, że twój QQPlot nie jest „znormalizowany”. Zwykle łatwiej jest spojrzeć na fabułę, gdy twoje resztki są znormalizowane, patrz stdres .

stdres(lmobject)

Mam nadzieję, że to ci pomoże, może ktoś inny wytłumaczy to lepiej niż ja.

Julien D.
źródło
0

Oprócz poprzedniej odpowiedzi chciałbym dodać kilka punktów w celu ulepszenia twojego modelu:

  1. Czasami nienormalność reszt wskazuje na obecność wartości odstających. W takim przypadku należy najpierw zastosować wartości odstające.

  2. Być może przy użyciu niektórych przekształceń rozwiązać cel.

  3. Dodatkowo, aby poradzić sobie z wielokoliniowością, możesz skierować https://www.researchgate.net/post/My_data_has_the_problem_of_multicolinearity_Removing_unique_variables_using_variance_inflation_factor_VIF_didnt_work_Any_solution

Dr Nisha Arora
źródło
-1

Na twoje drugie pytanie

Coś, co przydarzyło mi się w praktyce, polegało na tym, że nadużywałem odpowiedzi wieloma niezależnymi zmiennymi. W modelu przebudowanym miałem resztki normalne. Mimo to wyniki ustaliły, że nie było wystarczających dowodów, aby odrzucić możliwość, że niektóre współczynniki były zerowe (przy wartościach p większych niż 0,2). Tak więc w drugim modelu, odrzucając zmienne po procedurze selekcji wstecznej, otrzymałem normalne reszty zwalidowane zarówno graficznie za pomocą qqplot, jak i poprzez testowanie hipotez testem Shapiro-Wilka. Sprawdź, czy to może być twoja sprawa.

Ayar Paco
źródło