Czy normalnie rozłożone X i Y częściej powodują powstanie resztek normalnie rozłożonych?

12

W tym miejscu omawiana jest błędna interpretacja założenia normalności w regresji liniowej (że „normalność” odnosi się do X i / lub Y zamiast do reszt), a plakat pyta, czy możliwe jest uzyskanie nietypowo rozłożonych X i Y i nadal mają normalnie rozłożone resztki.

Moje pytanie brzmi: czy zwykle rozkład X i Y jest bardziej prawdopodobne, że resztki będą rozkładane normalnie? Było wiele powiązanych postów, ale nie sądzę, aby ktokolwiek zadał to pytanie.

Zdaję sobie sprawę, że jest to może trywialna kwestia, jeśli jest tylko jedna regresja, ale mniej, jeśli jest wiele testów. Powiedzmy, że mam 100 zmiennych X, które mają takie same pochylenie i chcę je wszystkie przetestować. Gdybym przekształcił je wszystkie w rozkład normalny, czy byłoby prawdopodobne, że miałbym mniej zmiennych X wymagających ponownego zbadania (z inną transformacją / bez transformacji) z powodu nietypowo rozłożonych reszt lub czy transformacja przed regresją byłaby całkowicie arbitralna?

Scott
źródło
1
Aby odpowiedzieć „bardziej prawdopodobne”, prawdopodobnie musielibyśmy postawić coś na temat wspólnego podziału, a nie tylko marży.
Glen_b

Odpowiedzi:

15

Nr Reszty to wartości uzależnione od (minus przewidywaną średnią w każdym punkcie ). Możesz zmienić dowolny sposób ( , , ), a wartości odpowiadające wartościom w danym punkcie nie ulegną zmianie. Zatem warunkowy rozkład (tj. ) będzie taki sam. Oznacza to, że będzie to normalne czy nie, tak jak poprzednio. (Aby lepiej zrozumieć ten temat, pomocne może być przeczytanie mojej odpowiedzi tutaj:X Y X X X + 10 X - 1 / 5 X / π Y X X Y Y | XYXYXXX+10X1/5X/πYXXYY|XCo jeśli resztki są normalnie rozłożone, ale Y nie jest? )

Co zmienia może zrobić (w zależności od rodzaju transformacji danych używanego) jest zmienić funkcjonalny związek między i . W przypadku nieliniowej zmiany (np. W celu usunięcia przekrzywienia) model, który został wcześniej odpowiednio określony, zostanie źle określony. Nieliniowe transformacje są często stosowane do linearyzacji zależności między i , aby uczynić relację bardziej interpretowalną lub aby odpowiedzieć na inne pytanie teoretyczne. X Y X X X YXXYXXXY

Więcej informacji na temat tego, w jaki sposób transformacje nieliniowe mogą zmienić model oraz pytania, na które model odpowiada (z naciskiem na transformację logów), może pomóc Ci przeczytać te doskonałe wątki CV:

Transformacje liniowe mogą zmieniać wartości parametrów, ale nie wpływają na zależność funkcjonalną. Na przykład, jeśli wyśrodkujesz zarówno jak i przed uruchomieniem regresji, punkt przecięcia stanie się . Podobnie, jeśli podzielisz przez stałą (powiedzmy, żeby zmienić z centymetrów na metry), nachylenie zostanie pomnożone przez tę stałą (np. , czyli wzrośnie 100 razy więcej niż 1 metr niż wzrośnie o 1 cm). Y p 0 0 X β 1 ( m ) = 100 x β 1 ( c m ) YXYβ^00Xβ^1 (m)=100×β^1 (cm)Y


Z drugiej strony, nieliniowe transformacje będzie wpływać na rozkład reszt. W rzeczywistości przekształcenie jest powszechną sugestią dotyczącą normalizacji reszt. To, czy taka transformacja uczyni je bardziej lub mniej normalnymi, zależy od początkowego rozkładu reszt ( nie początkowego rozkładu ) i zastosowanej transformacji. Częstą strategią jest optymalizacja w stosunku do parametru rodziny dystrybucji Box-Cox. Jedna uwaga jest właściwe tutaj: nieliniowe transformacje może model misspecified jak nieliniowych transformacji może. T TY YYY XλYX


Teraz, co będzie, jeśli zarówno i są normalne? W rzeczywistości nie gwarantuje to nawet, że rozkład połączeń będzie dwuwymiarowy normalny (patrz doskonała odpowiedź @ kardynała tutaj: Czy można mieć parę losowych zmiennych Gaussa, dla których rozkład połączeń nie jest Gaussowski ). YXY

Oczywiście, wydają się to dość dziwne możliwości, więc co jeśli rozkłady krańcowe wydają się normalne, a rozkład połączeń wydaje się również dwuwymiarowy normalny, czy to wymaga, aby reszty były również normalnie rozdzielone? Jak starałem się pokazać w mojej odpowiedzi I połączone powyżej, jeżeli reszty mają rozkład normalny, normalnością zależy od rozkładu . Nie jest jednak prawdą, że normalność reszty zależy od normalności marginesów. Rozważ ten prosty przykład (zakodowany ): XYXR

set.seed(9959)              # this makes the example exactly reproducible
x = rnorm(100)              # x is drawn from a normal population
y = 7 + 0.6*x + runif(100)  # the residuals are drawn from a uniform population

mod = lm(y~x)
summary(mod)
# Call:
# lm(formula = y ~ x)
# 
# Residuals:
#     Min      1Q  Median      3Q     Max 
# -0.4908 -0.2250 -0.0292  0.2539  0.5303 
# 
# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)    
# (Intercept)  7.48327    0.02980   251.1   <2e-16 ***
# x            0.62081    0.02971    20.9   <2e-16 ***
# ---
# Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# 
# Residual standard error: 0.2974 on 98 degrees of freedom
# Multiple R-squared:  0.8167,  Adjusted R-squared:  0.8148 
# F-statistic: 436.7 on 1 and 98 DF,  p-value: < 2.2e-16

wprowadź opis zdjęcia tutaj

Na wykresach widzimy, że oba marginesy wydają się w miarę normalne, a rozkład połączeń wygląda na normalnie dwuwymiarowy. Niemniej jednak jednorodność reszt pokazuje się na ich wykresie qq; oba ogony opadają zbyt szybko w stosunku do normalnego rozkładu (tak naprawdę muszą).

gung - Przywróć Monikę
źródło
0

Krótka odpowiedź jest w klasycznej Prostej Teorii Regresji, X jest ustalony i zakłada się, że jest znany (patrz, na przykład, http://www.theanalysisfactor.com/the-distribution-of-independent-variables-in-regression-models-2/ ), nawet bez błędu pomiaru, w przeciwnym razie Twoja beta najmniejszych kwadratów może być stronnicza, a nawet niespójna (patrz https://www.google.com/url?sa=t&source=web&rct=j&ei=Bd3sU4_kHfPjsATAm4LADA&url=https://files.nyu .edu / mrg217 / public / measurement_handouts.pdf & cd = 2 & ved = 0CCMQFjAB & usg = AFQjCNF_pZvocW1SzInQPYpQTifUsQ36kQ & sig2 = 4lAnOQO23FiZbZ7323jOzA ).

W odniesieniu do uczynienia X zmienną Wikipedia w twierdzeniu Gaussa-Markowa bardzo krótko stwierdza:

„W większości metod leczenia OLS zakłada się , że dane X są ustalone. To założenie jest uważane za niewłaściwe w przypadku głównie eksperymentów nieeksperymentalnych, takich jak ekonometria. [2] Zamiast tego założenia twierdzenia Gaussa-Markowa są oparte na X

które przeczytałem jako poważną niepochlebną transformację z nauki w sztukę lub sztukę / naukę.

AJKOER
źródło