Regresja: po co testować normalność ogólnych reszt, zamiast reszt zależnych od ?

10

Rozumiem, że w regresji liniowej przyjmuje się, że błędy rozkładają się normalnie, w zależności od przewidywanej wartości y. Następnie patrzymy na reszty jako rodzaj proxy dla błędów.

Często zaleca się, aby wygenerować dane wyjściowe tak: wprowadź opis zdjęcia tutaj. Nie rozumiem jednak, o co chodzi z uzyskaniem wartości rezydualnej dla każdego punktu danych i zacieraniu tego razem na jednym wykresie.

Rozumiem, że prawdopodobnie nie będziemy mieć wystarczającej liczby punktów danych, aby właściwie ocenić, czy mamy normalne wartości resztkowe przy każdej przewidywanej wartości y.

Czy nie jest jednak pytanie, czy mamy normalne wartości całkowite osobne, i które nie odnoszą się wyraźnie do modelowego założenia normalnych reszt przy każdej przewidywanej wartości y? Czy nie moglibyśmy mieć normalnych reszt przy każdej przewidywanej wartości y, a jednocześnie mieć ogólne wartości, które były dość nienormalne?

user1205901 - Przywróć Monikę
źródło
1
Koncepcja może mieć pewne zalety - być może ładowanie początkowe mogłoby tu pomóc (uzyskać replikację resztek)
probabilityislogic
2
Czy możesz podać odniesienie dla regresji liniowej, że zakłada się, że błędy są normalnie rozłożone, zależnie od przewidywanej wartości y (jeśli masz)?
Richard Hardy
Kiedy zamieściłem pytanie, nie miałem na myśli żadnego konkretnego źródła, ale co powiesz na „założenie modelowania polega na tym, że zmienna odpowiedzi jest zwykle rozkładana wokół linii regresji (która jest oszacowaniem średniej warunkowej), ze stałą wariancją” od tutaj . Chętnie przyjmę dalsze opinie, jeśli się mylę.
user1205901 - Przywróć Monikę

Odpowiedzi:

17

Czy nie moglibyśmy mieć normalnych reszt przy każdej przewidywanej wartości y, a jednocześnie mieć ogólne wartości, które były dość nienormalne?

Nie - przynajmniej nie przy standardowym założeniu, że wariancja błędów jest stała.

Możesz myśleć o rozkładzie całkowitych reszt jako mieszaninie rozkładów normalnych (jeden na każdy poziom ). Z założenia wszystkie te rozkłady normalne mają tę samą średnią (0) i tę samą wariancję. Zatem rozkład tej mieszaniny normalnych jest po prostu rozkładem normalnym.y^

Z tego możemy stworzyć mały sylogizm. Jeśli poszczególne rozkłady, biorąc pod uwagę wartości predyktora X, są normalne (a ich wariancje są równe), to rozkład całkowitych reszt jest normalny. Jeśli więc zauważymy, że rozkład całkowitych reszt najwyraźniej nie jest normalny, oznacza to, że rozkłady podane X nie są normalne z jednakową wariancją. Co stanowi naruszenie standardowych założeń.

Jake Westfall
źródło
1
@Jake_Westfall, nie jestem tego pewien. Wiemy, że skończona liniowa kombinacja zmiennych mających wspólny rozkład Gaussa ma rozkład Gaussa. Ale co z nieskończoną kombinacją? Innymi słowy, Biorąc pod uwagę, że , dlaczego koniecznie powinien być normalny? Będzie to zależeć od . Zauważ, że ponieważ , warunkowanie na lub rzeczywistości nic nie zmienia. P ( ε | x ) P ( ε ) p ( x ), y = β 0 + β 1 X Y Xp(ϵ)=p(ϵ|x)p(x)rexp(ϵ|x)p(ϵ)p(x)y^=β0+β1Xy^X
DeltaIV
Czy należy powiedzieć, że niestandardowe marginesy pozwalają nam „odrzucić” niestandardowe warunki warunkowe, ale że normalne marginesy nie pozwalają nam „zaakceptować” normalnych warunków warunkowych?
shadowtalker
6
@DeltaIV, rozkład normalny ma tylko 2 parametry, średnią i wariancję. Jeśli błąd wynosi 1) rozkład normalny, 2) ze średnią zero i 3) ze stałą wariancji, wówczas nie ma już nic do pomieszania. W notacji . Tak więc całkę, całka integruje się z jedną i znika, a ty pozostajesz z normalną. Mieszanina p to . p(ϵ|x)=p(ϵ)p(ϵ)N.(0,σ2))N.(0,σ2))
Bill
1
@ Rachunek, który może być faktycznie niezbędnym punktem tutaj: . Jest zakopany w brzmieniu odpowiedziε | XN.(0,σ2))εN.(0,σ2))
shadowtalker
@ssdecontrol Z odpowiedzi: „ Jeśli poszczególne rozkłady, biorąc pod uwagę wartości predyktora X, są normalne (a ich wariancje są równe), to rozkład ogólnych reszt jest normalny. ” Nie wiesz, o ile bardziej wyraźny mógłbym być?
Jake Westfall
3

Zostało powiedzianeże zwykłe najmniejsze kwadraty w y (OLS) są optymalne w klasie liniowych obiektywnych estymatorów, gdy błędy są homoscedastyczne i seryjnie nieskorelowane. Jeśli chodzi o reszty homoscedastyczne, wariancja reszt jest taka sama, niezależnie od tego, gdzie mierzymy zmienność wielkości resztkowej na osi x. Załóżmy na przykład, że błąd naszego pomiaru rośnie proporcjonalnie do wzrostu wartości y. Następnie moglibyśmy wziąć logarytm tych wartości y przed wykonaniem regresji. Jeśli tak się stanie, jakość dopasowania wzrośnie w porównaniu do dopasowania modelu błędu proporcjonalnego bez logarytmu. Zasadniczo, aby uzyskać homoscedastyczność, być może będziemy musieli wziąć odwrotność danych osi y lub x, logarytmu (ów), pierwiastka kwadratowego lub pierwiastka kwadratowego lub zastosować wykładniczy. Alternatywą jest użycie funkcji ważenia,(y-Model)2)y2) działa lepiej niż minimalizowanie .(y-Model)2)

Powiedziawszy tyle, często zdarza się, że uczynienie reszt bardziej homoscedastycznymi powoduje, że są one bardziej normalnie rozmieszczone, ale często właściwość homoscedastyczna jest ważniejsza. To ostatnie zależeć będzie od tego, dlaczego przeprowadzamy regresję. Na przykład, jeśli pierwiastek kwadratowy danych jest bardziej normalnie rozłożony niż przyjmowanie logarytmu, ale błąd ma charakter proporcjonalny, to testowanie logarytmu będzie przydatne do wykrycia różnicy między populacjami lub pomiarami, ale do znalezienia oczekiwanego należy użyć pierwiastka kwadratowego danych, ponieważ tylko pierwiastek kwadratowy danych jest rozkładem symetrycznym, dla którego oczekuje się, że średnia, tryb i mediana będą równe.

Co więcej, często zdarza się, że nie chcemy odpowiedzi, która daje nam najmniejszy predyktor błędu dla wartości osi y, a te regresje mogą być bardzo stronnicze. Na przykład, czasami możemy chcieć regresować dla najmniejszego błędu w x. Lub czasami chcemy odkryć związek między y i x, który nie jest wówczas rutynowym problemem regresji. Możemy wtedy zastosować Theil, tj. Nachylenie środkowe, regresję, jako najprostszy kompromis między regresją x i najmniej błędów. Lub jeśli wiemy, jaka jest wariancja powtarzanych miar zarówno dla x, jak i y, moglibyśmy użyć regresji Deminga. Regresja jest lepsza, gdy mamy daleko odbiegające wartości, które powodują okropne rzeczy w stosunku do zwykłych wyników regresji. W przypadku średniej regresji nachylenia nie ma znaczenia, czy reszty są zwykle rozkładane, czy nie.

BTW, normalność reszt niekoniecznie daje nam jakąkolwiek przydatną informację o regresji liniowej.Załóżmy na przykład, że wykonujemy powtarzalne pomiary dwóch niezależnych pomiarów. Ponieważ mamy niezależność, oczekiwana korelacja wynosi zero, a nachylenie linii regresji może być dowolną liczbą losową bez użytecznego nachylenia. Powtarzamy pomiary, aby ustalić szacunkową lokalizację, tj. Średnią (lub medianę (rozkład Cauchy'ego lub Beta z jednym pikiem) lub najogólniej oczekiwaną wartość populacji), a następnie obliczyć wariancję xi wariancję in y, które można następnie zastosować do regresji Deminga lub cokolwiek innego. Co więcej, założenie, że superpozycja jest zatem normalna przy tej samej średniej, jeśli pierwotna populacja jest normalna, nie prowadzi do żadnej użytecznej regresji liniowej. Aby przenieść to dalej, załóżmy, że następnie zmieniam parametry początkowe i ustanawiam nowy pomiar za pomocą różnych lokalizacji generujących funkcje Monte Carlo x i y oraz zestawiam te dane przy pierwszym uruchomieniu. Wtedy reszty są normalne w kierunku y przy każdej wartości x, ale w kierunku x histogram będzie miał dwa piki, co nie jest zgodne z założeniami OLS, a nasze nachylenie i przecięcie będą tendencyjne, ponieważ jeden nie ma danych o równych odstępach na osi x. Jednak regresja zebranych danych ma teraz wyraźne nachylenie i przechwytywanie, podczas gdy wcześniej nie. Co więcej, ponieważ tak naprawdę testujemy tylko dwa punkty z powtórnym próbkowaniem, nie możemy przetestować liniowości. Rzeczywiście współczynnik korelacji nie będzie wiarygodnym pomiarem z tego samego powodu,

I odwrotnie, czasami zakłada się dodatkowo, że błędy mają rozkład normalny zależny od regresorów. To założenie nie jest potrzebne do ważności metody OLS, chociaż pewne dodatkowe właściwości próbki skończonej można ustalić w przypadku, gdy to robi (szczególnie w obszarze testowania hipotez), patrz tutaj. Kiedy zatem OLS jest w prawidłowej regresji? Jeśli na przykład wykonujemy pomiary cen akcji na zamknięciu każdego dnia dokładnie o tej samej godzinie, to nie ma wariancji w osi t (Think x-osi). Jednak czas ostatniej wymiany (rozliczenia) byłby losowo rozłożony, a regresja w celu wykrycia RELACJI między zmiennymi musiałaby obejmować obie wariancje. W tych okolicznościach OLS w y oszacowałby tylko najmniejszy błąd w wartości y, co byłoby złym wyborem do ekstrapolacji ceny transakcyjnej dla rozrachunku, ponieważ sam czas tego rozrachunku również należy przewidzieć. Co więcej, normalnie dystrybuowany błąd może być gorszy niż model wyceny gamma .

Co to ma znaczenie Cóż, niektóre akcje handlują kilka razy na minutę, a inne nie handlują codziennie, a nawet co tydzień, i może to mieć dość dużą różnicę liczbową. To zależy od tego, jakich informacji chcemy. Jeśli chcemy zapytać, jak rynek zachowa się jutro przy zamknięciu, jest to pytanie typu „OLS”, ale odpowiedź może być nieliniowa, nienormalna resztkowa i wymagać funkcji dopasowania o współczynnikach kształtu zgodnych z dopasowaniem pochodnych (i / lub wyższych momentów) w celu ustalenia prawidłowej krzywizny do ekstrapolacji . (Można dopasować zarówno instrumenty pochodne, jak i funkcję, na przykład używając splajnów sześciennych, więc koncepcja umowy na instrumenty pochodne nie powinna być zaskoczeniem, nawet jeśli rzadko się ją bada). Jeśli chcemy wiedzieć, czy będziemy zarabiać, czy nie na konkretnym magazynie, wówczas nie używamy OLS, ponieważ problem jest wtedy dwuwariantowy.

Carl
źródło
1
Czy powiedziałbyś, że normalność jest wystarczająca, ale nie konieczna do prawidłowego wnioskowania? Dlaczego nie przetestować konkretnie heteroscedastyczności? Z pewnością gruby (na przykład) rozkład krańcowy reszt niekoniecznie oznacza, że ​​założenie o normalności warunkowej jest błędne, prawda? Jednak reszty grubogoniaste z założenia nie zdałyby testu normalności dla reszty.
shadowtalker
W przypadku testów t homoscedastyczność jest często ważniejsza. Wartości odstające powodują, że 1.359 SD >> IQR zmniejsza moc testowania T. Następnie spróbuj albo ponownej parametryzacji, albo testowania Wilcoxona, który działa w większości przypadków (być może nie, gdy r> 0,9999) niezależnie od rodzaju dystrybucji lub stopnia heteroscedastyczności. W rzeczywistości, jeśli testuje się kilka podobnych parametrów, test Wilcoxona lub t-test będzie działał lepiej, aby uporządkować niskie i wysokie prawdopodobieństwa, więc same dane często deklarują, co jest bardziej przydatne.
Carl
Zrób to 1.349 SD >> IQR. 1,349 to liczba SD, jaką rozkład normalny ma dla jednego zakresu międzykwartylowego (IQR). Niektóre rozkłady, takie jak rozkład Cauchy'ego lub t Studenta z dwoma stopniami swobody, nie mają SD, wartości odstające zabijają to, ale mają IQR, a następnie jeden wykorzystuje test Wilcoxona lub inny test nieparametryczny jako testy lokalizacji.
Carl
Po dalszym przemyśleniu (patrz nowy materiał w odpowiedzi) normalność resztek na osi y jest miła, ale niewystarczająca.
Carl
Rozkłady z grubym ogonem robią okropne rzeczy na równania regresji. Na przykład, jeśli zbadamy wszystkie możliwe zbocza w zbiorze danych, zwykle otrzymujemy rozkład zboczy Cauchy'ego, AKA Student- t z jednym stopniem swobody. W przypadku dystrybucji Cauchyego nie ma chwil. Oznacza to, że można obliczyć średnią i odchylenie standardowe, a im więcej danych, tym bardziej nieregularna będzie ta średnia i odchylenie standardowe. Oczekiwana wartość rozkładu Cauchy'ego jest medianą i aby obliczyć średnią, trzeba by ocenzurować wartości ekstremalne.
Carl