Dlaczego normalność reszt jest „w ogóle nieistotna” w celu oszacowania linii regresji?

21

Gelman i Hill (2006) piszą na s. 46, że:

Założeniem regresji, które jest na ogół najmniej ważne, jest to, że błędy są zwykle rozkładane. W rzeczywistości, w celu oszacowania linii regresji (w porównaniu z przewidywaniem poszczególnych punktów danych), założenie normalności nie jest wcale ważne. Zatem, w przeciwieństwie do wielu podręczników dotyczących regresji, nie zalecamy diagnostyki normalności reszt regresji.

Gelman i Hill nie wydają się wyjaśniać tego punktu.

Czy Gelman i Hill mają rację? Jeśli tak, to:

  1. Dlaczego „w ogóle mało ważny”? Dlaczego nie jest to ani ważne, ani całkowicie nieistotne?

  2. Dlaczego normalność reszt jest ważna przy przewidywaniu poszczególnych punktów danych?

Gelman, A., i Hill, J. (2006). Analiza danych za pomocą regresji i modeli wielopoziomowych / hierarchicznych. Cambridge University Press

user1205901 - Przywróć Monikę
źródło

Odpowiedzi:

21

W przypadku oszacowania normalność nie jest dokładnie założeniem, ale głównym czynnikiem powinna być wydajność; w wielu przypadkach dobry estymator liniowy da sobie radę iw takim przypadku (wg Gaussa-Markowa) oszacowanie LS byłoby najlepsze z tych rzeczy, które byłyby w porządku. (Jeśli twoje ogony są dość ciężkie lub bardzo lekkie, warto rozważyć coś innego)

W przypadku testów i elementów CI, przy założeniu normalności, zwykle nie jest to aż tak istotne (ponownie, o ile ogony nie są tak naprawdę ciężkie ani lekkie, a może jedno z nich), w tym przynajmniej w niezbyt bardzo- małe próbki, testy i typowe CI mają zwykle właściwości zbliżone do nominalnych (niezbyt daleko od deklarowanego poziomu istotności lub zasięgu) i działają dobrze (rozsądna moc w typowych sytuacjach lub CI nie za dużo szersze niż alternatywy) - w miarę ruchu dalej niż normalna moc obudowy może stanowić większy problem, a w takim przypadku duże próbki zasadniczo nie poprawią względnej wydajności, więc tam, gdzie rozmiary efektów są takie, że moc jest średnia w teście ze stosunkowo dobrą mocą, może być bardzo słaba dla testów zakładających normalność.

Ta tendencja do zbliżania się do nominalnych właściwości CI i poziomów istotności w testach wynika z kilku czynników działających razem (jednym z nich jest tendencja liniowych kombinacji zmiennych do zbliżonego do rozkładu normalnego, o ile zaangażowanych jest wiele wartości i żaden z nich nie stanowi dużej części całkowitej wariancji).

Jednak w przypadku przedziału predykcji opartego na normalnym założeniu normalność jest względnie bardziej krytyczna, ponieważ szerokość przedziału jest silnie zależna od rozkładu pojedynczej wartości. Jednak nawet tam, w przypadku najczęstszego rozmiaru przedziału (przedział 95%), fakt, że wiele rozkładów unimodalnych ma bardzo blisko 95% ich rozkładu w granicach około 2 sds średniej, prowadzi do rozsądnego wykonania normalnego przedziału prognozowania nawet gdy rozkład nie jest normalny. [To nie przenosi się tak dobrze do znacznie węższych lub szerszych przedziałów - powiedzmy 50% lub 99,9% - chociaż.]

Glen_b - Przywróć Monikę
źródło
„Tendencja kombinacji liniowych zmiennych do rozkładu zbliżonego do normalnego”. - Przypuszczam, że nie ma to związku z centralnym twierdzeniem o granicy. Czy to jest Jeśli nie, to jakim „twierdzeniem” jest to stwierdzenie?
Heisenberg
1
@Heisenberg Ma połączenie z konkretnymi wersjami CLT, tak. (patrz wersje Lyapunov i Lindeberg tutaj ). Jeśli chcesz zastosować twierdzenie do próbek skończonych, sprawdzamy wersję twierdzenia Berry'ego-Esseena. Stwierdzenie to było jednak bardziej spostrzeżeniem (stąd użycie słowa „tendencja”) niż twierdzeniem.
Glen_b
7

2: Przy przewidywaniu poszczególnych punktów danych przedział ufności wokół tej prognozy zakłada, że ​​reszty są zwykle rozłożone.

Nie różni się to znacznie od ogólnego założenia dotyczącego przedziałów ufności - aby być poprawnym, musimy zrozumieć rozkład, a najczęstszym założeniem jest normalność. Na przykład standardowy przedział ufności wokół średniej działa, ponieważ rozkład średnich próbek zbliża się do normalności, więc możemy zastosować rozkład az lub t

zbicyclist
źródło