Dlaczego błędy, które nie są normalnie rozpowszechniane, zagrażają ważności naszych oświadczeń o znaczeniu?

10

Jeśli chodzi o modele OLS, istnieje założenie normalności, a mianowicie, że błędy są normalnie dystrybuowane. Przeglądałem Cross Validated i wygląda na to, że Y i X nie muszą być normalne, aby błędy były normalne. Moje pytanie brzmi: dlaczego w przypadku błędów, które nie są normalnie dystrybuowane, ważność naszych oświadczeń o znaczeniu jest zagrożona? Dlaczego przedziały ufności będą zbyt szerokie lub wąskie?

użytkownik44278
źródło

Odpowiedzi:

9

dlaczego, gdy występują błędy, które nie są normalnie rozpowszechniane, zagrożona jest ważność naszych oświadczeń o znaczeniu? Dlaczego przedziały ufności będą zbyt szerokie lub wąskie?

Przedziały ufności oparte są na sposobie, w jaki licznik i mianownik są rozmieszczone w statystyce t.

Przy normalnych danych licznik statystyki t ma rozkład normalny, a rozkład kwadratu mianownika (który jest wówczas wariancją) jest szczególną wielokrotnością rozkładu chi-kwadrat. Gdy licznik i mianownik są również niezależne (jak będzie to miało miejsce tylko w przypadku normalnych danych, biorąc pod uwagę, że same obserwacje są niezależne), cała statystyka ma rozkład t.

Oznacza to zatem, że statystyka t, taka jak będzie kluczową wielkością (jej rozkład nie zależy od tego, jaki jest prawdziwy współczynnik nachylenia, i jest to funkcja nieznana ), co sprawia, że ​​nadaje się do konstruowania przedziałów ufności ... i te przedziały będą następnie używać kwantyli w swojej konstrukcji, aby uzyskać pożądany zasięg.β^βsβ^βt

Gdyby dane pochodziły z innego rozkładu, statystyki nie miałyby rozkładu T. Na przykład, jeśli byłby gruboogoniasty, rozkład t byłby tendencją do nieco jaśniejszego ogona (obserwacje odległe wpływają na mianownik bardziej niż licznik). Oto przykład. W obu przypadkach histogram dotyczy 10 000 regresji:

wprowadź opis zdjęcia tutaj

Histogram po lewej stronie jest, gdy dane są warunkowo normalne, n = 30 (i gdzie w tym przypadku ). Rozkład wygląda tak, jak powinien. Histogram po prawej stronie ma miejsce w przypadku, gdy rozkład warunkowy jest odpowiednio wypaczony i gruboogoniasty, a histogram pokazuje bardzo niewiele wartości poza - rozkład nie jest podobny do rozkładu teoretycznego dla normalnych danych, ponieważ statystyka nie ma już rozkładu T.β=0(2,2)

95% przedział t (który powinien obejmować 95% nachyleń w naszej próbce) wynosi od -2,048 do 2,048. W przypadku normalnych danych faktycznie obejmował 95,15% z 10000 nachyleń próbek. W przypadku danych wypaczonych zawiera 99,91%.

Glen_b - Przywróć Monikę
źródło
Jakiej dystrybucji użyłeś w wersji skośnej i z grubym ogonem?
gung - Przywróć Monikę
2
@gung Gamma z parametrem kształtu 0,01 (wielkość próby wynosiła 30, dopasowano prostą regresję liniową); dość podobne wyniki występują w przypadku innych bardzo wypaczonych rozkładów. Nie potrzebujesz go prawie tak pochylonego, aby rozkład wyglądał wyraźnie inaczej niż . t
Glen_b