dlaczego, gdy występują błędy, które nie są normalnie rozpowszechniane, zagrożona jest ważność naszych oświadczeń o znaczeniu? Dlaczego przedziały ufności będą zbyt szerokie lub wąskie?
Przedziały ufności oparte są na sposobie, w jaki licznik i mianownik są rozmieszczone w statystyce t.
Przy normalnych danych licznik statystyki t ma rozkład normalny, a rozkład kwadratu mianownika (który jest wówczas wariancją) jest szczególną wielokrotnością rozkładu chi-kwadrat. Gdy licznik i mianownik są również niezależne (jak będzie to miało miejsce tylko w przypadku normalnych danych, biorąc pod uwagę, że same obserwacje są niezależne), cała statystyka ma rozkład t.
Oznacza to zatem, że statystyka t, taka jak będzie kluczową wielkością (jej rozkład nie zależy od tego, jaki jest prawdziwy współczynnik nachylenia, i jest to funkcja nieznana ), co sprawia, że nadaje się do konstruowania przedziałów ufności ... i te przedziały będą następnie używać kwantyli w swojej konstrukcji, aby uzyskać pożądany zasięg.β^−βsβ^βt
Gdyby dane pochodziły z innego rozkładu, statystyki nie miałyby rozkładu T. Na przykład, jeśli byłby gruboogoniasty, rozkład t byłby tendencją do nieco jaśniejszego ogona (obserwacje odległe wpływają na mianownik bardziej niż licznik). Oto przykład. W obu przypadkach histogram dotyczy 10 000 regresji:
Histogram po lewej stronie jest, gdy dane są warunkowo normalne, n = 30 (i gdzie w tym przypadku ). Rozkład wygląda tak, jak powinien. Histogram po prawej stronie ma miejsce w przypadku, gdy rozkład warunkowy jest odpowiednio wypaczony i gruboogoniasty, a histogram pokazuje bardzo niewiele wartości poza - rozkład nie jest podobny do rozkładu teoretycznego dla normalnych danych, ponieważ statystyka nie ma już rozkładu T.β=0(−2,2)
95% przedział t (który powinien obejmować 95% nachyleń w naszej próbce) wynosi od -2,048 do 2,048. W przypadku normalnych danych faktycznie obejmował 95,15% z 10000 nachyleń próbek. W przypadku danych wypaczonych zawiera 99,91%.