Kiedy stosować rozkład Studenta lub normalny w regresji liniowej?

10

Patrzę na niektóre problemy, aw niektórych na testowanie współczynników, czasami widzę ludzi korzystających z rozkładu Studenta, a czasem widzę Rozkład normalny. Jaka jest reguła?

Lew
źródło
3
To nie jest odpowiedź, ale zauważ, że rozkład zbliża się do rozkładu normalnego, gdy parametr stopnia swobody ν rośnie. Po osiągnięciu ν 30 nie ma znaczącej różnicy, szczególnie w większości ram testowania hipotez. Zachowaniem ograniczającym jest „z góry” w tym sensie, że jeśli T t ν i Z N ( 0 , 1 ) , to | T | jest stochastycznie większy niż | Z | . tνν30TtνZN(0,1)|T||Z|
kardynał

Odpowiedzi:

15

Rozkład normalny jest rozkładem dużej próby w wielu znaczących problemach statystycznych, które wiążą się z pewną wersją Centralnego Twierdzenia Granicznego: masz (w przybliżeniu) niezależne informacje, które są sumowane, aby uzyskać odpowiedź. Jeśli oszacowania parametrów są asymptotycznie normalne, ich funkcje również będą asymptotycznie normalne (w regularnych przypadkach).

Z drugiej strony rozkład Studenta wyprowadza się w bardziej restrykcyjnych warunkach iid normalnych błędów regresji. Jeśli możesz kupić to założenie, możesz kupić rozkład t używany do testowania hipotezy w regresji liniowej. Zastosowanie tego rozkładu zapewnia szersze przedziały ufności niż zastosowanie rozkładu normalnego. Merytoryczne znaczenie tego jest takie, że w małych próbkach należy oszacować swoją miarę niepewności, średni błąd regresji do kwadratu lub odchylenie standardowe reszt, σ . (W dużych próbkach masz tyle informacji, ile byś wiedział, więc rozkład t degeneruje się do rozkładu normalnego).ttσt

Istnieją pewne przypadki regresji liniowej, nawet w przypadku próbek skończonych, w których rozkładu Studenta nie można uzasadnić. Są one związane z naruszeniami warunków drugiego rzędu dotyczących błędów regresji; mianowicie, że są one (1) stałą wariancją i (2) niezależne. Jeśli te założenia zostaną naruszone, a standardowe błędy zostaną poprawione za pomocą estymatora Eicker / White dla heteroskedastycznych, ale niezależnych reszt; lub estymator Neweya-Westa dla błędów skorelowanych szeregowo lub standardowych błędów klastrowanychw przypadku danych skorelowanych z klastrem nie ma możliwości wyciągnięcia rozsądnego uzasadnienia dla dystrybucji Studentów. Jednak stosując odpowiednią wersję argumentu asymptotycznej normalności (tablice traingularne i tym podobne), możesz uzasadnić normalne przybliżenie (chociaż powinieneś pamiętać, że przedziały ufności byłyby prawdopodobnie zbyt wąskie).

StasK
źródło
1
(+1) Podoba mi się sugestia, na początku trzeciego akapitu, że regresja liniowa jest wykonywana przy nieskończonych (nie „skończonych”) próbkach!
whuber
@ whuber: :) W moich książkach, jeśli jest to normalne, musi polegać na CLT lub czymś asymptotycznym. W przeciwnym razie, to sprawia tyle samo sensu co to .
StasK,
6

Podoba mi się reprezentacja rozkładu t-studenta jako mieszaniny rozkładu normalnego i rozkładu gamma:

Student(x|μ,σ2,ν)=0Normal(x|μ,σ2ρ)Gamma(ρ|ν2,ν2)dρ

Zauważ, że średnia rozkładu gamma to a wariancja tego rozkładu wynosi V [ ρ | ν ] = 2E[ρ|ν]=1 . Możemy więc postrzegać rozkład t jako uogólniający założenie stałej wariancji do założenia „podobnego” wariancji. ν wzasadzie kontroluje, w jaki sposób pozwalamy na wariancje. Uważasz to również za regresję „losowo ważoną”, ponieważ możemy użyć powyższej całki jako reprezentacji „ukrytej zmiennej” w następujący sposób:V[ρ|ν]=2νν

yi=μi+eiρi

Gdzie i ρ iG a m m a ( νeiN(0,σ2)ρiGamma(ν2,ν2)Gamma(ν2,ν2)1νχν2

yiμiσ2ρiσ2ρiρiμi=xiTβ, you will find that ρi is the weight for the ith observation, assuming that ρi is known.:

β^=(iρixixiT)1(iρixiyi)

So an outlier constitutes evidence for small ρi which means the ith observation gets less weight. Additionally, an small "outlier" - an observation which is predicted/fitted much better than the rest - constitutes evidence for large ρi. Hence this observation will be given more weight in the regression. This is in line with what one would intuitively do with an outlier or a good data point.

Note that there is no "rule" for deciding these things, although mine and others response to this question may be useful for finding some tests you can do along the finite variance path (student t is infinite variance for degrees of freedom less than or equal to two).

probabilityislogic
źródło
+1: this looks right, but I don't think you should say a mixture of a normal and a gamma distribution, but rather a normal-gamma–normal compound distribution and motivate this construction by saying that the normal-gamma distribution is the conjugate prior of the normal distribution (parametrized by mean and precision).
Neil G
Yeah, point taken about the mixture - although I can't think of a non-clumsy way to correct it right now. Note that this form is not unique to conjugate distributions - for example if we replace the gamma pdf with an inverted exponential pdf, we get the laplace distribution. This leads to "least absolute deviations" instead of least squares as a form of robustifying the normal distribution. Other distributions would lead to other "robustifications" - perhaps not as analytically pretty as student t though.
probabilityislogic
If X is a standard normal random variable and U is a chi-squared random variable with ν degrees of freedom, then X(U/ν) is a Student's t (ν) random variable. here.
Carl