Patrzę na niektóre problemy, aw niektórych na testowanie współczynników, czasami widzę ludzi korzystających z rozkładu Studenta, a czasem widzę Rozkład normalny. Jaka jest reguła?
10
Patrzę na niektóre problemy, aw niektórych na testowanie współczynników, czasami widzę ludzi korzystających z rozkładu Studenta, a czasem widzę Rozkład normalny. Jaka jest reguła?
Odpowiedzi:
Rozkład normalny jest rozkładem dużej próby w wielu znaczących problemach statystycznych, które wiążą się z pewną wersją Centralnego Twierdzenia Granicznego: masz (w przybliżeniu) niezależne informacje, które są sumowane, aby uzyskać odpowiedź. Jeśli oszacowania parametrów są asymptotycznie normalne, ich funkcje również będą asymptotycznie normalne (w regularnych przypadkach).
Z drugiej strony rozkład Studenta wyprowadza się w bardziej restrykcyjnych warunkach iid normalnych błędów regresji. Jeśli możesz kupić to założenie, możesz kupić rozkład t używany do testowania hipotezy w regresji liniowej. Zastosowanie tego rozkładu zapewnia szersze przedziały ufności niż zastosowanie rozkładu normalnego. Merytoryczne znaczenie tego jest takie, że w małych próbkach należy oszacować swoją miarę niepewności, średni błąd regresji do kwadratu lub odchylenie standardowe reszt, σ . (W dużych próbkach masz tyle informacji, ile byś wiedział, więc rozkład t degeneruje się do rozkładu normalnego).t t σ t
Istnieją pewne przypadki regresji liniowej, nawet w przypadku próbek skończonych, w których rozkładu Studenta nie można uzasadnić. Są one związane z naruszeniami warunków drugiego rzędu dotyczących błędów regresji; mianowicie, że są one (1) stałą wariancją i (2) niezależne. Jeśli te założenia zostaną naruszone, a standardowe błędy zostaną poprawione za pomocą estymatora Eicker / White dla heteroskedastycznych, ale niezależnych reszt; lub estymator Neweya-Westa dla błędów skorelowanych szeregowo lub standardowych błędów klastrowanychw przypadku danych skorelowanych z klastrem nie ma możliwości wyciągnięcia rozsądnego uzasadnienia dla dystrybucji Studentów. Jednak stosując odpowiednią wersję argumentu asymptotycznej normalności (tablice traingularne i tym podobne), możesz uzasadnić normalne przybliżenie (chociaż powinieneś pamiętać, że przedziały ufności byłyby prawdopodobnie zbyt wąskie).
źródło
Podoba mi się reprezentacja rozkładu t-studenta jako mieszaniny rozkładu normalnego i rozkładu gamma:
Zauważ, że średnia rozkładu gamma to a wariancja tego rozkładu wynosi V [ ρ | ν ] = 2E[ρ|ν]=1 . Możemy więc postrzegać rozkład t jako uogólniający założenie stałej wariancji do założenia „podobnego” wariancji. ν wzasadzie kontroluje, w jaki sposób pozwalamy na wariancje. Uważasz to również za regresję „losowo ważoną”, ponieważ możemy użyć powyższej całki jako reprezentacji „ukrytej zmiennej” w następujący sposób:V[ρ|ν]=2ν ν
Gdzie i ρ i ∼ G a m m a ( νei∼N(0,σ2) ρi∼Gamma(ν2,ν2) Gamma(ν2,ν2)∼1νχ2ν
So an outlier constitutes evidence for smallρi which means the ith observation gets less weight. Additionally, an small "outlier" - an observation which is predicted/fitted much better than the rest - constitutes evidence for large ρi . Hence this observation will be given more weight in the regression. This is in line with what one would intuitively do with an outlier or a good data point.
Note that there is no "rule" for deciding these things, although mine and others response to this question may be useful for finding some tests you can do along the finite variance path (student t is infinite variance for degrees of freedom less than or equal to two).
źródło