Intuicja za funkcją gęstości rozkładów T.

12

Studiuję o rozkładzie t-Studenta i zacząłem się zastanawiać, jak można wyprowadzić funkcję gęstości rozkładów t (z wikipedii, http://en.wikipedia.org/wiki/Student%27s_t-distribution ):

f(t)=Γ(v+12)vπΓ(v2)(1+t2v)v+12

gdzie to stopnie swobody, a to funkcja gamma. Jaka jest intuicja tej funkcji? Mam na myśli, że jeśli spojrzę na funkcję masy prawdopodobieństwa rozkładu dwumianowego, to ma to dla mnie sens. Ale funkcja gęstości rozkładów T nie ma dla mnie żadnego sensu ... na pierwszy rzut oka nie jest wcale intuicyjna. A może intuicja po prostu ma krzywą w kształcie dzwonu i spełnia nasze potrzeby?ΓvΓ

Dziękujemy za wszelką pomoc :)

jjepsuomi
źródło
3
Ta dystrybucja ma prostą (i ładną) interpretację geometryczną. Rzeczywiście, chociaż Student (1908) po raz pierwszy wyprowadził tę formę pliku PDF poprzez inteligentne domysły (wspierane przez symulację Monte-Carlo), Fisher (ok. 1920) po raz pierwszy uzyskał ją z argumentem geometrycznym. Istotą jest to, że opisuje rozkład stosunku wysokości (punktu równomiernie rozłożonego) na sferę i jej promień (odległość od osi): innymi słowy, styczną do jej szerokości geograficznej. Jedno konto jest dostępne na stronie evolvedmicrobe.com/Literature/GeometricTDistribution.pdf . ν + 1fν+1
whuber

Odpowiedzi:

9

Jeśli masz standardową normalną zmienną losową i niezależną zmienną losową chi-kwadrat z df, toQ νZQν

T=Z/Q/ν

ma rozkład z df. (Nie jestem pewien, jak jest dystrybuowany , ale to nie jest .)ν Z / Q ttνZ/Qt

Faktyczne wyprowadzenie jest dość standardowym wynikiem. Alecos robi to kilka sposobów tutaj .

Jeśli chodzi o intuicję, nie mam szczególnej intuicji dla konkretnej formy funkcjonalnej, ale pewne ogólne wyczucie kształtu można uzyskać, biorąc pod uwagę, że niezależny rozkład chi w mianowniku (skalowany przez ) jest właściwy ukośnie:ν

wprowadź opis zdjęcia tutaj

Tryb jest nieco poniżej 1 (ale zbliża się do 1 wraz ze wzrostem df), z pewną szansą na wartości znacznie powyżej i poniżej 1. Zmiana w oznacza, że ​​wariancja będzie większa niż że wśród . Wartości znacznie powyżej 1 doprowadzi do wartość X, która jest bliższa 0 wówczas jest, gdy te znacznie poniżej 1 spowoduje wartość X, która jest dalej od 0 wówczas jest. tZQ/νtZ tZtZQ/νtZtZ

Wszystko to oznacza, że wartości będą (i) bardziej zmienne, (ii) względnie bardziej pikowane i (iii) cięższe niż w normie. Gdy df rośnie, koncentruje się wokół 1, a następnie będzie bliżej normy.t tQ/νt

wprowadź opis zdjęcia tutaj

(„relatywnie bardziej szczytowy” powoduje nieco ostrzejszy pik w stosunku do rozpiętości, ale większa wariancja pociąga środek w dół, co oznacza, że ​​pik jest nieco niższy przy niższym df)

To jest trochę intuicji na temat tego, dlaczego wygląda tak, jak wygląda.t

Glen_b - Przywróć Monikę
źródło
1
W moich wyjaśnieniach byłem trochę niechlujny. Oczywiście był to pierwiastek kwadratowy rozproszonej zmiennej chi-kwadrat podzielonej przez stopnie swobody.
Analityk
@Analyst Zrobiłem to samo, więcej niż raz.
Glen_b
9

Odpowiedź Glena jest prawidłowa, ale z punktu widzenia Bayesa pomocne jest również myślenie o rozkładzie t jako ciągłej mieszaninie rozkładów normalnych z różnymi wariancjami. Możesz znaleźć pochodną tutaj:

Student t jako mieszanka gaussa

Uważam, że takie podejście pomaga intuicji, ponieważ wyjaśnia, w jaki sposób powstaje rozkład t, gdy nie znasz dokładnej zmienności populacji.

Erik
źródło
2
Zrobiłem animację rozkładu t jako mieszankę normalnych rozkładów tutaj: sumsar.net/blog/2013/12/t-as-a-mixture-of-normals
Rasmus Bååth