Jaka jest suma kwadratowych zmiennych t?

20

Niech zostanie narysowany na podstawie rozkładu t Studenta z stopniami swobody, dla średniej wielkości (powiedzmy mniej niż 100). Zdefiniuj Czy rozłożone prawie jak chi-kwadrat o stopniach swobody? Czy istnieje coś takiego jak Centralne Twierdzenie Graniczne dla sumy kwadratowych zmiennych losowych?tinn

T=1ikti2
Tk
shabbychef
źródło
@suncoolsu: mówi „prawie” ...
shabbychef
przepraszam. nie widziałem tego.
suncoolsu,

Odpowiedzi:

14

Odpowiadając na pierwsze pytanie.

Możemy zacząć od faktu odnotowanego przez mpiktas, że . A potem spróbuj najpierw prostszego kroku - poszukaj rozkładu sumy dwóch zmiennych losowych dystrybuowanych przez . Można tego dokonać albo przez obliczenie splotu dwóch zmiennych losowych, albo przez obliczenie iloczynu ich charakterystycznych funkcji.F ( 1 , n )t2F(1,n)F(1,n)

Artykuł pokazy PCB Phillips, że moje pierwsze przypuszczenie o „[confluent] hipergeometryczny funkcji” zaangażowanych było prawdą. Oznacza to, że rozwiązanie nie będzie trywialne, a brutalna siła jest skomplikowana, ale jest warunkiem koniecznym do udzielenia odpowiedzi na twoje pytanie. Ponieważ jest stałe, a podsumowując rozkłady t, nie jesteśmy pewni, jaki będzie ostateczny wynik. Chyba że ktoś ma dobrą umiejętność zabawy z produktami zlewających się funkcji hipergeometrycznych.n

Dmitrij Celov
źródło
2
+1 dla linku, nie wiedziałem, że charakterystyczna funkcja rozkładu F jest tak skomplikowana.
mpiktas
14

To nie jest nawet bliskie zbliżenie. Dla małego oczekiwanie T równe jest k nnT podczas gdy oczekiwanieχ2(k)jest równek. Kiedykjest małe (powiedzmy mniej niż 10), histogramylog(T)ilog(χ2(k))nawet nie mają tego samego kształtu, co wskazuje, że przesuwanie i przeskalowanieTnadal nie będzie działać.knn2χ2(k)kklog(T)log(χ2(k))T

Intuicyjnie, dla małych stopni swobody, Studenta jest gruboogoniasty. Kwadrat to podkreśla tę ciężkość. Sumy będą zatem bardziej wypaczone - zwykle znacznie bardziej wypaczone - niż sumy kwadratów normalnych ( rozkład χ 2 ). Potwierdzają to obliczenia i symulacje.tχ2


Ilustracja (zgodnie z życzeniem)

alternatywny tekst

Każdy histogram przedstawia niezależną symulację 100 000 prób z określonymi stopniami swobody ( ) i sumami ( k ), standaryzowanymi zgodnie z opisem @mpiktas. Wartość n = 9999 w dolnym rzędzie jest zbliżona do przypadku χ 2 . W ten sposób można porównać T do χ 2 , skanując każdą kolumnę.nkn=9999χ2Tχ2

Zauważ, że standaryzacja nie jest możliwa dla ponieważ odpowiednie momenty nawet nie istnieją. Brak stabilności kształtu (podczas skanowania od lewej do prawej w dowolnym rzędzie lub od góry do dołu w dół dowolnej kolumny) jest jeszcze bardziej zaznaczony dla n 4 .n<5n4

Whuber
źródło
Bałem się tego, ale myślałem, że sumowanie przyniesie nieco ogony.
shabbychef
Pomyślałem też o stworzeniu pewnego rodzaju eksperymentów Monte Carlo, próbując sprawdzić, dla jakich wartości i k mogą być wystarczająco zbliżone do χ 2 ( knk , prawdopodobnie k ( n ) , których potrzebujemy tutaj. Ale dla małego k, a zwłaszcza n , będzie to naprawdę bardzo gruby ogon. Czy mógłbyś dodać tutaj te dwa histogramy, tylko dla leniwych ludzi takich jak ja? χ2(k)k(n)kn
Dmitrij Celov
@Dmitrij Symulacje są szybkie (narysowanie histogramów zajmuje więcej czasu), więc dodałem 12 z nich.
whuber
+1 za figurę. Ilustracje są zawsze przyjemne do zobaczenia.
Dmitrij Celov,
7

Odpowiem na drugie pytanie. Twierdzenie o granicy centralnej dotyczy dowolnej sekwencji iid, kwadratowej lub kwadratowej. Więc w twoim przypadku, jeśli jest wystarczająco duże, mamyk

TkE(t1)2kVar(t12)N(0,1)

gdzie i V a r ( t 2 1 ) jest odpowiednio średnią i wariancją kwadratowego rozkładu t Studenta zEt12Var(t12) stopni swobody. Zauważ, że t 2 1 jest podzielony jako rozkład F z 1 i n stopniami swobody. Możemy więc pobrać wzory na średnią i wariancję zestrony wikipedii. Ostateczny wynik to:nt121n

Tknn2k2n2(n1)(n2)2(n4)N(0,1)

mpiktas
źródło
1
Hotelling's T ^ 2: (f - d + 1) / fd T ^ 2 ∼ F (d, f + 1 - d)
DW
1
T2TT2
F(1,n)+F(1,n)
Uważam, że sprowadza się to do twojej sytuacji, gdy macierz wariancji jest diagonalna. Elementy nie przekątne z próbki powinny być bliskie zeru, jeśli próbki pochodziły z normalnego, ale mogą nie być dokładnie zerowe, jeśli z t. Niemniej jednak poprosiłeś o coś przybliżonego, więc myślę, że odpowiedź jest prawdopodobnie F pod tym zastrzeżeniem.
DW
F(1,n)F