Gęstość rozkładu normalnego wraz ze wzrostem wymiarów

15

Pytanie, które chcę zadać, brzmi: w jaki sposób odsetek próbek w granicach 1 SD od średniej rozkładu normalnego zmienia się wraz ze wzrostem liczby zmiennych?

(Prawie) każdy wie, że w 1-wymiarowym rozkładzie normalnym 68% próbek można znaleźć w granicach 1 odchylenia standardowego od średniej. A co z wymiarami 2, 3, 4, ...? Wiem, że robi się mniej ... ale o ile (dokładnie)? Przydałoby się mieć tabelę pokazującą liczby dla 1, 2, 3 ... 10 wymiarów, a także dla 1, 2, 3 ... 10 SD. Czy ktoś może wskazać na taki stół?

Trochę więcej kontekstu - mam czujnik, który zapewnia dane na maksymalnie 128 kanałach. Każdy kanał podlega (niezależnemu) zakłóceniom elektrycznym. Kiedy wyczuwam obiekt kalibracyjny, mogę uśrednić wystarczającą liczbę pomiarów i uzyskać średnią wartość dla 128 kanałów wraz ze 128 pojedynczymi odchyleniami standardowymi.

ALE ... jeśli chodzi o pojedyncze odczyty natychmiastowe, dane nie reagują tak bardzo jak 128 pojedynczych odczytów, ale podobnie jak pojedynczy odczyt (do) 128-dimensonalnej wielkości wektora. Z pewnością jest to najlepszy sposób na potraktowanie kilku krytycznych odczytów, które wykonujemy (zwykle 4-6 ze 128).

Chcę poczuć, co jest „normalną” odmianą, a co „odstające” w tej przestrzeni wektorowej. Jestem pewien, że widziałem tabelę taką jak ta, którą opisałem, która dotyczyłaby tego rodzaju sytuacji - czy ktoś może wskazać na jedną?

omatai
źródło
Proszę - czy mogę podać tylko odpowiedzi empiryczne - nie rozumiem większości zapisów matematycznych.
omatai

Odpowiedzi:

19

Weźmy : każdy X i jest normalny N ( 0 , 1 ), a X i są niezależne - myślę, że to masz na myśli przy wyższych wymiarach.X=(X1,,Xd)N(0,I)XiN(0,1)Xi

Powiedziałbyś, że jest w odległości 1 sd od średniej, kiedy | | X | | < 1 (odległość między X a jego średnią wartością jest mniejsza niż 1). Teraz | | X | | 2 = X 2 1 + + X 2 dχ 2 ( d ), więc dzieje się tak z prawdopodobieństwem P ( ξ < 1 ) gdzie ξ χ 2 ( d )X||X||<1||X||2=X12++Xd2χ2(d)P(ξ<1)ξχ2(d). Można to znaleźć w dobrych kwadratowych stołach chi ...

Oto kilka wartości:

dP(ξ<1)10.6820.3930.2040.09050.03760.01470.005280.001890.00056100.00017

A dla 2 sd:

dP(ξ<4)10.9520.8630.7440.5950.4560.3270.2280.1490.089100.053

Można uzyskać te wartości w R z commads jak pchisq(1,df=1:10), pchisq(4,df=1:10)itp

Post Scriptum Jak kardynał zauważył w komentarzach, można oszacować asymptotyczne zachowanie tych prawdopodobieństw. CDF zmiennej wynosi F d ( x ) = P ( d / 2 , x / 2 ) = γ ( d / 2 , x / 2 )χ2(d) gdzieγ(s,y)=y0ts-1e-tdtjestniepełnąfunkcjąγ, a klasycznieΓ(s)=0ts-1e-tdt.

Fd(x)=P(d/2,x/2)=γ(d/2,x/2)Γ(d/2)
γ(s,y)=0yts1etdtγΓ(s)=0ts1etdt

Gdy jest liczbą całkowitą, wielokrotne całkowanie przez części pokazuje, że P ( s , y ) = e - y k = s y ks który jest ogonem CDF rozkładu Poissona.

P(s,y)=eyk=sykk!,

Teraz ta suma jest zdominowany przez jego pierwszej kadencji (wielkie dzięki kardynałowi): dla dużychs. Możemy zastosować to, gdydjest parzyste: P(ξ<x)=P(d/2,x/2)1P(s,y)yss!eysd

P(ξ<x)=P(d/2,x/2)1(d/2)!(x2)d/2ex/21πde12(dx)(xd)d21πe12xd12d,
dd
Elvis
źródło
Witamy na naszej stronie, Elvis! Niezła odpowiedź. (+1)
whuber
1
ξd
Dziękuję za twoje komentarze. Nie sądziłem, że ta odpowiedź przyniesie wiele uwagi! To prawda, że ​​jest to miła forma przekleństwa wymiarowości ... @ kardynał dotyczący (3) Nie znam żadnego asymptotycznego odpowiednika niekompletnej funkcji gamma, gdy pierwsze parametry zmienią się w nieskończoność, drugi jest ustalony, to nie jest łatwo! Można by zrobić zgrubną większość, mogę to napisać później.
Elvis
2
dd=2kZi=X2i12+X2i2Exp(1/2)X2=i=1kZiX2kP(X2<1)=P(N1/2(0,1)k)=e1/2x=k2x/x!. The tail of the Poisson is dominated by the leading term, so P(X2<1)e1/22k/Γ(k+1) as d (Again: k=d/2).
cardinal
1
Part of the point of the foregoing comment is that we get an exact answer for all even d. Also, using Stirling's approximation, we get that P(X2<1)e1/22k/Γ(k+1)e(d1)/2d(d+1)/2/π.
cardinal