Pytanie, które chcę zadać, brzmi: w jaki sposób odsetek próbek w granicach 1 SD od średniej rozkładu normalnego zmienia się wraz ze wzrostem liczby zmiennych?
(Prawie) każdy wie, że w 1-wymiarowym rozkładzie normalnym 68% próbek można znaleźć w granicach 1 odchylenia standardowego od średniej. A co z wymiarami 2, 3, 4, ...? Wiem, że robi się mniej ... ale o ile (dokładnie)? Przydałoby się mieć tabelę pokazującą liczby dla 1, 2, 3 ... 10 wymiarów, a także dla 1, 2, 3 ... 10 SD. Czy ktoś może wskazać na taki stół?
Trochę więcej kontekstu - mam czujnik, który zapewnia dane na maksymalnie 128 kanałach. Każdy kanał podlega (niezależnemu) zakłóceniom elektrycznym. Kiedy wyczuwam obiekt kalibracyjny, mogę uśrednić wystarczającą liczbę pomiarów i uzyskać średnią wartość dla 128 kanałów wraz ze 128 pojedynczymi odchyleniami standardowymi.
ALE ... jeśli chodzi o pojedyncze odczyty natychmiastowe, dane nie reagują tak bardzo jak 128 pojedynczych odczytów, ale podobnie jak pojedynczy odczyt (do) 128-dimensonalnej wielkości wektora. Z pewnością jest to najlepszy sposób na potraktowanie kilku krytycznych odczytów, które wykonujemy (zwykle 4-6 ze 128).
Chcę poczuć, co jest „normalną” odmianą, a co „odstające” w tej przestrzeni wektorowej. Jestem pewien, że widziałem tabelę taką jak ta, którą opisałem, która dotyczyłaby tego rodzaju sytuacji - czy ktoś może wskazać na jedną?
Odpowiedzi:
Weźmy : każdy X i jest normalny N ( 0 , 1 ), a X i są niezależne - myślę, że to masz na myśli przy wyższych wymiarach.X=(X1,…,Xd)∼N(0,I) Xi N(0,1) Xi
Powiedziałbyś, że jest w odległości 1 sd od średniej, kiedy | | X | | < 1 (odległość między X a jego średnią wartością jest mniejsza niż 1). Teraz | | X | | 2 = X 2 1 + ⋯ + X 2 d ∼ χ 2 ( d ), więc dzieje się tak z prawdopodobieństwem P ( ξ < 1 ) gdzie ξ ∼ χ 2 ( d )X ||X||<1 ||X||2=X21+⋯+X2d∼χ2(d) P(ξ<1) ξ∼χ2(d) . Można to znaleźć w dobrych kwadratowych stołach chi ...
Oto kilka wartości:
A dla 2 sd:
Można uzyskać te wartości w R z commads jak
pchisq(1,df=1:10)
,pchisq(4,df=1:10)
itpPost Scriptum Jak kardynał zauważył w komentarzach, można oszacować asymptotyczne zachowanie tych prawdopodobieństw. CDF zmiennej wynosi F d ( x ) = P ( d / 2 , x / 2 ) = γ ( d / 2 , x / 2 )χ2(d)
gdzieγ(s,y)=∫y0ts-1e-tdtjestniepełnąfunkcjąγ, a klasycznieΓ(s)=∫∞0ts-1e-tdt.
Gdy jest liczbą całkowitą, wielokrotne całkowanie przez części pokazuje, że P ( s , y ) = e - y ∞ ∑ k = s y ks
który jest ogonem CDF rozkładu Poissona.
Teraz ta suma jest zdominowany przez jego pierwszej kadencji (wielkie dzięki kardynałowi): dla dużychs. Możemy zastosować to, gdydjest parzyste: P(ξ<x)=P(d/2,x/2)∼1P(s,y)∼yss!e−y s d
źródło