Aby scharakteryzować wielkość dyspersji 2D wokół środka ciężkości, potrzebujesz tylko (pierwiastka) średniej kwadratowej odległości,
σ^= RMS =1n∑ja( (xja-x¯)2)+ (yja-y¯)2))-----------------------√.
W tym wzorze są współrzędnymi punktu, a ich centroid (punkt średnich) to(xja,yja) , i = 1 , 2 , … , n(x¯,y¯) .
Pytanie dotyczy rozkładu odległości. Gdy kulki mają dwuwymiarowy rozkład izotropowy Normalny rozkład wokół ich środka ciężkości - co jest standardowym i fizycznie uzasadnionym założeniem - odległość w kwadracie jest proporcjonalna do rozkładu chi-kwadrat z dwoma stopniami swobody (jeden dla każdej współrzędnej). Jest to bezpośrednia konsekwencja jednej definicji rozkładu chi-kwadrat jako sumy kwadratów niezależnych standardowych zmiennych normalnych, ponieważ to liniowa kombinacja niezależnych zmiennych normalnych z oczekiwaniami Zapisywanie wspólnej wariancji
xja-x¯=n - 1nxja-∑j ≠ i1nxjot
E[xi−x¯]=n−1nE[xi]−∑j≠i1nE[xj]=0.
xias , Zakładamy, że anizotropia jest taka, że mają taki sam rozkład jak i są od nich niezależne, więc identyczny wynik obowiązuje dla rozkładu . Ustanawia to stałą proporcjonalności:
kwadraty odległości mają rozkład chi-kwadrat z dwoma stopniami swobody skalowanymi przez .σ2E[(xi−x¯)2]=Var(xi−x¯)=(n−1n)2Var(xi)+∑j≠i(1n)2Var(xj)=n−1nσ2.
yjxi(yj−y¯)2n−1nσ2
Najpoważniejszym testem tych równań jest przypadek , ponieważ wówczas ułamek najbardziej różni się od . Symulując eksperyment, zarówno dla i , oraz wykreślając histogramy kwadratowych odległości za pomocą skalowanych rozkładów chi-kwadrat (na czerwono), możemy zweryfikować tę teorię.n=2n−1n1n=2n=40
Każdy wiersz pokazuje te same dane: po lewej oś x jest logarytmiczna; po prawej stronie pokazuje rzeczywistą odległość do kwadratu. Prawdziwa wartość dla tych symulacji została ustawiona na .σ1
Te wyniki dotyczą 100 000 iteracji przy i 50 000 iteracji przy . Zgodności między histogramami a gęstością chi-kwadrat są doskonałe.n=2n=40
Chociaż jest nieznany, można go oszacować na różne sposoby. Na przykład średnia kwadratowa odległość powinna wynosić razy średnia z , czyli . Z , na przykład, oszacowanie co -krotność średniego kwadratu odległości. Zatem oszacowanie byłoby razy większe od odległości RMS. Korzystając z wartości , możemy powiedzieć, że:σ2n−1nσ2χ222n=40σ24039/2σ40/78−−−−−√χ22
Około 39% odległości będzie mniejsze niż , ponieważ 39% jest mniejsze niż .39/40−−−−−√σ^χ221
Około 78% odległości będzie mniejsze niż razy , ponieważ 78% jest mniejsze niż .3–√39/40−−−−−√σ^χ223
I tak dalej, dla dowolnej wielokrotności, którą chcesz użyć zamiast lub . Dla sprawdzenia, w wcześniejszych symulacjach dla , rzeczywiste proporcje kwadratów odległości mniejsze niż razy wynosiły13n=401,2,…,10n−1nσ^2
0.3932 0.6320 0.7767 0.8647 0.9178 0.9504 0.9700 0.9818 0.9890 0.9933
Teoretyczne proporcje są
0.3935 0.6321 0.7769 0.8647 0.9179 0.9502 0.9698 0.9817 0.9889 0.9933
Umowa jest doskonała.
Oto R
kod do przeprowadzania i analizy symulacji.
f <- function(n, n.iter, x.min=0, x.max=Inf, plot=TRUE) {
#
# Generate `n.iter` experiments in which `n` locations are generated using
# standard normal variates for their coordinates.
#
xy <- array(rnorm(n*2*n.iter), c(n.iter,2,n))
#
# Compute the squared distances to the centers for each experiment.
#
xy.center <- apply(xy, c(1,2), mean)
xy.distances2 <- apply(xy-array(xy.center, c(n.iter,2,n)), c(1,3),
function(z) sum(z^2))
#
# Optionally plot histograms.
#
if(plot) {
xy.plot <- xy.distances2[xy.distances2 >= x.min & xy.distances2 <= x.max]
hist(log(xy.plot), prob=TRUE, breaks=30,
main=paste("Histogram of log squared distance, n=", n),
xlab="Log squared distance")
curve(dchisq(n/(n-1) * exp(x), df=2) * exp(x) * n/(n-1),
from=log(min(xy.plot)), to=log(max(xy.plot)),
n=513, add=TRUE, col="Red", lwd=2)
hist(xy.plot, prob=TRUE, breaks=30,
main=paste("Histogram of squared distance, n=", n),
xlab="Squared distance")
curve(n/(n-1) * dchisq(n/(n-1) * x, df=2),
from=min(xy.plot), to=max(xy.plot),
n=513, add=TRUE, col="Red", lwd=2)
}
return(xy.distances2)
}
#
# Plot the histograms and compare to scaled chi-squared distributions.
#
par(mfrow=c(2,2))
set.seed(17)
xy.distances2 <- f(2, 10^5, exp(-6), 6)
xy.distances2 <- f(n <- 40, n.iter <- 50000, exp(-6), 12)
#
# Compare the last simulation to cumulative chi-squared distributions.
#
sigma.hat <- sqrt((n / (2*(n-1)) * mean(xy.distances2)))
print(cumsum(tabulate(cut(xy.distances2,
(0:10) * (n-1)/n * sigma.hat^2))) / (n*n.iter), digits=4)
print(pchisq(1:10, df=2), digits=4)
Myślę, że masz trochę zagubionych rzeczy. To prawda, że odległość nie może być ujemna, ale nie wpływa to na obliczenie odchylenia standardowego. Chociaż oznacza to, że rozkład odległości nie może być dokładnie normalny, wciąż może być blisko; ale nawet jeśli jest to dalekie od normy, nadal występuje odchylenie standardowe.
Ponadto nie ma odchylenia standardowego „jednostronnego” - możesz myśleć o testach hipotez (które mogą być jednostronne lub dwustronne). W swoim tytule mówisz, że średnia wynosi 0, ale średni dystans nie będzie wynosił 0 (chyba, że kule są na stosie 40 piłek wysoko!) I mówisz, że istnieją ograniczenia - mogą istnieć ograniczenia, jeśli piłki zostaną upuszczone pokoju, to nie mogą być dalej od centrum niż odległość do najbliższej ściany. Ale jeśli niektóre kule nie uderzą o ścianę, nie wpłynie to na nic.
Tak więc, gdy masz już 40 odległości, obliczasz odchylenie standardowe (i średnią, medianę, zakres międzykwartylowy itp.) Przy użyciu standardowych metod. Możesz także tworzyć wykresy odległości (np. Wykres normalny kwantyla, wykres pudełkowy), aby sprawdzić, czy jest on mniej więcej normalnie rozłożony (jeśli jest to interesujące).
źródło
Minęło trochę czasu, odkąd zostało to zadane, ale odpowiedź na to pytanie jest taka, że jest to rozkład 2D o nazwie rozkład Rayleigha. Tutaj zakłada się, że współczynnik kształtu Rayleigha jest równy zarówno standardowym odchyleniom współrzędnych X i Y. W praktyce wartość współczynnika kształtu byłaby obliczana na podstawie łącznej średniej odchylenia standardowego X i Y.
zaczynające się od i
użyj dwuwariantowego rozkładu normalnego.
przetłumacz na punkt i przyjmij .
Załóżmy również, że więc zamień oba na
następnie rozkład 2-D jest wyrażany jako promień wokół punktu który jest znany jako rozkład Rayleigha .
Oczywiście dotyczy to ciągłej dystrybucji. Dla próbki złożonej z zaledwie 40 kulek nie ma dokładnego rozwiązania. Musisz wykonać analizę Monte Carlo z próbką 40 kulek. Taylor, MS i Grubbs, Frank E. (1975). „Przybliżone rozkłady prawdopodobieństwa dla ekstremalnego rozprzestrzeniania się” znaleziono szacunki dla rozkładu Chi i logarytmicznie normalny, który pasowałby do rozkładu próbki.
Edytuj - Mimo wątpliwości Wubera obliczone przez niego proporcje teoretyczne to:
0,3935 0,6321 0,7769 0,8647 0,9179 0,9502 0,9698 0,9817 0,9889 0,9933
Z funkcji CDF skumulowane wartości Sigma dla r (in sigmas) równe zakresowi od:
0-1, 0-2, 0-3, ..., 0-10
są:
0,3935, 0,6321, 0,7769, 0,8647, 0,9179, 0,9502, 0,9698, 0,9817, 0,9889, 0,9933
źródło
Rozkład normalny, zarówno wartości dodatnie, jak i ujemne, ma sens, jeśli rozpoznasz, że ten rozkład normalny dotyczy promienia lub „odległości od środka ciężkości”. Druga zmienna, kąt, jest losowa i jest równomiernie rozłożona od 0-pi
źródło