Jak obliczyć odchylenie standardowe 2D, ze średnią 0, ograniczoną granicami

10

Mój problem jest następujący: zrzucam 40 piłek jednocześnie z pewnego miejsca, kilka metrów nad podłogą. Kulki toczą się i zatrzymują. Korzystając z wizji komputerowej, obliczam środek masy w płaszczyźnie XY. Interesuje mnie tylko odległość od środka masy do każdej kulki, która jest obliczana za pomocą prostej geometrii. Teraz chcę poznać jednostronne standardowe odchylenie od centrum. Byłbym w stanie wiedzieć, że pewna liczba piłek znajduje się w promieniu std, więcej piłek w promieniu 2 * std i tak dalej. Jak obliczyć jednostronne odchylenie standardowe? Normalne podejście stwierdza, że ​​połowa piłek znajduje się po „stronie ujemnej” średniej 0. To oczywiście nie ma sensu w tym eksperymencie. Czy muszę się upewnić, że kule są zgodne ze standardowym rozkładem? Dziękuję za wszelką pomoc.

K_scheduler
źródło

Odpowiedzi:

13

Aby scharakteryzować wielkość dyspersji 2D wokół środka ciężkości, potrzebujesz tylko (pierwiastka) średniej kwadratowej odległości,

σ^=RMS=1ni((xix¯)2+(yiy¯)2).

W tym wzorze są współrzędnymi punktu, a ich centroid (punkt średnich) to(xi,yi),i=1,2,,n(x¯,y¯).


Pytanie dotyczy rozkładu odległości. Gdy kulki mają dwuwymiarowy rozkład izotropowy Normalny rozkład wokół ich środka ciężkości - co jest standardowym i fizycznie uzasadnionym założeniem - odległość w kwadracie jest proporcjonalna do rozkładu chi-kwadrat z dwoma stopniami swobody (jeden dla każdej współrzędnej). Jest to bezpośrednia konsekwencja jednej definicji rozkładu chi-kwadrat jako sumy kwadratów niezależnych standardowych zmiennych normalnych, ponieważ to liniowa kombinacja niezależnych zmiennych normalnych z oczekiwaniami Zapisywanie wspólnej wariancji

xix¯=n1nxiji1nxj
E[xix¯]=n1nE[xi]ji1nE[xj]=0.
xias , Zakładamy, że anizotropia jest taka, że mają taki sam rozkład jak i są od nich niezależne, więc identyczny wynik obowiązuje dla rozkładu . Ustanawia to stałą proporcjonalności: kwadraty odległości mają rozkład chi-kwadrat z dwoma stopniami swobody skalowanymi przez .σ2
E[(xix¯)2]=Var(xix¯)=(n1n)2Var(xi)+ji(1n)2Var(xj)=n1nσ2.
yjxi(yjy¯)2n1nσ2

Najpoważniejszym testem tych równań jest przypadek , ponieważ wówczas ułamek najbardziej różni się od . Symulując eksperyment, zarówno dla i , oraz wykreślając histogramy kwadratowych odległości za pomocą skalowanych rozkładów chi-kwadrat (na czerwono), możemy zweryfikować tę teorię.n=2n1n1n=2n=40

Postać

Każdy wiersz pokazuje te same dane: po lewej oś x jest logarytmiczna; po prawej stronie pokazuje rzeczywistą odległość do kwadratu. Prawdziwa wartość dla tych symulacji została ustawiona na .σ1

Te wyniki dotyczą 100 000 iteracji przy i 50 000 iteracji przy . Zgodności między histogramami a gęstością chi-kwadrat są doskonałe.n=2n=40


Chociaż jest nieznany, można go oszacować na różne sposoby. Na przykład średnia kwadratowa odległość powinna wynosić razy średnia z , czyli . Z , na przykład, oszacowanie co -krotność średniego kwadratu odległości. Zatem oszacowanie byłoby razy większe od odległości RMS. Korzystając z wartości , możemy powiedzieć, że:σ2n1nσ2χ222n=40σ24039/2σ40/78χ22

  • Około 39% odległości będzie mniejsze niż , ponieważ 39% jest mniejsze niż .39/40σ^χ221

  • Około 78% odległości będzie mniejsze niż razy , ponieważ 78% jest mniejsze niż .339/40σ^χ223

I tak dalej, dla dowolnej wielokrotności, którą chcesz użyć zamiast lub . Dla sprawdzenia, w wcześniejszych symulacjach dla , rzeczywiste proporcje kwadratów odległości mniejsze niż razy wynosiły13n=401,2,,10n1nσ^2

0.3932 0.6320 0.7767 0.8647 0.9178 0.9504 0.9700 0.9818 0.9890 0.9933

Teoretyczne proporcje są

0.3935 0.6321 0.7769 0.8647 0.9179 0.9502 0.9698 0.9817 0.9889 0.9933

Umowa jest doskonała.


Oto Rkod do przeprowadzania i analizy symulacji.

f <- function(n, n.iter, x.min=0, x.max=Inf, plot=TRUE) {
  #
  # Generate `n.iter` experiments in which `n` locations are generated using
  # standard normal variates for their coordinates.
  #
  xy <- array(rnorm(n*2*n.iter), c(n.iter,2,n))
  #
  # Compute the squared distances to the centers for each experiment.
  #
  xy.center <- apply(xy, c(1,2), mean)
  xy.distances2 <- apply(xy-array(xy.center, c(n.iter,2,n)), c(1,3), 
                         function(z) sum(z^2))
  #
  # Optionally plot histograms.
  #
  if(plot) {
    xy.plot <- xy.distances2[xy.distances2 >= x.min & xy.distances2 <= x.max]

    hist(log(xy.plot), prob=TRUE, breaks=30,
         main=paste("Histogram of log squared distance, n=", n),
         xlab="Log squared distance")
    curve(dchisq(n/(n-1) * exp(x), df=2) * exp(x) * n/(n-1), 
          from=log(min(xy.plot)), to=log(max(xy.plot)), 
          n=513, add=TRUE, col="Red", lwd=2)

    hist(xy.plot, prob=TRUE, breaks=30,
         main=paste("Histogram of squared distance, n=", n),
         xlab="Squared distance")
    curve(n/(n-1) * dchisq(n/(n-1) * x, df=2), 
          from=min(xy.plot), to=max(xy.plot), 
          n=513, add=TRUE, col="Red", lwd=2)  
  }
  return(xy.distances2)
}
#
# Plot the histograms and compare to scaled chi-squared distributions.
#
par(mfrow=c(2,2))
set.seed(17)
xy.distances2 <- f(2, 10^5, exp(-6), 6)
xy.distances2 <- f(n <- 40, n.iter <- 50000, exp(-6), 12)
#
# Compare the last simulation to cumulative chi-squared distributions.
#
sigma.hat <- sqrt((n / (2*(n-1)) * mean(xy.distances2)))
print(cumsum(tabulate(cut(xy.distances2, 
                    (0:10) * (n-1)/n * sigma.hat^2))) / (n*n.iter), digits=4)
print(pchisq(1:10, df=2), digits=4)
Whuber
źródło
2
Dziękuję za bardzo wyczerpującą odpowiedź. Nie do końca rozumiem, w jaki sposób formuła RMS może opisać odchylenie standardowe bez dzielenia przez liczbę piłek. Jeśli porównasz to do http://en.wikipedia.org/wiki/Root-mean-square_deviation_(bioinformatics , podzielili sumę przez N. Czy suma powinna być podzielona przez N lub N-1 (ponieważ 40 piłek to tylko wybór z populacji kulek?)
K_scheduler
Po ponownym wykonaniu obliczeń wydaje mi się, że po to jestem sqrt (SDx ^ 2 + SDy ^ 2). To da mi promień okręgu, który zawiera wszystkie kule z prawdopodobieństwem 65%, prawda?
K_scheduler
Jest to równoważna formuła dla RMS, ale wartość 65% jest niepoprawna, jak wyjaśniono w tej odpowiedzi.
whuber
2
@nali Wszystkie te kwestie zostały wyraźnie przedstawione w mojej odpowiedzi tutaj.
whuber
4
@nali Twoje posty tutaj przekraczają granice przyzwoitości w ich chamstwach i atakach ad hominem . Chociaż nie martwię się o to, że jestem uważany za ignoranta lub głupca, jako moderator tej witryny muszę się martwić o zachowanie dyskursu w związku z tym i dlatego nie mogę tolerować oszustwa, które publikujesz. W związku z tym usunąłem twój najnowszy komentarz. Jeśli zobaczę komentarze, które są podobnie niegrzeczne, w stosunku do kogokolwiek, usunę je bez uprzedzenia, a ja (lub inni moderatorzy) podejmę natychmiastowe kroki w celu ograniczenia Twoich interakcji na tej stronie.
whuber
4

Myślę, że masz trochę zagubionych rzeczy. To prawda, że ​​odległość nie może być ujemna, ale nie wpływa to na obliczenie odchylenia standardowego. Chociaż oznacza to, że rozkład odległości nie może być dokładnie normalny, wciąż może być blisko; ale nawet jeśli jest to dalekie od normy, nadal występuje odchylenie standardowe.

Ponadto nie ma odchylenia standardowego „jednostronnego” - możesz myśleć o testach hipotez (które mogą być jednostronne lub dwustronne). W swoim tytule mówisz, że średnia wynosi 0, ale średni dystans nie będzie wynosił 0 (chyba, że ​​kule są na stosie 40 piłek wysoko!) I mówisz, że istnieją ograniczenia - mogą istnieć ograniczenia, jeśli piłki zostaną upuszczone pokoju, to nie mogą być dalej od centrum niż odległość do najbliższej ściany. Ale jeśli niektóre kule nie uderzą o ścianę, nie wpłynie to na nic.

Tak więc, gdy masz już 40 odległości, obliczasz odchylenie standardowe (i średnią, medianę, zakres międzykwartylowy itp.) Przy użyciu standardowych metod. Możesz także tworzyć wykresy odległości (np. Wykres normalny kwantyla, wykres pudełkowy), aby sprawdzić, czy jest on mniej więcej normalnie rozłożony (jeśli jest to interesujące).

Peter Flom
źródło
Dziękuję Peter, nie wyraziłem się poprawnie. Pozwól, że wyjaśnię: Wyobraź sobie scenę z góry. Obliczasz średnią odległość, która zostanie zilustrowana jako okrąg wokół środka masy (średnia odległość = promień). Odchylenie +/- std od tego da mniejszy okrąg i większy okrąg. Nie chcę znać standardowego odchylenia średniej odległości od środka masy, ale raczej standardowe odchylenie od środka masy na zewnątrz. Innymi słowy, w jakim promieniu od środka masy znajduje się 68,2% (jedno odchylenie standardowe) umieszczonych kulek.
K_scheduler
OK Więc myślę, że to nie jest problem statystyczny, ale problem matematyczny; Znalezienie, gdzie spadnie 68,2%, jest znane ... Nie pamiętam odpowiedzi, ale wiąże się ona z . π
Peter Flom
Być może masz pierwszą odpowiedź. Z tego, co znalazłem, użycie radialnego odchylenia standardowego powinno załatwić sprawę. RSD = sqrt (SDx ^ 2 + SDy ^ 2)
K_scheduler
1

Minęło trochę czasu, odkąd zostało to zadane, ale odpowiedź na to pytanie jest taka, że ​​jest to rozkład 2D o nazwie rozkład Rayleigha. Tutaj zakłada się, że współczynnik kształtu Rayleigha jest równy zarówno standardowym odchyleniom współrzędnych X i Y. W praktyce wartość współczynnika kształtu byłaby obliczana na podstawie łącznej średniej odchylenia standardowego X i Y.

zaczynające się od i

XN(μx,σx2)
YN(μy,σy2)

użyj dwuwariantowego rozkładu normalnego.

f(x,y)=12πσxσy1ρ2exp(12(1ρ2)[(xμx)2σx2+(yμy)2σy22ρ(xμx)(yμy)σxσy])

przetłumacz na punkt i przyjmij .

(μx,μy)
ρ=0

Załóżmy również, że więc zamień oba na

σx2=σy2
σ2

następnie rozkład 2-D jest wyrażany jako promień wokół punktu który jest znany jako rozkład Rayleigha .

(μx,μy)

PDF(r;σ)=rσ2exp(r22σ2)
gdzie i
σ=σx=σy
ri=(xiμx)2+(yiμy)2

CDF(r;σ)=1exp(r22σ2)

Oczywiście dotyczy to ciągłej dystrybucji. Dla próbki złożonej z zaledwie 40 kulek nie ma dokładnego rozwiązania. Musisz wykonać analizę Monte Carlo z próbką 40 kulek. Taylor, MS i Grubbs, Frank E. (1975). „Przybliżone rozkłady prawdopodobieństwa dla ekstremalnego rozprzestrzeniania się” znaleziono szacunki dla rozkładu Chi i logarytmicznie normalny, który pasowałby do rozkładu próbki.


Edytuj - Mimo wątpliwości Wubera obliczone przez niego proporcje teoretyczne to:

0,3935 0,6321 0,7769 0,8647 0,9179 0,9502 0,9698 0,9817 0,9889 0,9933

Z funkcji CDF skumulowane wartości Sigma dla r (in sigmas) równe zakresowi od:

0-1, 0-2, 0-3, ..., 0-10

są:

0,3935, 0,6321, 0,7769, 0,8647, 0,9179, 0,9502, 0,9698, 0,9817, 0,9889, 0,9933

Max
źródło
Dziękujemy za nadanie nazwy dystrybucji. Jednakże, (1) nie rozróżniając parametru rozkładu od oszacowań tego parametru na podstawie danych, (2) nie określając (silnych) założeń potrzebnych dotyczących rozkładu piłek, oraz (3) będąc niejasnym, ryzykujesz wprowadzający w błąd czytelnicy. Rzeczywiście, nie jest jasne, jakie jest odniesienie do twojego „tego”: czy byłby to rozkład lokalizacji piłek? (Nie.) Rozkład środka masy? (Tak, ale z parametrem skali innym niż standardowe odchylenie kulek.) Czy chciałbyś wyjaśnić swoją odpowiedź?
whuber
uzupełniono luki ....
MaxW
Dziękuję za wyjaśnienia, Max. Jako prostą kontrolę poprawności odpowiedzi, rozważmy jedną piłkę zamiast . Twoja odpowiedź wydaje się twierdzić, że rozkład odległości między tą piłką a środkiem masy wszystkich piłek jest rozkładem Rayleigha. Niestety w tym przypadku odległość ta wynosi zawsze zero. (Pytanie szczegółowo opisuje to jako „odległość od środka masy do każdej kuli, która jest obliczana przy użyciu prostej geometrii.”) To sugeruje, że twoja odpowiedź może być błędna w każdym przypadku, w tym dla piłek. 4040
whuber
Rozkład dotyczy środka masy.
MaxW
CDF jest oczywiście ustawiony na jedną piłkę. Z CDF 39% kulek znajdzie się w promieniu σ, 86% w 2σ i 99% w 3σ.
MaxW
-1

Rozkład normalny, zarówno wartości dodatnie, jak i ujemne, ma sens, jeśli rozpoznasz, że ten rozkład normalny dotyczy promienia lub „odległości od środka ciężkości”. Druga zmienna, kąt, jest losowa i jest równomiernie rozłożona od 0-pi

włamać się
źródło
Promień, który nigdy nie może być ujemny, na pewno nie będzie miał rozkładu normalnego!
whuber