Jaki jest rozkład odległości euklidesowej między dwiema losowymi zmiennymi o normalnym rozkładzie?

41

Załóżmy, że otrzymujesz dwa obiekty, których dokładne lokalizacje są nieznane, ale są rozmieszczone zgodnie z normalnymi rozkładami o znanych parametrach (np. i b N ( v , t ) ) . Można założyć, obie są normalne dwuwymiarowe, takie, że pozycje są opisane przez rozkład w ( x , y ) współrzędnych (to jest m i V są wektory zawierające oczekiwany ( x , y ) współrzędnych dla AaN(m,s)bN(v,t))(x,y)mv(x,y)ai odpowiednio b ). Zakładamy również, że obiekty są niezależne.

Czy ktoś wie, czy rozkład kwadratowej odległości euklidesowej między tymi dwoma obiektami jest znanym rozkładem parametrycznym? Lub jak uzyskać analitycznie PDF / CDF dla tej funkcji?

Nacięcie
źródło
4
Powinieneś uzyskać wielokrotność niecentralnego rozkładu chi-kwadrat, pod warunkiem że wszystkie cztery współrzędne są nieskorelowane. W przeciwnym razie wynik wygląda na znacznie bardziej skomplikowany.
whuber
@ whuber wszelkie szczegóły / wskaźniki, które możesz podać, w jaki sposób parametry wynikowego niecentralnego rozkładu chi-kwadrat odnoszą się do parametrów obiektów a, b byłoby fantastyczne
Nick
4
@Nick kilka pierwszych akapitów artykułu z Wikipedii zawiera szczegółowe informacje. Patrząc na funkcje charakterystyczne, można ustalić, że podobny wynik nie jest dostępny, gdy nie wszystkie wariancje są takie same lub istnieją pewne korelacje.
whuber
@Nick tylko w celu wyjaśnienia, tak i b są losowymi wektorami z wartościami R 2 ? abR2
mpiktas
1
@Nick jeśli i b są wspólnie normalne, to różnica jest - b jest również normalny. Twoim problemem jest znalezienie rozkładu losowego wektora normalnego. Googling Znalazłem ten link . Artykuł opisuje znacznie bardziej złożony problem, który w bardzo szczególnym przypadku pokrywa się z twoim. To daje nadzieję, że odpowiedź na twoje pytanie jest jednoznaczna. Referencje mogą dostarczyć dalszych pomysłów na wyszukiwanie. abab
mpiktas

Odpowiedzi:

24

Odpowiedź na to pytanie można znaleźć w książce Formy kwadratowe w zmiennych losowych autorstwa Mathai i Provost (1992, Marcel Dekker, Inc.).

Jak wyjaśniono w komentarzach, należy znaleźć rozkład gdzie z = a - b następuje dwuwymiarowy rozkład normalny ze średnią μ i macierzą kowariancji Σ . Jest to forma kwadratowa w dwuwymiarowej zmiennej losowej z .Q=z12+z22z=abμΣz

W skrócie, jednym ładnym ogólnym wynikiem dla przypadku wymiarowego, w którym z N p ( μ , Σ ) i Q = p j = 1 z 2 j jest to, że funkcją generującą moment jest E ( e t Q ) = e t p j = 1 b 2 j λ jpzNp(μ,Σ)

Q=j=1pzj2
, gdzieλ1,...,λPsą wartości własneĎibjest liniową funkcjąľ. Zobacz Twierdzenie 3.2a.2 (strona 42) w cytowanej wyżej książce (zakładamy tutaj, żeΣnie jest liczbą pojedynczą). Inną użyteczną reprezentacją jest 3.1a.1 (strona 29) Q=pj=1
E(etQ)=etj=1pbj2λj12tλjj=1p(12tλj)1/2
λ1,,λpΣbμΣ gdzie u 1 , , u p są oznaczone jako N ( 0 , 1 ) .
Q=j=1pλj(uj+bj)2
u1,,upN(0,1)

Cały rozdział 4 książki poświęcony jest reprezentacji i obliczaniu gęstości i funkcji rozkładu, co wcale nie jest trywialne. Książkę znam tylko powierzchownie, ale mam wrażenie, że wszystkie ogólne przedstawienia dotyczą nieskończonych serii.

λ1,λ2>0b1,b2R

abab

NRH
źródło
1
Dzięki za odniesienie, znalazłem książkę i powoli próbuję sobie z nią
poradzić
λj=σ2p=2bj2λjμj2
bjμj2
7

μd=μ1μ2Σd=Σ1+Σ2 Σd=JΣ12JTΣ12=[Σ1Σ2]J=[+I,I]

Po drugie, poszukaj rozkładu długości wektora różnicy lub odległości promieniowej od początku, która jest rozproszona przez Hoyta :

Promień wokół prawdziwej średniej w dwuwymiarowej skorelowanej normalnej zmiennej losowej z nierównymi wariancjami, zapisany ponownie we współrzędnych biegunowych (promień i kąt), jest zgodny z rozkładem Hoyta. Pliki pdf i cdf są zdefiniowane w formie zamkniętej, do znalezienia cdf ^ −1 służy numeryczne wyszukiwanie root. Zmniejsza się do rozkładu Rayleigha, jeśli korelacja wynosi 0, a wariancje są równe.

Bardziej ogólna dystrybucja powstaje, jeśli dopuszczasz stronniczą różnicę (przesunięte pochodzenie), z Ballistipedia : Rozkłady współrzędnych xy i wynikowy błąd promieniowy

Felipe G. Nievinski
źródło
2
+1, ale myślę, że warto zauważyć, że pytanie dotyczy tego, co twoja postać nazywa „przypadkiem ogólnym”.
ameba mówi Przywróć Monikę
1

Dlaczego by tego nie przetestować?

set.seed(347)
x <- rnorm(10000)
y <- rnorm(10000)
x2 <- rnorm(10000)
y2 <- rnorm(10000)

qdf <- data.frame(x,y,x2,y2)
qdf <- data.frame(qdf,(x-x2)^2+(y-y2)^2)
colnames(qdf)[5] <- "euclid" 

plot(c(x,y),c(x2,y2))
plot(qdf$euclid)
hist(qdf$euclid) 
plot(dentist(qdf$euclid))

Działka 1 Wykres 2 Wykres 3 Wykres 4

Brandon Bertelsen
źródło
2
Komentarze Whubers do pierwotnego pytania stwierdzały już, jak by to wyglądało, gdyby wariancje były takie same, a zmienne nie były skorelowane. Być może podanie przykładu, w którym tak nie jest, byłoby bardziej pouczające.
Andy W
Czy możesz podać taki przykład?
Brandon Bertelsen
wszystko, co musisz zrobić, to wygenerować wartości xiy, które są albo skorelowane, albo mają różne wariancje. Różne wariancje można wykonać bezpośrednio w kodzie. Możesz wygenerować wartości z określonej macierzy kowariancji za pomocą mvrnorm z pakietu MASS. Nie jestem również pewien, jaka jest funkcja „dentysta” w powyższym kodzie, czy może być to „gęstość”.
Andy W
1
Biorąc to pod uwagę, prawdopodobnie tak samo pouczające jest przeanalizowanie matematyki, aby zobaczyć, dlaczego tak jest (i jak manipulowanie wariancją / kowariancjami zmieni rozkład). Nie jest dla mnie do końca jasne, dlaczego dzieje się tak po prostu patrząc na charakterystyczną funkcję wspomnianą przez Whucera. Wygląda na to, że proste zrozumienie zasad dodawania, odejmowania i mnożenia zmiennych losowych pomoże ci zrozumieć, dlaczego tak jest.
Andy W