Jak znaleźć oczekiwaną odległość między dwoma równomiernie rozmieszczonymi punktami?

9

Gdybym miał zdefiniować współrzędne i gdzie(X1,Y1)(X2,Y2)

X1,X2Unif(0,30) and Y1,Y2Unif(0,40).

Jak znajdę oczekiwaną wartość odległości między nimi?

Myślałem, ponieważ odległość jest obliczana przez byłby oczekiwaną wartością po prostu bądź ?(X1X2)2+(Y1Y2)2)(1/30+1/30)2+(1/40+1/40)2

Mathlete
źródło
Twój kod LaTeX nie wyświetlał się poprawnie. Mam nadzieję, że moja poprawka jest
zgodna z
Prawie, ale ostatecznie pomogło mi się tam dostać, wielkie dzięki.
Mathlete
2
Równoważne pytanie na stronie matematycznej: Średnia odległość między losowymi punktami w prostokącie . Powiązane pytanie: Prawdopodobieństwo, że jednolicie losowe punkty w prostokącie mają odległość euklidesową mniejszą niż podany próg . (Niestety, nigdy nie udało mi się poruszyć @whuber jego sugestii. Postaram się znaleźć na to czas.)
kardynał
1
Dzięki za te linki, @cardinal. Chociaż wersja matematyczna nie wyjaśnia odpowiedzi - po prostu ją przedstawia - zawiera linki do jednej pochodnej, którą warto przejrzeć.
whuber

Odpowiedzi:

2
##problem
x <- runif(1000000,0,30)
y <- runif(1000000,0,40)
Uniform <- as.data.frame(cbind(x,y))
n <- nrow(Uniform)
catch <- rep(NA,n)
for (i in 2:n) {
      catch[i] <-((x[i+1]-x[i])^2 + (y[i+1]-y[i])^2)^.5
}
mean(catch, na.rm=TRUE)
18.35855

Jeśli dobrze rozumiem, czego szukasz, może to pomoże. Próbujesz ustalić odległość między losowymi punktami, których wartości X są generowane z unif (0,30), a wartości Y są generowane z unif (0,40). Właśnie stworzyłem milion RV z każdego z tych rozkładów, a następnie związałem x i y, aby utworzyć punkt dla każdego z nich. Następnie obliczyłem odległość między punktami 2 i 1 aż do odległości między punktami 1 000 000 a 999,999. Średnia odległość wynosiła 18,35855. Daj mi znać, jeśli nie tego szukasz.

Eric Peterson
źródło
Pozwoliłem na edycję formatowania.
curious_cat
2
Podszedłeś dość blisko - być może przez przypadek. Prawdziwa odpowiedź to = . Twój kod ma dwa problemy: (1) iteracje nie są od siebie niezależne; oraz (2) aby uzyskać rozsądną precyzję, należy go zakodować, aby był szybszy. Dlaczego nie przeprowadzić symulacji bezpośrednio, jak w . To da ci około czterech znaczących liczb (w krótszym czasie), co możesz sprawdzić obliczając błąd standardowy . 1108(871+960log(2)+405log(3))18.345919n <- 10^7; distance <- sqrt((runif(n,0,30)-runif(n,0,30))^2 + (runif(n,0,40)-runif(n,0,40))^2)sd(distance) / sqrt(n)
whuber
@whuber: Czy możesz wyjaśnić swój nr 1? np. powiedzmy (Przypadek I), że narysowałem pary liczb losowych z dowolnego rozkładu i obliczyłem różnice i wziąłem średnią. Przeciw (Przypadek II) Ciągle rysowałem jedną liczbę na raz i ciągle obliczałem różnice w biegach w odniesieniu do ostatniego losowania liczb, a następnie uśredniano. Czy średnia zgłaszana przez przypadek I i II byłaby systematycznie inna?
curious_cat
1
@curious_cat Nie, średnie byłyby mniej więcej takie same: ale obliczenie błędu standardowego byłoby inne. Potrzebujemy tego obliczenia, aby oszacować, jak blisko średniej może dojść do prawdziwej wartości. Zamiast opracowywać bardziej skomplikowane obliczenia SE, łatwiej jest wygenerować pary punktów całkowicie niezależnie od siebie, dokładnie tak, jak określono w pytaniu. (Jest tak wiele sposobów, w których symulacja może się nie udać - wiem z doświadczenia! - że rozsądnie jest, aby symulacja naśladowała rzeczywistość tak dokładnie, jak to możliwe.)
whuber
@whuber: Dzięki za wyjaśnienie. Więc jeśli Clark dłużej używałby swojego kodu, mógłby uzyskać więcej miejsc po przecinku, prawda?
curious_cat
16

Z geometrycznego spojrzenia na pytanie jest jasne, że oczekiwana odległość między dwoma niezależnymi, jednolitymi losowymi punktami w zestawie wypukłym będzie nieco mniejsza niż połowa jego średnicy . (Powinno być mniej, ponieważ stosunkowo rzadko dwa punkty znajdują się w ekstremalnych obszarach, takich jak narożniki, a częściej w przypadku, gdy będą blisko centrum, gdzie są blisko.) Ponieważ średnica tego prostokąta wynosi , przez to samo uzasadnienie przewidywałoby, że odpowiedź będzie nieco mniejsza niż .5025

Dokładną odpowiedź uzyskuje się z definicji oczekiwania jako wartości ważonej prawdopodobieństwem odległości. Ogólnie rzecz biorąc, rozważ prostokąt z boków i ; następnie przeskalujemy go do właściwego rozmiaru (ustawiając i mnożąc oczekiwanie przez ). Dla tego prostokąta, przy użyciu współrzędnych , jednolita gęstość prawdopodobieństwa wynosi . Średnia odległość w tym prostokącie jest następnie podana przez1λλ=40/3030(x,y)1λdxdy

0λ010λ01(x1x2)2+(y1y2)21λdx1dy11λdx2dy2.

Korzystanie z elementarnych metod integracji jest proste, ale bolesne; Aby uzyskać odpowiedź, zastosowałem system algebry komputerowej ( Mathematica )

[2+2λ521+λ2+6λ21+λ22λ41+λ2+5λArcSinh(λ)+5λ4log(1+1+λ2λ)]/(30λ2).

Obecność w wielu z tych terminów nie jest zaskoczeniem: jest to średnica prostokąta (maksymalna możliwa odległość między dowolnymi dwoma punktami w nim zawartymi). Pojawienie się logarytmów (w tym arcsinh) również nie jest zaskakujące, jeśli kiedykolwiek badałeś średnie odległości w prostych figurach płaskich: jakoś zawsze się pojawia (wskazówka tego pojawia się w funkcji siecznej). Nawiasem mówiąc, obecność w mianowniku nie ma nic wspólnego ze specyfiką problemu dotyczącego prostokąta boków i : jest to stała uniwersalna).1+λ2303040

Przy i skalowaniu w górę o współczynnik , daje to wartość .λ=4/3301108(871+960log(2)+405log(3))18.345919


Jednym ze sposobów głębszego zrozumienia sytuacji jest wykreślenie średniej odległości względem średnicy dla różnych wartości . W przypadku ekstremalnych wartości (blisko lub znacznie większych niż ) prostokąt staje się zasadniczo jednowymiarowy, a bardziej elementarna integracja wskazuje, że średnia odległość powinna zmniejszyć się do jednej trzeciej średnicy. Ponadto, ponieważ kształty prostokątów z i są takie same, naturalne jest wykreślanie wyniku w skali logarytmicznej , gdzie musi być symetryczna względem (kwadrat). Oto on:1+λ2λ01λ1/λλλ=1

Wątek

Dzięki temu poznajemy ogólną zasadę : średnia odległość w prostokącie wynosi między a (w przybliżeniu) jego średnicy, przy czym większe wartości związane są z prostokątami prostokątnymi, a mniejsze wartości związane z długimi chudymi (liniowymi ) prostokąty. Punkt środkowy między tymi skrajnościami jest osiągany z grubsza dla prostokątów o proporcjach . Mając to na uwadze, wystarczy spojrzeć na prostokąt i oszacować jego średnią odległość do dwóch znaczących cyfr.1/30.330.373:1

Whuber
źródło
Czy powinna to być „przekątna” zamiast „średnica”? Przepraszam, jeśli robię dupki.
curious_cat
@curious_cat Z definicji średnica zestawu punktów (w dowolnej przestrzeni metrycznej) jest supremum odległości między dowolnymi dwoma punktami w niej. Dla prostokąta jest to (oczywiście) długość przekątnej.
whuber
Dzięki! Nie zdawałem sobie z tego sprawy. Użyłem naiwnej koncepcji średnicy.
curious_cat
Na marginesie: czy dla wszystkich prostokątów danego obszaru średnia odległość byłaby zminimalizowana dla kwadratu?
curious_cat
2
W duchu tego chciałbym, abyście zaczęli tę odpowiedź od „It is plane ...” (+1)
kardynał