Czy ktoś może wyjaśnić, jak mam 5 lat, ten problem na podstawie książki ESL Hastie?

9

Pracuję nad książką ESL Hastie i mam trudności z pytaniem 2.3. Pytanie jest następujące:

wprowadź opis zdjęcia tutaj

Rozważamy oszacowanie najbliższego sąsiada w punkcie początkowym, a to równanie podaje medianę odległości od początku do najbliższego punktu danych. Nie mam pojęcia, od czego zacząć, jeśli chodzi o próbę uzyskania tego.

Wiem, że większość punktów danych znajduje się bliżej granicy przestrzeni próbki, niż do jakiegokolwiek innego punktu danych (przekleństwo wymiarowości), ale mam problem z przetłumaczeniem tego na sens algebry liniowej / prawdopodobieństwa.

Dzięki!

Gary
źródło
4
Co oznacza „ELI5” w tytule? Jeśli chcesz wyprowadzić to równanie, musisz zacząć od modelu prawdopodobieństwa punktów w piłce: co to za model? (Proszę nie wymagać od czytelników, aby odwoływali się do książki lub innej strony, aby zrozumieć twoje pytanie.)
whuber
3
@ whuber Zgadzam się - akronimy to straszny schemat mieszania.
Sycorax mówi Przywróć Monikę
14
Masz pięć lat Podziękowania dla Ciebie za chęć zrozumienia języka angielskiego, ale musisz poczekać do szóstego roku życia. To książka dla dużych chłopców i dziewcząt.
Nick Cox,
4
Pięciolatek może zacząć od spojrzenia na jednowymiarowy przypadek (p = 1). A kiedy to będzie już gotowe, zabierz to stamtąd.
Mark L. Stone
3
Jeśli mamy zamiar przeliterować ELI5, co z ESL?
mdewey

Odpowiedzi:

15

Pozwolić r być odległością od źródła i pozwolić V0[p] być objętością hipersfery w jednostce pwymiary Następnie objętość zawarta w hipersferze o promieniur jest

V[r]=V0[p]rp

Jeśli pozwolimy P=V[r]/V0[p] oznacz ułamek objętości zawartej w tej hipersferze i zdefiniuj R=rp, następnie

P[R]=R

Jeśli punkty danych są równomiernie rozmieszczone w obrębie kuli jednostkowej, to dla 0R1 powyższy wzór jest funkcją skumulowanego rozkładu (CDF) dla R. Jest to równoważne jednolitej gęstości prawdopodobieństwa dlaR w przedziale jednostkowym, tj p[R]=P[R]=1. Tak więc, jak wskazał Mark Stone w komentarzach, możemy zmniejszyćp skrzynka wymiarowa do równoważnego problemu 1D.

Teraz, jeśli mamy jeden punkt R, z definicji mamy CDF Pr[Rρ]=P[ρ]i . Jeśli jest najmniejszą wartością spośród punktów, a wszystkie punkty są niezależne, to CDF dla jest podane przez (jest to standardowy wynik teorii jednowymiarowej wartości ekstremalnej ).Pr[Rρ]=1P[ρ]Rminn

Pr[Rminρ]=Pr[Rρ]n=(1ρ)n

Z definicji mediany mamy które możemy przepisz jako co odpowiada pożądanemu wynikowi.

12=Pr[(Rmin)medR]=(1R)n
(1dp)n=12

EDYCJA: Próba odpowiedzi w stylu „ ELI5 ”, w trzech częściach.

  1. W przypadku 1D z jednym punktem odległość jest równomiernie rozłożona na , więc mediana będzie wynosić .[0,1]12

  2. W 1D rozkład minimum na punktów jest pierwszym przypadkiem tej potęgi.nn

  3. W wymiarach odległość nie jest równomiernie rozłożona, ale wynosi.prrp

GeoMatt22
źródło
1
Ha ha, skomentowałem, że pięciolatek może zacząć od spojrzenia na przypadek p = 1. Pomyślałem o dodaniu komentarza, że ​​4-latek może nie tylko zacząć od przypadku p = 1, ale także n = 1. Ale pomyślałem, że pozwolę temu 5-latkowi to zrozumieć.
Mark L. Stone,
1
Zwróć uwagę, że kiedy odpowiedziałem na pytanie, było to po tym, jak @fcop wyjaśnił: „Rozważ N punktów danych równomiernie rozmieszczonych w kuli jednostkowej p-wymiarowej wyśrodkowanej na początku. Pokaż, że mediana odległości od początku do początku najbliższy punkt danych podaje ... ”. Zatem piłka jednostkowa w odniesieniu do normy w przestrzeni wymiarowej. Następnie pytanie zostało przywrócone do oryginału, który różni się i nie jest tak jasny. (Patrz łańcuch komentarzy pod oryginalnym pytaniem.)L2p
GeoMatt22