Pracuję nad książką ESL Hastie i mam trudności z pytaniem 2.3. Pytanie jest następujące:
Rozważamy oszacowanie najbliższego sąsiada w punkcie początkowym, a to równanie podaje medianę odległości od początku do najbliższego punktu danych. Nie mam pojęcia, od czego zacząć, jeśli chodzi o próbę uzyskania tego.
Wiem, że większość punktów danych znajduje się bliżej granicy przestrzeni próbki, niż do jakiegokolwiek innego punktu danych (przekleństwo wymiarowości), ale mam problem z przetłumaczeniem tego na sens algebry liniowej / prawdopodobieństwa.
Dzięki!
Odpowiedzi:
Pozwolićr być odległością od źródła i pozwolić V0[p] być objętością hipersfery w jednostce p wymiary Następnie objętość zawarta w hipersferze o promieniur jest
Jeśli pozwolimyP=V[r]/V0[p] oznacz ułamek objętości zawartej w tej hipersferze i zdefiniuj R=rp , następnie
Jeśli punkty danych są równomiernie rozmieszczone w obrębie kuli jednostkowej, to dla0≤R≤1 powyższy wzór jest funkcją skumulowanego rozkładu (CDF) dla R . Jest to równoważne jednolitej gęstości prawdopodobieństwa dlaR w przedziale jednostkowym, tj p[R]=P′[R]=1 . Tak więc, jak wskazał Mark Stone w komentarzach, możemy zmniejszyćp skrzynka wymiarowa do równoważnego problemu 1D.
Teraz, jeśli mamy jeden punktR , z definicji mamy CDF Pr[R≤ρ]=P[ρ] i . Jeśli jest najmniejszą wartością spośród punktów, a wszystkie punkty są niezależne, to CDF dla jest podane przez
(jest to standardowy wynik teorii jednowymiarowej wartości ekstremalnej ).Pr[R≥ρ]=1−P[ρ] Rmin n
Z definicji mediany mamy które możemy przepisz jako co odpowiada pożądanemu wynikowi.
EDYCJA: Próba odpowiedzi w stylu „ ELI5 ”, w trzech częściach.
W przypadku 1D z jednym punktem odległość jest równomiernie rozłożona na , więc mediana będzie wynosić .[0,1] 12
W 1D rozkład minimum na punktów jest pierwszym przypadkiem tej potęgi.n n
W wymiarach odległość nie jest równomiernie rozłożona, ale wynosi.p r rp
źródło