Co to znaczy, gdy mówimy, że większość punktów w hipersześcianie znajduje się na granicy?

Jeśli mam 50-wymiarowy hipersześcian. I definiuję jego granicę przez $0<x_j<0.05$ lub $0.95<x_j<1$ gdzie jest wymiarem hipersześcianu. Następnie obliczenie proporcji punktów na granicy hipersześcianu wyniesie . Co to znaczy? Czy to oznacza, że reszta przestrzeni jest pusta? Jeśli punktów znajduje się na granicy, to punkty wewnątrz sześcianu nie mogą być równomiernie rozmieszczone? $x_j$ $0.995$ $99\%$

machine-learning math Rohit Kumar Singh
źródło

Nie, oznacza to, że peryferia są bardziej przestronne, a efekt jest proporcjonalny do wymiarów. Jest to nieco sprzeczne z intuicją. Zjawisko to ma wpływ na rozkład odległości między losowymi parami węzłów, które stają się istotne, gdy chcesz skupić lub obliczyć najbliższych sąsiadów w przestrzeniach wielowymiarowych.

Emre

Oblicz, jaka część punktów na odcinku linii znajduje się w pobliżu jego granicy. Następnie wskazuje kwadrat. Następnie wskazuje na sześcian. Co możesz o nich powiedzieć?

user253751

Odpowiedzi:

Mówienie o „ $99\%$ punktów w hipersześcianie ” jest nieco mylące, ponieważ hipersześcian zawiera nieskończenie wiele punktów. Zamiast tego porozmawiajmy o głośności.

Objętość hipersześcianu jest iloczynem jego długości boków. Dla hipersześcianu z jednostką 50-wymiarową otrzymujemy

Total volume = \underset{50 times}{\underset{⏟}{1 \times 1 \times \dots \times 1}} = 1^{50} = 1.

$\text{Total volume} = \underbrace{1 \times 1 \times \dots \times 1}_{50 \text{ times}} = 1^{50} = 1.$

Teraz wykluczmy granice hipersześcianu i spójrzmy na „ wnętrze ” (umieszczam to w cudzysłowie, ponieważ matematyczne określenie wnętrze ma zupełnie inne znaczenie). Zachowujemy tylko punkty $x = (x_1, x_2, \dots, x_{50})$ które spełniają

0.05 < x_{1} < 0.95 and 0.05 < x_{2} < 0.95 and \dots and 0.05 < x_{50} < 0.95.

$0.05 < x_1 < 0.95 \,\text{ and }\, 0.05 < x_2 < 0.95 \,\text{ and }\, \dots \,\text{ and }\, 0.05 < x_{50} < 0.95.$ Jaka jest objętość tego „wnętrza”? Cóż, „wnętrze” jest znowu hipersześcianem, a długość każdej strony wynosi

0.9

$0.9$ (

= 0.95 - 0.05

$=0.95 - 0.05$ ... pomaga to sobie wyobrazić w dwóch i trzech wymiarach). Więc objętość to Objętość

Interior volume = \underset{50 times}{\underset{⏟}{0.9 \times 0.9 \times \dots \times 0.9}} = {0.9}^{50} \approx 0.005.

$\text{Interior volume} = \underbrace{0.9 \times 0.9 \times \dots \times 0.9}_{50 \text{ times}} = 0.9^{50} \approx 0.005.$ Wniosek, że objętość „granicy” (zdefiniowana jako jednostka hipersześcianu bez „wnętrze ”) wynosi

1 - {0.9}^{50} \approx 0.995.

$1 - 0.9^{50} \approx 0.995.$

To pokazuje, że $99.5\%$ objętości 50-wymiarowego hipersześcianu jest skoncentrowane na jego „ granicy ”.

Dalsze działania: Ignatius podniósł interesujące pytanie, w jaki sposób wiąże się to z prawdopodobieństwem. Oto przykład.

Powiedzmy, że wymyśliłeś model (uczenie maszynowe), który przewiduje ceny mieszkań na podstawie 50 parametrów wejściowych. Wszystkie 50 parametrów wejściowych jest niezależnych i równomiernie rozmieszczonych między $0$ a $1$ .

Powiedzmy, że Twój model działa bardzo dobrze, jeśli żaden z parametrów wejściowych nie jest ekstremalny: tak długo, jak długo każdy parametr wejściowy pozostaje w przedziale od $0.05$ do $0.95$ , Twój model prawie idealnie przewiduje cenę mieszkania. Ale jeśli co najmniej jeden parametr wejściowy jest ekstremalny (mniejszy niż $0.05$ lub większy niż $0.95$ ), prognozy twojego modelu są absolutnie okropne.

Każdy podany parametr wejściowy jest ekstremalny z prawdopodobieństwem tylko $10\%$ . Czyli to dobry model, prawda? Nie! Prawdopodobieństwo, że przynajmniej jeden z $50$ parametrów jest ekstremalny, wynosi $1 - 0.9^{50} \approx 0.995.$ Tak więc w $99.5\%$ przypadków prognoza twojego modelu jest okropna.

Ogólna zasada: w wysokich wymiarach ekstremalne obserwacje są regułą, a nie wyjątkiem.

Elias Strehle
źródło

Warto skorzystać z cytatu PO: „Czy to znaczy, że reszta miejsca jest pusta?” i odpowiadanie: Nie, oznacza to, że reszta przestrzeni jest stosunkowo mała . . . Lub podobnie własnymi słowami. . .

Neil Slater

Naprawdę fajne wyjaśnienie terminu „klątwa wymiarowości”

ignacja

Zastanawiasz się, czy następujące są poprawne: biorąc ten przykład, jeśli zestaw funkcji jest równomiernie rozmieszczony wzdłuż [0,1] w każdym z 50 wymiarów, (99,5% -0,5%) = 99% objętości (funkcja hipersześcianu spacja) przechwytuje tylko 10% wartości każdej cechy

ignatius

„Dany parametr wejściowy jest ekstremalny z prawdopodobieństwem jedynie 5%.” Myślę, że prawdopodobieństwo to wynosi 10%.

Rodvi

@Rodvi: Oczywiście masz rację, dzięki! Naprawione.

Elias Strehle

Możesz wyraźnie zobaczyć wzór nawet w mniejszych wymiarach.

1. wymiar Weź linię o długości 10 i granicy 1. Długość granicy wynosi 2, a wewnętrzny stosunek 8: 1: 4.

2. wymiar. Weź kwadrat o boku 10 i ponownie granicę 1. Obszar granicy wynosi 36, wnętrze 64, proporcja 9:16.

3. wymiar. Ta sama długość i granica. Objętość granicy wynosi 488, wnętrze 512, 61:64 - już granica zajmuje prawie tyle samo miejsca co wnętrze.

Czwarty wymiar, teraz granica wynosi 5904, a wnętrze 4096 - granica jest teraz większa.

Nawet w przypadku coraz mniejszych długości granic, wraz ze wzrostem wymiaru, objętość granicy zawsze będzie wyprzedzać wnętrze.

HP Williams
źródło

Najlepszym sposobem na „zrozumienie” tego (choć dla człowieka nie jest to IMHO), jest porównanie objętości kuli n-wymiarowej i kostki n-wymiarowej. Wraz ze wzrostem n (wymiarowości) cała objętość kulki „przecieka” i koncentruje się w rogach sześcianu. Jest to użyteczna ogólna zasada, o której należy pamiętać w teorii kodowania i jej zastosowaniach.

Najlepsze wyjaśnienie tego podręcznika znajduje się w książce Richarda W. Hamminga „Teoria kodowania i informacji” (3.6 Geometric Approach, s. 44).

Krótki artykuł w Wikipedii daje krótkie podsumowanie tego samego, jeśli pamiętać, że objętość sześcianu jednostkowej n-wymiarowej jest zawsze 1 ^ n.

Mam nadzieję, że to pomoże.

Alex Fedotov
źródło