Co to znaczy, gdy mówimy, że większość punktów w hipersześcianie znajduje się na granicy?

13

Jeśli mam 50-wymiarowy hipersześcian. I definiuję jego granicę przez 0<xj<0.05 lub 0.95<xj<1 gdzie jest wymiarem hipersześcianu. Następnie obliczenie proporcji punktów na granicy hipersześcianu wyniesie . Co to znaczy? Czy to oznacza, że ​​reszta przestrzeni jest pusta? Jeśli punktów znajduje się na granicy, to punkty wewnątrz sześcianu nie mogą być równomiernie rozmieszczone?xj0.99599%

Rohit Kumar Singh
źródło
3
Nie, oznacza to, że peryferia są bardziej przestronne, a efekt jest proporcjonalny do wymiarów. Jest to nieco sprzeczne z intuicją. Zjawisko to ma wpływ na rozkład odległości między losowymi parami węzłów, które stają się istotne, gdy chcesz skupić lub obliczyć najbliższych sąsiadów w przestrzeniach wielowymiarowych.
Emre
Oblicz, jaka część punktów na odcinku linii znajduje się w pobliżu jego granicy. Następnie wskazuje kwadrat. Następnie wskazuje na sześcian. Co możesz o nich powiedzieć?
user253751

Odpowiedzi:

28

Mówienie o „ 99% punktów w hipersześcianie ” jest nieco mylące, ponieważ hipersześcian zawiera nieskończenie wiele punktów. Zamiast tego porozmawiajmy o głośności.

Objętość hipersześcianu jest iloczynem jego długości boków. Dla hipersześcianu z jednostką 50-wymiarową otrzymujemy

Total volume=1×1××150 times=150=1.

Teraz wykluczmy granice hipersześcianu i spójrzmy na „ wnętrze ” (umieszczam to w cudzysłowie, ponieważ matematyczne określenie wnętrze ma zupełnie inne znaczenie). Zachowujemy tylko punkty x=(x1,x2,,x50) które spełniają

0.05<x1<0.95 and 0.05<x2<0.95 and  and 0.05<x50<0.95.
Jaka jest objętość tego „wnętrza”? Cóż, „wnętrze” jest znowu hipersześcianem, a długość każdej strony wynosi0.9 (=0.950.05 ... pomaga to sobie wyobrazić w dwóch i trzech wymiarach). Więc objętość to Objętość
Interior volume=0.9×0.9××0.950 times=0.9500.005.
Wniosek, że objętość „granicy” (zdefiniowana jako jednostka hipersześcianu bez „wnętrze ”) wynosi 10.9500.995.

To pokazuje, że 99.5% objętości 50-wymiarowego hipersześcianu jest skoncentrowane na jego „ granicy ”.


Dalsze działania: Ignatius podniósł interesujące pytanie, w jaki sposób wiąże się to z prawdopodobieństwem. Oto przykład.

Powiedzmy, że wymyśliłeś model (uczenie maszynowe), który przewiduje ceny mieszkań na podstawie 50 parametrów wejściowych. Wszystkie 50 parametrów wejściowych jest niezależnych i równomiernie rozmieszczonych między 0 a 1 .

Powiedzmy, że Twój model działa bardzo dobrze, jeśli żaden z parametrów wejściowych nie jest ekstremalny: tak długo, jak długo każdy parametr wejściowy pozostaje w przedziale od 0.05 do 0.95 , Twój model prawie idealnie przewiduje cenę mieszkania. Ale jeśli co najmniej jeden parametr wejściowy jest ekstremalny (mniejszy niż 0.05 lub większy niż0.95 ), prognozy twojego modelu są absolutnie okropne.

Każdy podany parametr wejściowy jest ekstremalny z prawdopodobieństwem tylko 10% . Czyli to dobry model, prawda? Nie! Prawdopodobieństwo, że przynajmniej jeden z 50 parametrów jest ekstremalny, wynosi 10.9500.995. Tak więc w 99.5% przypadków prognoza twojego modelu jest okropna.

Ogólna zasada: w wysokich wymiarach ekstremalne obserwacje są regułą, a nie wyjątkiem.

Elias Strehle
źródło
7
Warto skorzystać z cytatu PO: „Czy to znaczy, że reszta miejsca jest pusta?” i odpowiadanie: Nie, oznacza to, że reszta przestrzeni jest stosunkowo mała . . . Lub podobnie własnymi słowami. . .
Neil Slater
2
Naprawdę fajne wyjaśnienie terminu „klątwa wymiarowości”
ignacja
Zastanawiasz się, czy następujące są poprawne: biorąc ten przykład, jeśli zestaw funkcji jest równomiernie rozmieszczony wzdłuż [0,1] w każdym z 50 wymiarów, (99,5% -0,5%) = 99% objętości (funkcja hipersześcianu spacja) przechwytuje tylko 10% wartości każdej cechy
ignatius
„Dany parametr wejściowy jest ekstremalny z prawdopodobieństwem jedynie 5%.” Myślę, że prawdopodobieństwo to wynosi 10%.
Rodvi
@Rodvi: Oczywiście masz rację, dzięki! Naprawione.
Elias Strehle
9

Możesz wyraźnie zobaczyć wzór nawet w mniejszych wymiarach.

1. wymiar Weź linię o długości 10 i granicy 1. Długość granicy wynosi 2, a wewnętrzny stosunek 8: 1: 4.

2. wymiar. Weź kwadrat o boku 10 i ponownie granicę 1. Obszar granicy wynosi 36, wnętrze 64, proporcja 9:16.

3. wymiar. Ta sama długość i granica. Objętość granicy wynosi 488, wnętrze 512, 61:64 - już granica zajmuje prawie tyle samo miejsca co wnętrze.

Czwarty wymiar, teraz granica wynosi 5904, a wnętrze 4096 - granica jest teraz większa.

Nawet w przypadku coraz mniejszych długości granic, wraz ze wzrostem wymiaru, objętość granicy zawsze będzie wyprzedzać wnętrze.

HP Williams
źródło
0

Najlepszym sposobem na „zrozumienie” tego (choć dla człowieka nie jest to IMHO), jest porównanie objętości kuli n-wymiarowej i kostki n-wymiarowej. Wraz ze wzrostem n (wymiarowości) cała objętość kulki „przecieka” i koncentruje się w rogach sześcianu. Jest to użyteczna ogólna zasada, o której należy pamiętać w teorii kodowania i jej zastosowaniach.

Najlepsze wyjaśnienie tego podręcznika znajduje się w książce Richarda W. Hamminga „Teoria kodowania i informacji” (3.6 Geometric Approach, s. 44).

Krótki artykuł w Wikipedii daje krótkie podsumowanie tego samego, jeśli pamiętać, że objętość sześcianu jednostkowej n-wymiarowej jest zawsze 1 ^ n.

Mam nadzieję, że to pomoże.

Alex Fedotov
źródło