Jeśli mam 50-wymiarowy hipersześcian. I definiuję jego granicę przez lub gdzie jest wymiarem hipersześcianu. Następnie obliczenie proporcji punktów na granicy hipersześcianu wyniesie . Co to znaczy? Czy to oznacza, że reszta przestrzeni jest pusta? Jeśli punktów znajduje się na granicy, to punkty wewnątrz sześcianu nie mogą być równomiernie rozmieszczone?
machine-learning
math
Rohit Kumar Singh
źródło
źródło
Odpowiedzi:
Mówienie o „99% punktów w hipersześcianie ” jest nieco mylące, ponieważ hipersześcian zawiera nieskończenie wiele punktów. Zamiast tego porozmawiajmy o głośności.
Objętość hipersześcianu jest iloczynem jego długości boków. Dla hipersześcianu z jednostką 50-wymiarową otrzymujemyTotal volume=1×1×⋯×150 times=150=1.
Teraz wykluczmy granice hipersześcianu i spójrzmy na „ wnętrze ” (umieszczam to w cudzysłowie, ponieważ matematyczne określenie wnętrze ma zupełnie inne znaczenie). Zachowujemy tylko punktyx=(x1,x2,…,x50) które spełniają
0.05<x1<0.95 and 0.05<x2<0.95 and … and 0.05<x50<0.95.
Jaka jest objętość tego „wnętrza”? Cóż, „wnętrze” jest znowu hipersześcianem, a długość każdej strony wynosi0.9 (=0.95−0.05 ... pomaga to sobie wyobrazić w dwóch i trzech wymiarach). Więc objętość to ObjętośćInterior volume=0.9×0.9×⋯×0.950 times=0.950≈0.005.
Wniosek, że objętość „granicy” (zdefiniowana jako jednostka hipersześcianu bez „wnętrze ”) wynosi 1−0.950≈0.995.
To pokazuje, że99.5% objętości 50-wymiarowego hipersześcianu jest skoncentrowane na jego „ granicy ”.
Dalsze działania: Ignatius podniósł interesujące pytanie, w jaki sposób wiąże się to z prawdopodobieństwem. Oto przykład.
Powiedzmy, że wymyśliłeś model (uczenie maszynowe), który przewiduje ceny mieszkań na podstawie 50 parametrów wejściowych. Wszystkie 50 parametrów wejściowych jest niezależnych i równomiernie rozmieszczonych między0 a 1 .
Powiedzmy, że Twój model działa bardzo dobrze, jeśli żaden z parametrów wejściowych nie jest ekstremalny: tak długo, jak długo każdy parametr wejściowy pozostaje w przedziale od0.05 do 0.95 , Twój model prawie idealnie przewiduje cenę mieszkania. Ale jeśli co najmniej jeden parametr wejściowy jest ekstremalny (mniejszy niż 0.05 lub większy niż0.95 ), prognozy twojego modelu są absolutnie okropne.
Każdy podany parametr wejściowy jest ekstremalny z prawdopodobieństwem tylko10% . Czyli to dobry model, prawda? Nie! Prawdopodobieństwo, że przynajmniej jeden z 50 parametrów jest ekstremalny, wynosi 1−0.950≈0.995.
Tak więc w 99.5% przypadków prognoza twojego modelu jest okropna.
Ogólna zasada: w wysokich wymiarach ekstremalne obserwacje są regułą, a nie wyjątkiem.
źródło
Możesz wyraźnie zobaczyć wzór nawet w mniejszych wymiarach.
1. wymiar Weź linię o długości 10 i granicy 1. Długość granicy wynosi 2, a wewnętrzny stosunek 8: 1: 4.
2. wymiar. Weź kwadrat o boku 10 i ponownie granicę 1. Obszar granicy wynosi 36, wnętrze 64, proporcja 9:16.
3. wymiar. Ta sama długość i granica. Objętość granicy wynosi 488, wnętrze 512, 61:64 - już granica zajmuje prawie tyle samo miejsca co wnętrze.
Czwarty wymiar, teraz granica wynosi 5904, a wnętrze 4096 - granica jest teraz większa.
Nawet w przypadku coraz mniejszych długości granic, wraz ze wzrostem wymiaru, objętość granicy zawsze będzie wyprzedzać wnętrze.
źródło
Najlepszym sposobem na „zrozumienie” tego (choć dla człowieka nie jest to IMHO), jest porównanie objętości kuli n-wymiarowej i kostki n-wymiarowej. Wraz ze wzrostem n (wymiarowości) cała objętość kulki „przecieka” i koncentruje się w rogach sześcianu. Jest to użyteczna ogólna zasada, o której należy pamiętać w teorii kodowania i jej zastosowaniach.
Najlepsze wyjaśnienie tego podręcznika znajduje się w książce Richarda W. Hamminga „Teoria kodowania i informacji” (3.6 Geometric Approach, s. 44).
Krótki artykuł w Wikipedii daje krótkie podsumowanie tego samego, jeśli pamiętać, że objętość sześcianu jednostkowej n-wymiarowej jest zawsze 1 ^ n.
Mam nadzieję, że to pomoże.
źródło