Jest to często cytowane, gdy wspomina się o przekleństwie wymiarowości i odchodzi
(formuła z prawej strony zwana kontrastem względnym)
Wynik twierdzenia pokazuje, że różnica między maksymalnymi i minimalnymi odległościami do danego punktu zapytania nie rośnie tak szybko, jak najbliższa odległość do dowolnego punktu w przestrzeni o dużych wymiarach. To sprawia, że zapytanie zbliżeniowe nie ma znaczenia i jest niestabilne, ponieważ istnieje słaba dyskryminacja między najbliższym a najdalszym sąsiadem.
Jednak jeśli ktoś faktycznie próbuje obliczyć względny kontrast dla wartości próbki, to znaczy bierze wektor zawierający bardzo małe wartości i oblicza odległość do wektora zerowego i robi to samo dla wektora zawierającego znacznie większe wartości, a następnie porównuje wartości dla wymiar 3 i wymiar razy większy, można zauważyć, że chociaż współczynnik maleje, zmiana jest tak znikomo mała, że nie ma znaczenia dla liczby wymiarów faktycznie stosowanych w praktyce (lub czy ktoś zna kogoś pracującego z danymi o wymiarach rozmiar liczby Grahama - który, jak sądzę, jest rozmiarem potrzebnym, aby efekt opisany w dokumencie był rzeczywiście istotny - nie sądzę).
Jak wspomniano wcześniej, to twierdzenie jest bardzo często cytowane w celu poparcia twierdzenia, że pomiar bliskości w oparciu o przestrzeń euklidesową jest złą strategią w przestrzeni wielowymiarowej, autorzy twierdzą, że tak, a mimo to proponowane zachowanie nie ma miejsca, co czyni mnie myślę, że to twierdzenie zostało zastosowane w sposób wprowadzający w błąd.
Przykład: z d
wymiarem
a=np.ones((d,)) / 1e5
b=np.ones((d,)) * 1e5
dmin,dmax=norm(a), norm(b)
(dmax-dmin)/dmin
dla d = 3
9999999999.0
dla d = 1e8
9999999998.9996738
I z 1e1 zamiast 1e5 (powiedzmy, że dane są znormalizowane)
dla d = 3
99.0
dla d = 1e8
98.999999999989527
Odpowiedzi:
Nie, twierdzenie to nie wprowadza w błąd. Z pewnością można go zastosować nieprawidłowo, ale dotyczy to każdego twierdzenia.
Oto prosty skrypt MATLAB, który pokazuje, jak to działa:
Wyjście:
W moim kodzie res1 i res2 to dwa wyrażenia w twoim równaniu z papieru: jedno dla wariancji, a drugie dla kontrastu.
Możesz zobaczyć, jak oba idą do zera, jak powinno, gdy wymiary zwiększają się od 1 do 10 000.
źródło
X
powstaje pytanie, dla jakich rozkładów, z których pochodzi wariancja, spada do zera?