Czy ktoś używa metryk lub do grupowania, a nie ?
Aggarwal i wsp.,
O zaskakującym zachowaniu wskaźników odległości w przestrzeni wielowymiarowej
powiedział (w 2001)
jest konsekwentnie bardziej preferowany niż metryczny euklidesowy wskaźnik odległości L 2 dla aplikacji eksploracji danych o dużych wymiarach
i twierdził, że lub L .1 mogą być jeszcze lepsze.
Powody stosowania lub L .5 mogą być teoretyczne lub eksperymentalne, np. Wrażliwość na wartości odstające / dokumenty Kabána lub programy uruchamiane na danych rzeczywistych lub syntetycznych (proszę odtwarzać). Przykład lub zdjęcie pomogłoby intuicji mojego laika.
To pytanie jest kontynuacją odpowiedzi Boba Durranta na „ Kiedy-najbliższy sąsiad-znaczący-dziś” . Jak mówi, wybór będzie zależał zarówno od danych, jak i od aplikacji; mimo to przydatne byłyby raporty z prawdziwych doświadczeń.
Dodano uwagi we wtorek 7 czerwca:
Natknąłem się na „Analizę danych statystycznych w oparciu o normę L1 i powiązane metody”, Dodge red., 2002, 454p, isbn 3764369205 - dziesiątki artykułów konferencyjnych.
Czy ktoś może analizować koncentrację odległości pod kątem cech wykładniczych? Jednym z powodów wykładniczych jest to, że ; innym (nie ekspertem) jest to, że jest to rozkład maks. entropii ≥ 0; po trzecie, niektóre rzeczywiste zestawy danych, w szczególności SIFT, wyglądają w przybliżeniu wykładniczo.
Odpowiedzi:
Kluczem tutaj jest zrozumienie „przekleństwa wymiarowości”, do którego odwołuje się artykuł. Z wikipedii: gdy liczba wymiarów jest bardzo duża,
W rezultacie zaczyna się zastanawiać, które punkty są bliskie, a które inne, ponieważ wszystkie są mniej więcej tak samo od siebie oddalone. To jest problem w pierwszym dokumencie, z którym się łączysz.
Problem z wysokim p polega na tym, że podkreśla on większe wartości - pięć do kwadratu i cztery do kwadratu to dziewięć jednostek od siebie, ale jeden do kwadratu i dwa do kwadratu to tylko trzy jednostki. Tak więc większe wymiary (rzeczy w rogach) dominują nad wszystkim i tracisz kontrast. Takiej inflacji dużych odległości jest to, czego chcesz uniknąć. W przypadku ułamka p nacisk kładziony jest na różnice w mniejszych wymiarach - wymiarach, które faktycznie mają wartości pośrednie - co daje większy kontrast.
źródło
Jest papier wykorzystujący pomiar Lp zp między 1 a 5, który możesz rzucić okiem:
Amorim, RC i Mirkin, B., Minkowski Metric, Ważenie cech i anomalna inicjalizacja skupień w grupowaniu K-średnich, Rozpoznawanie wzorców, obj. 45 (3), s. 1061–1075, 2012
Pobierz, https://www.researchgate.net/publication/232282003_Author 's_personal_copy_Minkowski_metric_feature_weighting_and_anomalous_cluster_initializing_in_K-Means_ clustering / file / d912f508115a040b45.pdf
źródło
źródło