lub

14

Czy ktoś używa metryk L1 lub L.5 do grupowania, a nie L2 ?
Aggarwal i wsp., O zaskakującym zachowaniu wskaźników odległości w przestrzeni wielowymiarowej powiedział (w 2001)

jest konsekwentnie bardziej preferowany niż metryczny euklidesowy wskaźnik odległości L 2 dla aplikacji eksploracji danych o dużych wymiarachL1L2

i twierdził, że lub L .1 mogą być jeszcze lepsze.L.5L.1

Powody stosowania lub L .5 mogą być teoretyczne lub eksperymentalne, np. Wrażliwość na wartości odstające / dokumenty Kabána lub programy uruchamiane na danych rzeczywistych lub syntetycznych (proszę odtwarzać). Przykład lub zdjęcie pomogłoby intuicji mojego laika.L1L.5

To pytanie jest kontynuacją odpowiedzi Boba Durranta na „ Kiedy-najbliższy sąsiad-znaczący-dziś” . Jak mówi, wybór będzie zależał zarówno od danych, jak i od aplikacji; mimo to przydatne byłyby raporty z prawdziwych doświadczeń.p


Dodano uwagi we wtorek 7 czerwca:

Natknąłem się na „Analizę danych statystycznych w oparciu o normę L1 i powiązane metody”, Dodge red., 2002, 454p, isbn 3764369205 - dziesiątki artykułów konferencyjnych.

Czy ktoś może analizować koncentrację odległości pod kątem cech wykładniczych? Jednym z powodów wykładniczych jest to, że ; innym (nie ekspertem) jest to, że jest to rozkład maks. entropii 0; po trzecie, niektóre rzeczywiste zestawy danych, w szczególności SIFT, wyglądają w przybliżeniu wykładniczo.|expexp|exp

denis
źródło
Należy wspomnieć, że Aggarwal i in. w tym konkretnym artykule, gdzie szuka zachowania się norm w problemów, takich jak klastry najbliższego sąsiada i indeksowania. Lp
deps_stats
prawdopodobnie oznaczało metryki dla sekwencji zamiast L p do funkcji? Moim zdaniem, jeśli istnieje jakieś kryterium optymalizacji, problem można rozwiązać, optymalizując go. Praktyczne zasady będą zazwyczaj związane z dokładnym rozwiązaniem takiego problemu. W każdym razie spróbuj pomyśleć o preferowanych właściwościach znanego rozwiązania. Po przeczytaniu artykułów prawdopodobnie mógłbym powiedzieć coś więcej na ten temat. lpLp
Dmitrij Celov,
@deps_stats, tak, dzięki; zmienił tytuł i pierwszą linię. @Dmitrij, 1) tak, mała-l jest ściśle mówiąc poprawna, ale duża-L jest powszechna i zrozumiała. 2) tak, można znaleźć optymalne p dla danego problemu, ale jaki jest twój pierwszy wybór i dlaczego?
denis

Odpowiedzi:

6

Kluczem tutaj jest zrozumienie „przekleństwa wymiarowości”, do którego odwołuje się artykuł. Z wikipedii: gdy liczba wymiarów jest bardzo duża,

prawie cała przestrzeń wielowymiarowa znajduje się „daleko od centrum” lub, innymi słowy, można powiedzieć, że przestrzeń wielowymiarowa składa się prawie całkowicie z „rogów” hipersześcianu, prawie nie ma "środkowy"

W rezultacie zaczyna się zastanawiać, które punkty są bliskie, a które inne, ponieważ wszystkie są mniej więcej tak samo od siebie oddalone. To jest problem w pierwszym dokumencie, z którym się łączysz.

Problem z wysokim p polega na tym, że podkreśla on większe wartości - pięć do kwadratu i cztery do kwadratu to dziewięć jednostek od siebie, ale jeden do kwadratu i dwa do kwadratu to tylko trzy jednostki. Tak więc większe wymiary (rzeczy w rogach) dominują nad wszystkim i tracisz kontrast. Takiej inflacji dużych odległości jest to, czego chcesz uniknąć. W przypadku ułamka p nacisk kładziony jest na różnice w mniejszych wymiarach - wymiarach, które faktycznie mają wartości pośrednie - co daje większy kontrast.

David J. Harris
źródło
(+1) Więc @David, ogólnie, czy istnieje kryterium opisujące jakość kontrastu?
Dmitrij Celov
Wygląda na to, że pierwszy połączony papier sugeruje maksymalną odległość minus minimalną odległość. Mogą być jednak lepsze sposoby.
David J. Harris
dobra jasna intuicja, +1 (chociaż nie jest jasne, gdzie są narożniki w rozkładach odległości). Czy używałeś lub L .5 na prawdziwych danych? L1L.5
denis
1
@Denis Thanks! Myślę, że bit narożny ma największy sens, jeśli dane są ograniczone wewnętrznie lub wszystkie wymiary. W każdym razie obawiam się, że nie mam wystarczającego doświadczenia w tworzeniu klastrów, aby mieć dobre wyczucia dotyczące różnych wskaźników. Irytujące jest to, że najlepszym podejściem może być wypróbowanie kilku i zobaczenie, co się stanie
David J. Harris,
1

Jest papier wykorzystujący pomiar Lp zp między 1 a 5, który możesz rzucić okiem:

Amorim, RC i Mirkin, B., Minkowski Metric, Ważenie cech i anomalna inicjalizacja skupień w grupowaniu K-średnich, Rozpoznawanie wzorców, obj. 45 (3), s. 1061–1075, 2012

Pobierz, https://www.researchgate.net/publication/232282003_Author 's_personal_copy_Minkowski_metric_feature_weighting_and_anomalous_cluster_initializing_in_K-Means_ clustering / file / d912f508115a040b45.pdf

Homer Simpson
źródło
0

Rnu2uu2

Ashok
źródło
L2L1L.5