Próbuję poszukać dobrego argumentu na temat tego, dlaczego warto wykorzystać odległość Manhattanu nad odległością euklidesową w uczeniu maszynowym.
Najbliższa mi jak dotąd dobra argumentacja dotyczy wykładu MIT .
W 36:15 na slajdach można zobaczyć następujące oświadczenie:
„Zazwyczaj stosuj dane euklidesowe; Manhattan może być odpowiedni, jeśli różne wymiary nie są porównywalne ”.
Krótko po tym, jak profesor powiedział, że ponieważ liczba odnóży gada waha się od 0 do 4 (podczas gdy inne funkcje są binarne, różnią się od 0 do 1), funkcja „liczba odnóży” będzie miała znacznie wyższą wartość waga, jeśli zastosowano odległość euklidesową. Rzeczywiście, to prawda. Ale ten problem również miałby miejsce przy użyciu odległości na Manhattanie (tylko że problem zostałby nieco złagodzony, ponieważ nie wyrównujemy różnicy, jak to robimy na odległości euklidesowej).
Lepszym sposobem rozwiązania powyższego problemu byłaby normalizacja funkcji „liczba odnóży”, więc jej wartość zawsze będzie wynosić od 0 do 1.
Dlatego, ponieważ istnieje lepszy sposób na rozwiązanie tego problemu, wydawało się, że argument dotyczący użycia odległości Manhattanu w tym przypadku nie był mocniejszy, przynajmniej moim zdaniem.
Czy ktoś faktycznie wie, dlaczego i kiedy ktoś wykorzystałby odległość Manhattanu nad Euclideanem? Czy ktoś może mi podać przykład, w którym użycie odległości na Manhattanie dałoby lepsze wyniki?
Mogę zasugerować kilka pomysłów z wikipedii .
źródło
Znalazłem coś, co może być intuicją na temat tego problemu w praktycznym uczeniu maszynowym za pomocą Scikit-Learn i TensorFlow
źródło
Korzystanie z odległości na Manhattanie zależy w dużej mierze od rodzaju układu współrzędnych, z którego korzysta Twój zestaw danych. Podczas gdy odległość euklidesowa zapewnia najkrótszą lub minimalną odległość między dwoma punktami, Manhattan ma konkretne implementacje.
Na przykład, jeśli użyjemy zestawu danych szachowych, użycie odległości na Manhattanie jest bardziej odpowiednie niż odległość euklidesowa. Innym zastosowaniem byłoby, gdyby byli zainteresowani znajomością odległości między domami, które są kilka przecznic od siebie.
Warto również rozważyć odległość na Manhattanie, jeśli zmienne wejściowe nie są podobne pod względem typu (np. Wiek, płeć, wzrost itp.). Z powodu klątwy wymiarowej wiemy, że odległość euklidesowa staje się złym wyborem, gdy liczba wymiarów rośnie.
W skrócie: odległość na Manhattanie działa na ogół tylko wtedy, gdy punkty są ułożone w postaci siatki, a problem, nad którym pracujemy, daje większy priorytet odległości między punktami tylko wraz z siatkami, ale nie odległości geometrycznej.
źródło