Jakiej odległości użyć? np. manhattan, euklidesowy, Bray-Curtis itp

11

Nie jestem ekologiem społeczności, ale obecnie pracuję nad danymi dotyczącymi ekologii społeczności.

To, czego nie mogłem zrozumieć, oprócz matematyki tych odległości, to kryteria dla każdej odległości do wykorzystania i w jakich sytuacjach można ją zastosować. Na przykład, czego używać z danymi zliczania? Jak przekonwertować kąt nachylenia między dwiema lokalizacjami na odległość? A może temperatura lub opady deszczu w dwóch lokalizacjach? Jakie są założenia dla każdej odległości i kiedy ma to sens?

użytkownik36491
źródło
Niezawodny sposób na zrozumienie wskaźników odległości, ich założeń, znaczenia i zastosowania to medytacja nad ich formułami. Wiesz, anatomia porównawcza pozwoliła przewidzieć, jak różne zwierzęta żyją i zachowują się. Przeczytaj także książki / artykuły na temat wskaźników odległości.
ttnphns,
2
Uwaga pedantyczna: Bray – Curtis to nie dystans, ale odmienność.
Franck Dernoncourt,

Odpowiedzi:

13

Niestety w większości sytuacji nie ma jednoznacznej odpowiedzi na twoje pytanie. Oznacza to, że dla każdej aplikacji z pewnością istnieje wiele wskaźników odległości, które dadzą podobne i dokładne odpowiedzi. Biorąc pod uwagę, że aktywnie wykorzystywane są dziesiątki, a prawdopodobnie setki, prawidłowych mierników odległości, pojęcie, że można znaleźć „właściwą” odległość, nie jest produktywnym sposobem myślenia o problemie wyboru odpowiedniej miary odległości.

Zamiast tego skupiłbym się na tym, aby nie wybrać niewłaściwej odległości. Czy chcesz, aby Twoja odległość odzwierciedlała „bezwzględną wielkość” (na przykład jesteś zainteresowany wykorzystaniem odległości do identyfikacji zapasów o podobnych wartościach średnich), czy też odzwierciedleniem ogólnego kształtu reakcji (np. Ceny akcji, które zmieniają się podobnie w czasie, ale mogą mieć zupełnie inne surowe wartości)? Pierwszy scenariusz wskazywałby odległości takie jak Manhattan i Euklides, a drugi wskazywałby na przykład odległość korelacji.

Jeśli znasz strukturę kowariancji swoich danych, odległość Mahalanobisa jest prawdopodobnie bardziej odpowiednia. W przypadku danych czysto kategorycznych istnieje wiele proponowanych odległości, na przykład pasująca odległość. Dla mieszanej jakościowej i ciągłej odległość Gowera jest popularna (choć moim zdaniem nieco teoretycznie niezadowalająca).

Wreszcie, moim zdaniem, Twoja analiza zostanie wzmocniona, jeśli wykażesz, że twoje wyniki i wnioski są solidne w wyborze metryki odległości (oczywiście w ramach podzbioru odpowiednich odległości). Jeśli twoja analiza zmieni się drastycznie z subtelnymi zmianami zastosowanej metryki odległości, należy podjąć dalsze badania w celu zidentyfikowania przyczyny niespójności.

ahfoss
źródło
1
Co masz na myśli correlation distance? 1- r ?
ttnphns,
1
@ttnphns tak, jest najczęściej. Warto zauważyć, że dla danej metryki podobieństwa istnieją co najmniej trzy formuły konwersji na odmienność: (1) metoda Bhattacharyi , (2) Metoda Kołmogorowa i (3) metoda Matusity . Jest to kolejny obszar, w którym w nie sądzę wybór zwykle liczy się dużo, a jeśli tak, byłbym zaniepokojony solidności moich wynikach. ρ [ - 1 ,1rc o s - 1 ( ρ )ρ[1,1]cos1(ρ)1ρ practice22ρpractice
ahfoss
Cytat za mój ostatni komentarz: Krzanowski (1983). Biometrika, 70 (1), 235--243. Patrz strona 236.
ahfoss,
1
Ok dzięki. Proszę również sprawdzić tę odpowiedź . Wynika to z faktu, że r jest dokładnie związany z odległością euklidesową uzyskaną na znormalizowanych danych (porównywane profile), co reflect overall shape of the responsetwoimi słowami.
ttnphns
1
Dobry post Te dwa wskaźniki są rzeczywiście powiązane, jak zauważyłeś. Aby kontekstualizować swoje punkty do bieżącej dyskusji, kluczową różnicą jest to, że w euklidesowych zmiennych odległości nie są (zwykle) wyśrodkowane, ale wzór korelacji wyśrodkowuje zmienne i skaluje według ich odchylenia standardowego. Zatem korelacja jest niezmienna dla transformacji liniowych, podczas gdy odległość euklidesowa niekoniecznie.
ahfoss,
6

Wybór odpowiedniej odległości nie jest podstawowym zadaniem. Gdy chcemy przeprowadzić analizę skupień na zbiorze danych, różne wyniki mogą pojawić się przy różnych odległościach, więc bardzo ważne jest, aby uważać, w jakiej odległości wybrać, ponieważ możemy stworzyć fałszywie dobry artefakt, który dobrze uchwyci zmienność, ale w rzeczywistości bez sens w naszym problemie.

Euklidesowa odległość jest odpowiednia, gdy mam ciągłych zmiennych liczbowych i chcę, aby odzwierciedlić bezwzględne odległości. Odległość ta uwzględnia każdą zmienną i nie usuwa redundancji, więc gdybym miał trzy zmienne, które wyjaśniają to samo (są skorelowane), przypisałbym ten efekt trzem. Co więcej, odległość ta nie jest niezmienna w skali, więc ogólnie muszę skalować wcześniej, aby użyć odległości.
Przykładowa ekologia: Mamy różne obserwacje z wielu miejsc, z których eksperci pobrali próbki niektórych czynników mikrobiologicznych, fizycznych i chemicznych. Chcemy znaleźć wzorce w ekosystemach. Czynniki te mają wysoką korelację, ale wiemy, że każdy jest istotny, więc nie chcemy usuwać tych zwolnień. Używamy odległości euklidesowej ze skalowanymi danymi, aby uniknąć efektu jednostek.

Mahalanobisa odległość jest odpowiednia, gdy mam ciągłych zmiennych liczbowych i chcę, aby odzwierciedlić bezwzględne odległości, ale chcemy usunąć zwolnień. Jeśli powtórzymy zmienne, ich powtarzalny efekt zniknie.

Rodzina Hellinger , profil gatunku i odległość cięciwy są odpowiednie, gdy chcemy położyć nacisk na różnice między zmiennymi, gdy chcemy różnicować profile. Odległości te są wagami według całkowitych wielkości każdej obserwacji, w taki sposób, że odległości są małe, gdy zmienne po zmiennej osobniki są bardziej podobne, chociaż w absolutnych wielkościach były bardzo różne. Uważaj! Odległości te bardzo dobrze odzwierciedlają różnicę między profilami, ale straciły efekt wielkości. Mogą być bardzo przydatne, gdy mamy różne rozmiary próbek.
Przykładowa ekologia: Chcemy badać faunę wielu ziem i mamy matrycę danych spisu ślimaka (miejsca pobierania próbek w rzędach i nazwy gatunków w kolumnach). Matryca charakteryzuje się wieloma zerami i różnymi wielkościami, ponieważ niektóre miejscowości mają niektóre gatunki, a inne inne. Przydałby się dystans Hellingera.

Bray-Curtis jest dość podobny, ale jest bardziej odpowiedni, gdy chcemy zróżnicować profile, a także wziąć pod uwagę względne wielkości.

Gonzalo Espinosa Duelo
źródło
Dziękujemy za zróżnicowanie przypadków użycia i przykładów. Okazało się to bardzo pomocne w zastosowaniu do modelu klasyfikacji lotniczej.
S3DEV