Co to jest odległość Mahalanobisa i jak jest używana w rozpoznawaniu wzorów?

11

Czy ktoś może mi wyjaśnić pojęcie odległości Mahalanobisa? Na przykład, jaka jest odległość Mahalanobisa między dwoma punktami xiy, a zwłaszcza, jak jest interpretowana dla rozpoznawania wzorów?

ayariga
źródło
3
Co teraz rozumiesz? Próbowałeś Wikipedii?
gung - Przywróć Monikę
2
Bardzo ściśle związane: stats.stackexchange.com/questions/62092/... .
whuber
Możesz użyć tego linku. dobrze to opisuje people.revoledu.com/kardi/tutorial/Similarity/…
Zohreh

Odpowiedzi:

13

Odległość Mahalanobisa zapewnia sposób zmierzenia, jak podobny jest pewien zestaw warunków do znanego zestawu warunków. Uwzględnia kowariancję między zmiennymi.

Oblicza się go jako: gdzie:

D2=(xm)TC1(xm)
D2=Mahalanobis distancex=Vector of datam=Vector of mean values of independent variablesC1=Inverse Covariance matrix of independent variablesT=Indicates vector should be transposed

Ta strona zawiera szczegółowe wyjaśnienie (wraz z przykładami z analizy krajobrazu).

nadya
źródło
1
dzięki, źródło dało mi dobre wytłumaczenie na początek
ayariga,
5

Odległość Mahalanobisa służy do znajdowania wartości odstających w zbiorze danych. Nie wiem, w jakiej dziedzinie się znajdujesz, ale w psychologii służy ona do identyfikowania przypadków, które nie „pasują” do tego, czego się oczekuje, biorąc pod uwagę normy dla zestawu danych. Na przykład, jeśli twoja próbka składa się z osób z niskim poziomem depresji i masz jedną lub dwie osoby z bardzo wysokim poziomem depresji, wówczas miałyby one odległości Mahalanobisa większe niż oczekiwana wartość krytyczna. Prawdopodobnie zechcesz usunąć te przypadki, jeśli są one bardzo ekstremalne ORAZ jeśli uważasz, że nie pasują one do Twojego zestawu danych. (Na podstawie podanego przykładu próbka składa się z osób z niskim poziomem depresji, dlatego te jedna lub dwie osoby z wysokim poziomem depresji nie pasują do reszty). Identyfikacja wartości odstających jest bardzo ważna, ponieważ wiele analiz statystycznych opiera się na „założeniu normalności”, tj. Oczekuje się, że dane są normalnie rozłożone. Wartości odstające mogą również przyczyniać się do wypaczania danych, dlatego też należy je usunąć. (Chyba że przekształcisz całą zmienną, a to nie poprawi pochylenia). Wiele programów statystycznych, takich jak SPSS, pozwala obliczyć odległości M i prawdopodobieństwo związane z każdym wynikiem w celu zidentyfikowania wartości odstających. Mogę dostarczyć instrukcje SPSS, ale nie wiem, czy używasz SPSS. (Chyba że przekształcisz całą zmienną, a to nie poprawi pochylenia). Wiele programów statystycznych, takich jak SPSS, pozwala obliczyć odległości M i prawdopodobieństwo związane z każdym wynikiem w celu zidentyfikowania wartości odstających. Mogę dostarczyć instrukcje SPSS, ale nie wiem, czy używasz SPSS. (Chyba że przekształcisz całą zmienną, a to nie poprawi pochylenia). Wiele programów statystycznych, takich jak SPSS, pozwala obliczyć odległości M i prawdopodobieństwo związane z każdym wynikiem w celu zidentyfikowania wartości odstających. Mogę dostarczyć instrukcje SPSS, ale nie wiem, czy używasz SPSS.

Madeline
źródło