Od dołu do góry wyjaśnienie odległości Mahalanobisa?

127

Studiuję rozpoznawanie wzorców i statystyki i prawie każdą książkę, którą otwieram na ten temat, wpadam na pojęcie odległości Mahalanobisa . Książki zawierają intuicyjne wyjaśnienia, ale wciąż nie są wystarczająco dobre, aby naprawdę zrozumieć, co się dzieje. Gdyby ktoś zapytał mnie: „Jaka jest odległość Mahalanobisa?” Mogłem tylko odpowiedzieć: „To miła rzecz, która mierzy jakiś dystans” :)

Definicje zwykle zawierają również wektory własne i wartości własne, które mam trochę problemów z połączeniem się z odległością Mahalanobisa. Rozumiem definicję wektorów własnych i wartości własnych, ale w jaki sposób są one powiązane z odległością Mahalanobisa? Czy ma to coś wspólnego ze zmianą podstawy w algebrze liniowej itp.?

Przeczytałem również te poprzednie pytania na ten temat:

Przeczytałem również to wyjaśnienie .

Odpowiedzi są dobre, a zdjęcia fajne, ale tak naprawdę nie rozumiem ... Mam pomysł, ale wciąż jest ciemno. Czy ktoś może udzielić wyjaśnienia „Jak wytłumaczyłbyś to swojej babci”, abym w końcu mógł to podsumować i nigdy więcej nie zastanawiać się, co do cholery jest odległością Mahalanobisa? :) Skąd pochodzi, co, dlaczego?

AKTUALIZACJA:

Oto coś, co pomaga zrozumieć formułę Mahalanobisa:

https://math.stackexchange.com/questions/428064/distance-of-a-test-point-from-the-center-of-an-ellipsoid

jjepsuomi
źródło

Odpowiedzi:

188

Oto wykres rozrzutu niektórych danych wielowymiarowych (w dwóch wymiarach):

wprowadź opis zdjęcia tutaj

Co możemy z tego zrobić, gdy osie zostaną pominięte?

wprowadź opis zdjęcia tutaj

Wprowadź współrzędne sugerowane przez same dane.

Pochodzenie będzie w środku ciężkości punktów (punkt ich średnie). Pierwszej osi współrzędnych (niebieski w następnym rysunku) będzie rozciągać się na „kręgosłup” punktów, który (z definicji) oznacza dowolny kierunek, w którym rozbieżność jest największy. Druga oś współrzędnych (czerwony na rysunku) będzie rozciągać się w kierunku prostopadłym do pierwszego. (W więcej niż dwóch wymiarach zostanie wybrany w tym prostopadłym kierunku, w którym wariancja jest tak duża, jak to możliwe, i tak dalej.)

wprowadź opis zdjęcia tutaj

Potrzebujemy skali . Odchylenie standardowe wzdłuż każdej osi dobrze się sprawdzi, aby ustalić jednostki wzdłuż osi. Pamiętaj o regule 68-95-99.7: około dwie trzecie (68%) punktów powinno znajdować się w obrębie jednej jednostki początkowej (wzdłuż osi); około 95% powinno mieścić się w dwóch jednostkach. Ułatwia to gałkę oczną odpowiednich jednostek. Dla porównania, rysunek ten zawiera okrąg jednostek w tych jednostkach:

wprowadź opis zdjęcia tutaj

To tak naprawdę nie wygląda jak koło, prawda? Jest tak, ponieważ ten obraz jest zniekształcony (o czym świadczą różne odstępy między liczbami na dwóch osiach). Przerysujmy go z osiami w ich prawidłowej orientacji - od lewej do prawej i od dołu do góry - oraz ze współczynnikiem proporcji jednostek, aby jedna jednostka w poziomie naprawdę była równa jednej jednostce w pionie:

wprowadź opis zdjęcia tutaj

Odległość Mahalanobisa jest mierzona na tym obrazie, a nie w oryginale.

Co tu się stało? Pozwalamy danym powiedzieć nam, jak zbudować układ współrzędnych do wykonywania pomiarów na wykresie rozrzutu. To wszystko. Chociaż po drodze mieliśmy do wyboru kilka opcji (zawsze mogliśmy odwrócić jedną lub obie osie; w rzadkich przypadkach kierunki wzdłuż „grzbietów” - główne kierunki - nie są unikalne), nie zmieniają odległości w końcowej fabule.


Komentarze techniczne

(Nie dla babci, która prawdopodobnie zaczęła tracić zainteresowanie, gdy tylko liczby pojawiły się na wykresach, ale aby odpowiedzieć na pozostałe postawione pytania.)

  • Wektory jednostkowe wzdłuż nowych osi są wektorami własnymi (macierzy kowariancji lub jej odwrotności).

  • Zauważyliśmy, że odkształcenie elipsy w celu utworzenia koła dzieli odległość wzdłuż każdego wektora własnego przez standardowe odchylenie: pierwiastek kwadratowy kowariancji. Jeśli oznacza funkcję kowariancji, nowa (Mahalanobis) odległość między dwoma punktami i jest odległością od do podzieloną przez pierwiastek kwadratowy z . Odpowiednie operacje algebraicznej na myśli się o jeśli chodzi o jej reprezentacji jako matrycy oraz i w odniesieniu do ich reprezentacji w wektorach są zapisywane . To działax y x y C ( x - y , x - y ) C x y CxyxyC(xy,xy)Cxy(xy)C1(xy)niezależnie od tego, jakiej podstawy używa się do reprezentowania wektorów i macierzy. W szczególności jest to poprawny wzór na odległość Mahalanobisa w pierwotnych współrzędnych.

  • Kwoty, o które osie są rozszerzane w ostatnim kroku, są (pierwiastki kwadratowe) wartości własnych odwrotnej macierzy kowariancji. Równolegle osie są skurczone przez (pierwiastki) wartości własne macierzy kowariancji. Zatem im bardziej rozproszenie, tym bardziej kurczenie się potrzebne do przekształcenia tej elipsy w koło.

  • Chociaż ta procedura zawsze działa z dowolnym zestawem danych, wygląda to ładnie (klasyczna chmura w kształcie piłki nożnej) dla danych, które są w przybliżeniu wielowymiarowe Normalne. W innych przypadkach punktem średnich może nie być dobra reprezentacja środka danych lub „kolce” (ogólne trendy w danych) nie zostaną dokładnie zidentyfikowane przy użyciu wariancji jako miary rozproszenia.

  • Przesunięcie początku współrzędnych, obrót i ekspansja osi wspólnie tworzą transformację afiniczną. Oprócz tego początkowego przesunięcia, jest to zmiana podstawy z pierwotnego (przy użyciu wektorów jednostkowych wskazujących w dodatnich kierunkach współrzędnych) na nowy (przy użyciu wyboru wektorów własnych).

  • Istnieje silny związek z analizą głównych składników (PCA) . Już samo to stanowi długą drogę do wyjaśnienia pytań „skąd pochodzi” i „dlaczego” - jeśli jeszcze nie przekonałeś się o elegancji i użyteczności pozwalania, aby dane określały współrzędne, których używasz do ich opisu i pomiaru ich różnice

  • W przypadku wielowymiarowych rozkładów normalnych (gdzie możemy wykonać tę samą konstrukcję przy użyciu właściwości gęstości prawdopodobieństwa zamiast analogicznych właściwości chmury punktów), odległość Mahalanobisa (do nowego początku) pojawia się zamiast „ ” w wyrażeniu który charakteryzuje gęstość prawdopodobieństwa standardowego rozkładu normalnego. Zatem w nowych współrzędnych wielowymiarowy rozkład normalny wygląda normalnie na normalnyexp ( - 1xexp(12x2)kiedy rzutowany na dowolną linię przez początek. W szczególności jest to standardowa Normalna w każdej z nowych współrzędnych. Z tego punktu widzenia jedynym istotnym sensem, w którym wielowymiarowe rozkłady normalne różnią się między sobą, jest to, ile wymiarów używają. (Należy pamiętać, że ta liczba wymiarów może być, a czasem jest mniejsza niż nominalna liczba wymiarów).

Whuber
źródło
3
Jeśli ktoś jest ciekawy, transformacja afiniczna to „transformacja, która zachowuje linie proste ... i stosunki odległości między punktami leżącymi na linii prostej”. (@ Whuber, nie wiem, czy możesz chcieć dodać coś takiego w wypunktowanym punkcie).
gung
@gung Po mojej wzmiance o przekształceniach afinicznych natychmiast następuje ich charakterystyka: tłumaczenie, po którym następuje zmiana podstawy. Wybrałem ten język, ponieważ jest on taki sam, jak w pytaniu. (Musimy nieco swobodnie przyjąć „zmianę podstawy”, aby objąć nieodwracalne transformacje liniowe: jest to kwestia ważna dla PCA, która skutecznie upuszcza niektóre elementy podstawowe.)
whuber
13
@ Whuber, twoje wyjaśnienie jest prawdopodobnie najlepszym, jakie kiedykolwiek widziałem. Zazwyczaj, gdy jest to wyjaśnione, jest bardzo abstrakcyjnie omówione, gdy wspomnieli o elipsoidach i sferach, i nie pokazują, co mają na myśli. Uznanie dla ciebie za zademonstrowanie, w jaki sposób transformacja osi przekształca rozkład danych w „kulę”, dzięki czemu odległość można „zobaczyć” jako wielokrotność sd danych ze średniej danych, jak to ma miejsce w przypadku jednowymiarowego dane. Ta wizualizacja jest moim zdaniem kluczowa i niestety jest pominięta w większości dyskusji na ten temat. Dobra robota --- twoje wyjaśnienia
Czy istnieje solidny PCA? Odmiana, która pozwala nam wyrzucić odstające punkty danych, patrząc na rozmiar macierzy kowariancji?
EngrStudent
@Engr Pewnie: każda solidna ocena macierzy kowariancji prowadziłaby do solidnej PCA. Istnieją inne metody bezpośrednie, na co wskazują odnośniki do nich w odpowiedziach na pytania dotyczące solidnego PCA .
whuber
37

Moja babcia gotuje. Twój też może. Gotowanie to pyszny sposób na naukę statystyki.

Ciasteczka dyniowe Habanero są niesamowite! Pomyśl o tym, jak cudowny może być cynamon i imbir w świątecznych smakołykach, a potem zdaj sobie sprawę, jak gorące są same.

Składniki są:

  • papryka habanero (10, z nasion i drobno mielona)
  • cukier (1,5 szklanki)
  • masło (1 szklanka)
  • ekstrakt waniliowy (1 łyżeczka)
  • jajka (2 średnie)
  • mąka (2,75 szklanki)
  • soda oczyszczona (1 łyżeczka)
  • sól (1 łyżeczka)

Wyobraź sobie, że osie współrzędnych dla domeny są objętościami składników. Cukier. Mąka. Sól. Proszek do pieczenia. Różnice w tych kierunkach, przy czym wszystkie pozostałe są równe, nie mają prawie wpływu na jakość smaku, ponieważ zmienność liczby papryki habanero. 10% zmiana mąki lub masła sprawi, że będzie mniej świetna, ale nie zabójcza. Dodanie tylko niewielkiej ilości habanero przewróci Cię przez klif smakowy - od uzależniającego deseru po konkurs bólu oparty na testosteronie.

Mahalanobis to nie tyle odległość w „objętości składników”, ile odległość od „najlepszego smaku”. Naprawdę „silnymi” składnikami, bardzo wrażliwymi na zmienność, są te, które musisz najstaranniej kontrolować.

Jeśli myślisz o rozkładzie Gaussa w porównaniu ze standardowym rozkładem normalnym , jaka jest różnica? Wyśrodkuj i skaluj w oparciu o tendencję centralną (średnia) i tendencję zmian (odchylenie standardowe). Jedna to transformata współrzędna drugiej. Mahalanobis jest tą transformacją. Pokazuje, jak wygląda świat, jeśli Twój rozkład zainteresowań zostałby ponownie ustawiony jako standardowa normalna zamiast Gaussa.

EngrStudent
źródło
4
Rozkłady gaussowskie rozkładami normalnymi, więc jakie rozróżnienie próbujesz wprowadzić w ostatnim akapicie?
whuber
1
@ Whuber - standard. Miałem na myśli standard. Myślałem, że to powiedziałem. Powinien sprawdzić historię edycji. Kolejne zdania powtórz główną myśl.
EngrStudent
2
Co więc masz na myśli przez „ z rozkładu Gaussa”?
whuber
1
Lepszy? Może to być rozkład Gaussa z dowolną średnią i wariancją - ale transformacja odwzorowuje na standardową normę, odejmując średnią i skalując według odchylenia standardowego.
EngrStudent
4
Tak, teraz jest wyraźniej. Zastanawiam się jednak, dlaczego używasz dwóch terminów (gaussowskiego i normalnego) w odniesieniu do tej samej rzeczy, ale teraz jest to w porządku, kiedy to wyjaśniłeś. Jestem również trochę zdezorientowany co do twojego ostatniego roszczenia, które wydaje się mówić, że każdy rozkład wielowymiarowy może zostać przekształcony w normalny Normalny (który zgodnie z definicją, do której linkujesz, jest jednoznaczny ): Myślę, że masz na myśli, że można sprawić, by wyglądał normalnie Normalny w każdym elemencie. Niezależnie od tego analogia, od której zaczynasz, jest przyjemna.
whuber
10

re(x,r)=x,rxrRnxrX

xr

xdo

Zbierając powyższe pomysły, dochodzimy całkiem naturalnie

re(x,r)=(x-r)do-1(x-r)

XjaX=(X1,,Xn)dojajot=δjajotXjaV.zar(Xja)=1re(x,r) xrdo(x,r)

Avitus
źródło
9

Rozważmy przypadek dwóch zmiennych. Widząc to zdjęcie z dwuwymiarową normalną (dzięki @whuber), nie możesz po prostu twierdzić, że AB jest większy niż AC. Istnieje dodatnia kowariancja; te dwie zmienne są ze sobą powiązane.

Możesz zastosować proste pomiary euklidesowe (linie proste, takie jak AB i AC) tylko wtedy, gdy zmienne są

  1. niezależny
  2. mieć wariancje równe 1.

Zasadniczo miara odległości Mahalanobisa wykonuje następujące czynności: przekształca zmienne w zmienne nieskorelowane o wariancjach równych 1, a następnie oblicza prostą odległość euklidesową.

den2042
źródło
1
sugerujesz, że za każdym razem, gdy widzę korelację na wykresie, jak pokazano w twojej odpowiedzi tutaj, powinienem myśleć o obliczeniu Mahalanobisa zamiast odległości euklidesowej? Co powiedziałoby mi, kiedy użyć którego?
sandyp
7

Postaram się wyjaśnić jak najprościej:

Odległość Mahalanobisa mierzy odległość punktu x od rozkładu danych. Rozkład danych charakteryzuje się średnią i macierzą kowariancji, w związku z czym hipotetycznie przyjmuje się, że gaussowski jest wielowymiarowy.

Jest on stosowany w rozpoznawaniu wzorców jako miara podobieństwa między wzorcem (rozkład danych dla przykładu szkoleniowego klasy) a przykładem testowym. Macierz kowariancji daje kształt dystrybucji danych w przestrzeni cech.

Liczba wskazuje trzy różne klasy, a czerwona linia wskazuje tę samą odległość Mahalanobisa dla każdej klasy.  Wszystkie punkty leżące na czerwonej linii mają taką samą odległość od średniej klasy, ponieważ jest ona używana w macierzy kowariancji.

Liczba wskazuje trzy różne klasy, a czerwona linia wskazuje tę samą odległość Mahalanobisa dla każdej klasy. Wszystkie punkty leżące na czerwonej linii mają taką samą odległość od średniej klasy, ponieważ jest ona używana w macierzy kowariancji.

Kluczową cechą jest zastosowanie kowariancji jako czynnika normalizacyjnego.

robbisg
źródło
6

Chciałbym dodać kilka informacji technicznych do doskonałej odpowiedzi Whubera. Ta informacja może nie zainteresować babci, ale być może jej wnuk uznałby ją za pomocną. Poniżej znajduje się wyjaśnienie odpowiedniej algebry liniowej od dołu do góry.

re(x,r)=(x-r)T.Σ-1(x-r)ΣΣΣΣ=QT.reQΣ-1=Qre-12)re-12)QT.re(x,r)=[(x-r)T.Q]re-12)re-12)[QT.(x-r)]=zT.zQ(x-r)re-12)re-12)re-1zT.z

Sycorax
źródło
5

Mogę się trochę spóźnić na odpowiedź na to pytanie. Ten artykuł tutaj jest dobrym początkiem do zrozumienia odległości Mahalanobis. Stanowią kompletny przykład z wartościami liczbowymi. Podoba mi się w tym geometryczne przedstawienie problemu.

CroCo
źródło
4

Aby dodać do doskonałych wyjaśnień powyżej, odległość Mahalanobisa powstaje naturalnie w regresji liniowej (wielowymiarowej). Jest to prosta konsekwencja niektórych związków między odległością Mahalanobisa a rozkładem Gaussa omówionych w innych odpowiedziach, ale myślę, że i tak warto to wyjaśnić.

(x1,r1),,(xN.,rN.)xjaRnrjaRmβ0Rmβ1Rm×nrja=β0+β1xja+ϵjaϵ1,,ϵN.m0doxjarjaxjaβ0+β1xjado

rjaxjaβ=(β0,β1)

-logp(rjaxja;β)=m2)log(2)πdetdo)+12)(rja-(β0+β1xja))do-1(rja-(β0+βxja)).
do
argminβ[-logp(rjaxja;β)]=argminβredo(β0+β1xja,rja),
redo(r^,r)=(r-r^)do-1(r-r^)
r^,rRm

logp(rx;β)r=(r1,,rN.)x=(x1,,xN.)

logp(rx;β)=ja=1N.logp(rjaxja;β)
argminβ[-logp(rx;β)]=argminβ1N.ja=1N.redo(β0+β1xja,rja),
1/N.

β0,β1

Ben CW
źródło
1
logdetdonxβxβ
(x,r)rϵlogdetdozarsolmjanβ[-logp(rx;β)]=zarsolmjanβ(r-βx)do-1(r-βx)
Ważne jest, aby wyjaśnić, do czego odnoszą się twoje symbole, zamiast wymagać od czytelników zgadywania. Być może twoje wyjaśnienie jest dobre, ale bez tego wyjaśnienia (które zacząłeś od tego ostatniego komentarza) podejrzewam, że większość czytelników będzie miała problem ze zrozumieniem twojego znaczenia.
whuber
2
Rozumiem co masz na myśli. Zredagowałem oryginalną odpowiedź, aby uwzględnić niektóre pomysły w tych komentarzach.
Ben CW
2

Odległość Mahalanobisa to odległość euklidesowa (odległość naturalna), która uwzględnia kowariancję danych. Daje większą wagę hałaśliwemu komponentowi, dlatego jest bardzo przydatny do sprawdzania podobieństwa między dwoma zestawami danych.

Jak widać tutaj na przykładzie korelacji zmiennych, rozkład jest przesunięty w jednym kierunku. Możesz chcieć usunąć te efekty. Jeśli weźmiesz pod uwagę korelację w swojej odległości, możesz usunąć efekt przesunięcia.

lcrmorin
źródło
2
Wierzę, że odległość Mahalanobisa skutecznie obniża kierunki o dużej kowariancji, zamiast dawać tam „większe” ciężary.
whuber