Najlepsza miara odległości do użycia

12

Kontekst

Mam dwa zestawy danych, które chcę porównać. Każdy element danych w obu zestawach to wektor zawierający 22 kąty (wszystkie między i ). Kąty odnoszą się do danej konfiguracji ułożenia człowieka, więc ułożenie jest określone przez 22 kąty stawów.πππ

Ostatecznie staram się ustalić „bliskość” dwóch zestawów danych. Tak więc dla każdej pozy (wektor 22D) w jednym zestawie chcę znaleźć najbliższego sąsiada w drugim zestawie i utworzyć wykres odległości dla każdej z najbliższych par.

pytania

  • Czy mogę po prostu użyć odległości euklidesowej?
    • Aby mieć sens, zakładam, że metrykę odległości należy zdefiniować jako: , gdziejest wartością bezwzględną, a mod jest modulo. Następnie, korzystając z powstałych 22 thetas, mogę wykonać standardowe obliczenie odległości euklidesowej, .| . . . | θ=|θ1θ2|modπ|...|t12+t22++t222
    • Czy to jest poprawne?
  • Czy bardziej użyteczna byłaby inna metryka odległości, taka jak chi-kwadrat, Bhattacharyya lub inna metryka? Jeśli tak, czy możesz podać wgląd w to, dlaczego.
Josh
źródło
3
Na marginesie: nie sądzę, że masz na myśli . Raczej coś w rodzaju . |θ1θ2|modπmin{|θ1θ2|,2π|θ1θ2|}
Erik P.
4
Zamiast pracować z kątami, sugeruję najpierw konwersję do współrzędnych (x, y) na okręgu jednostkowym. Następnie możesz obliczyć normalnie (odległości i tym podobne), a uśrednianie nie jest problemem jak w przypadku kątów.
caracal
2
@ Sugestia Josha Erika P. jest dobra. Alternatywnie, rozważ każdy kąt jako punkt na okręgu jednostkowym i oblicz odległości euklidesowe między nimi za pomocą zwykłej (pitagorejskiej) formuły. Różnica między tymi odległościami a odległościami kątowymi nie powinna mieć znaczenia. (Wierzę, że może to również sugerować Caracal.)θ(cos(θ),sin(θ))
whuber
2
@Josh Średnia np. i to . W wielu okolicznościach nie ma to sensu i zamiast tego powinno wynosić . W konkretnej sytuacji, to może nie być problemem, ponieważ może ludzkie stawy nie mają zakres ruchu przeszłości . Również w twoim przypadku może chcesz, aby wspomniana średnia była ponieważ ruch połączenia jest jednokierunkowy. @ sugestia Whubera jest dokładnie tym, o co mi chodziło. π/47π/4π0ππ
karakal
3
Twój problem prawdopodobnie stanie się o wiele łatwiejszy do rozwiązania, jeśli potrafisz określić konsekwencje „pomyłki”. Więc jeśli powiesz, że zestawy danych są takie same lub podobne, ale tak naprawdę nie są, co się z tobą stanie? Czy będzie to zależeć od tego, jak „błędna” była twoja decyzja? Co się stanie, jeśli zadeklarujesz dane / pozy różne, ale w rzeczywistości są one takie same lub podobne? Co jest stracone udzielenie odpowiedzi na te pytania pomoże ustalić, jakie znaczenie ma porównanie, które chcesz wykonać. To gwarantuje, że odpowiadasz na właściwe pytanie.
Prawdopodobieństwo

Odpowiedzi:

5

można obliczyć macierz kowariancji dla każdego zestawu, a następnie obliczyć odległość Hausdorffa między dwoma zestawami, używając odległości Mahalanobisa.

Odległość Mahalanobisa jest użytecznym sposobem określenia podobieństwa nieznanego zestawu próbek do znanego. Różni się od odległości euklidesowej tym, że bierze pod uwagę korelacje zbioru danych i jest niezmienny w skali.

skyde
źródło
3

Co próbujesz zrobić z informacjami o najbliższym sąsiedztwie?

Chciałbym odpowiedzieć na to pytanie, a następnie porównać różne miary odległości w świetle tego.

Załóżmy na przykład, że próbujesz klasyfikować pozy na podstawie konfiguracji połączeń i chciałbyś, aby wektory połączeń z tej samej pozycji były blisko siebie. Prostym sposobem oceny przydatności różnych wskaźników odległości jest użycie każdego z nich w klasyfikatorze KNN i porównanie dokładności poza próbą każdego z powstałych modeli.

benhamner
źródło
2

Wygląda na to, że jest podobny do niektórych aplikacji wyszukiwania informacji (IR). Kilka lat temu uczestniczyłem w dyskusji na temat rozpoznawania chodu, która brzmi podobnie do tego, co robisz. W wyszukiwaniu informacji „dokumenty” (w twoim przypadku: dane dotyczące kąta osoby) są porównywane z jakimś zapytaniem (które w twoim przypadku może być „czy jest osoba z danymi kąta (…,…)”). Następnie dokumenty są wymienione w kolejności zgodnej z tą, która jest najbliższa tej, która odpowiada najmniej. To z kolei oznacza, że ​​jeden centralny komponent IR umieszcza dokument w jakiejś przestrzeni wektorowej (w twoim przypadku: przestrzeń kątowa) i porównuje go do jednego konkretnego zapytania lub przykładowego dokumentu lub mierzy ich odległość. (Zobacz poniżej.) Jeśli masz dźwiękową definicję odległości między dwoma pojedynczymi wektorami, wszystko, co musisz zrobić, to wymyślić miarę odległości dwóch zestawów danych. (Tradycyjnie w podczerwieni odległość w modelu przestrzeni wektorowej jest obliczana albo przez miarę cosinus, albo odległość euklidesową, ale nie pamiętam, jak to zrobili w tym przypadku.) W podczerwieni istnieje również mechanizm zwany „sprzężeniem zwrotnym istotności”, który koncepcyjnie , działa z odległością dwóch zestawów dokumentów. Mechanizm ten zwykle wykorzystuje miarę odległości, która sumuje wszystkie indywidualne odległości między wszystkimi parami dokumentów (lub w twoim przypadku: wektory osobowe). Może to ci się przyda.

Na tej stronie znajdują się artykuły, które wydają się odpowiednie dla twojego problemu: http://www.mpi-inf.mpg.de/~mmueller/index_publications.html Zwłaszcza ten http://www.mpi-inf.mpg.de/ ~ mmueller / publications / 2006_DemuthRoederMuellerEberhardt_MocapRetrievalSystem_ECIR.pdf wydaje się interesujący. W przemówieniu Müllera, w którym uczestniczyłem, wspomniano miary podobieństwa Kovara i Gleichera zwane „chmurą punktów” (patrz http://portal.acm.org/citation.cfm?id=1186562.1015760&coll=DL&dl=ACM ) i jeden zwany „czwartorzędami” . Mam nadzieję, że to pomoże.

xmjx
źródło
Przydałoby się mieć odniesienie, jeśli możesz je znaleźć. Dzięki.
Josh
2

Ten problem nazywa się uczeniem się na odległość. Każda metryka odległości może być reprezentowana jako gdzie jest dodatnim półokreślonym. Metody w tym podobszarze naucz się optymalnego dla swoich danych. W rzeczywistości, jeśli optymalnym jest matryca tożsamości, można stosować odległości euklidesowe. Jeśli jest to odwrotna kowariancja, optymalne byłoby użycie odległości Mahalanobisa i tak dalej. Dlatego też należy zastosować metodę uczenia się na odległość, aby nauczyć się optymalnego , aby nauczyć się właściwego pomiaru na odległość.(xy)tA(xy)AAAA

karawan
źródło
0

Jednym z problemów z używaniem kątów jako zastępstwa kształtu jest to, że małe zaburzenia w kątach mogą prowadzić do dużych zaburzeń w kształcie. Ponadto różne konfiguracje kątów mogą skutkować tym samym (lub podobnym) kształtem.

Suresh Venkatasubramanian
źródło