Mierzenie „odległości” między dwoma rozkładami wielowymiarowymi

28

Szukam dobrej terminologii do opisania tego, co próbuję zrobić, aby ułatwić wyszukiwanie zasobów.

Powiedzmy, że mam dwa skupienia punktów A i B, każdy powiązany z dwiema wartościami, X i Y, i chcę zmierzyć „odległość” między A i B - tzn. Jak prawdopodobne jest, że próbkowano je z tego samego rozkładu (Mogę założyć, że rozkłady są normalne). Na przykład, jeśli X i Y są skorelowane w A, ale nie w B, rozkłady są różne.

Intuicyjnie dostałbym macierz kowariancji A, a następnie spojrzałem na to, jak prawdopodobne jest dopasowanie się tam każdego punktu B i odwrotnie (prawdopodobnie używając czegoś takiego jak odległość Mahalanobisa).

Ale to trochę „ad-hoc” i prawdopodobnie istnieje bardziej rygorystyczny sposób opisania tego (oczywiście w praktyce mam więcej niż dwa zestawy danych z więcej niż dwiema zmiennymi - próbuję ustalić, który z moich zestawów danych są wartościami odstającymi).

Dzięki!

Emile
źródło
Nie wiem dlaczego, ale test Mantela błysnął mi przed oczami, kiedy przeczytałem twój post.
Roman Luštrik,

Odpowiedzi:

15

Istnieje również dywergencja Kullbacka-Leiblera , która jest związana z odległością Hellingera, o której wspomniałeś powyżej.

Przywróć Monikę - G. Simpson
źródło
2
czy można obliczyć rozbieżność punktów Kullbacka-Leiblera bez założenia o podstawowej gęstości prawdopodobieństwa, z której pochodzą punkty?
Andre Holzner,
16

Hmm, odległość Bhattacharyya wydaje się być tym, czego szukam, chociaż odległość Hellingera również działa.

Emile
źródło
wspominasz Bhattacharyya i Hellinga, a następnie akceptujesz odpowiedź mówiącą o KL ... Na koniec, jaki był twój wybór i dlaczego?
Simon C.
1
Wierzę, że to była dywergencja KL, ale ... to było w 2010 roku i moja pamięć jest daleka od ideału.
Emile
Ach tak, zgadłem, ale i tak dziękuję!
Simon C.
9

Heurystyczny

  • Forma Minkowskiego
  • Ważona-średnia-wariancja (WMV)

Statystyka testów nieparametrycznych

  • 2 (Chi Square)
  • Kołmogorow-Smirnov (KS)
  • Cramer / von Mises (CvM)

Rozbieżności w teorii informacji

  • Kullback-Liebler (KL)
  • Rozbieżność Jensen – Shannon (metryka)
  • Jeffrey-dywergencja (stabilna numerycznie i symetryczna)

Miary odległości od ziemi

  • Przecięcie histogramu
  • Kwadratowa forma (QF)
  • Odległość Moverów Ziemi (EMD)
skyde
źródło
0

Kilka innych miar „Różnicy statystycznej”

  • Test permutacji (Fisher)
  • Twierdzenie o granicy centralnej i twierdzenie Słuckiego
  • Test Manna-Whitneya-Wilcoxina
  • Test Andersona – Darlinga
  • Test Shapiro – Wilka
  • Test Hosmera – Lemeshowa
  • Test Kuipera
  • jądro rozbieżności Stein
  • Podobieństwo Jaccard
  • Hierarchiczne grupowanie dotyczy również miar podobieństwa między grupami. Najpopularniejsze miary podobieństwa grupowego to być może pojedyncze połączenie, pełne połączenie i średnie połączenie.
Danylo Zherebetskyy
źródło