Szukam dobrej terminologii do opisania tego, co próbuję zrobić, aby ułatwić wyszukiwanie zasobów.
Powiedzmy, że mam dwa skupienia punktów A i B, każdy powiązany z dwiema wartościami, X i Y, i chcę zmierzyć „odległość” między A i B - tzn. Jak prawdopodobne jest, że próbkowano je z tego samego rozkładu (Mogę założyć, że rozkłady są normalne). Na przykład, jeśli X i Y są skorelowane w A, ale nie w B, rozkłady są różne.
Intuicyjnie dostałbym macierz kowariancji A, a następnie spojrzałem na to, jak prawdopodobne jest dopasowanie się tam każdego punktu B i odwrotnie (prawdopodobnie używając czegoś takiego jak odległość Mahalanobisa).
Ale to trochę „ad-hoc” i prawdopodobnie istnieje bardziej rygorystyczny sposób opisania tego (oczywiście w praktyce mam więcej niż dwa zestawy danych z więcej niż dwiema zmiennymi - próbuję ustalić, który z moich zestawów danych są wartościami odstającymi).
Dzięki!
Odpowiedzi:
Istnieje również dywergencja Kullbacka-Leiblera , która jest związana z odległością Hellingera, o której wspomniałeś powyżej.
źródło
Hmm, odległość Bhattacharyya wydaje się być tym, czego szukam, chociaż odległość Hellingera również działa.
źródło
Heurystyczny
Statystyka testów nieparametrycznych
Rozbieżności w teorii informacji
Miary odległości od ziemi
źródło
Najbardziej kompletne badanie znajduje się w Wnioskach statystycznych opartych na pomiarach rozbieżności autorstwa Leandro Pardo, Complutense University, Chapman Hall 2006.
źródło
Kilka innych miar „Różnicy statystycznej”
źródło