Co to jest odległość Hellingera i kiedy z niej korzystać?

19

Chcę wiedzieć, co tak naprawdę dzieje się w Hellinger Distance (w prostych słowach). Co więcej, jestem również zainteresowany tym, jakie rodzaje problemów możemy wykorzystać Hellinger Distance? Jakie są zalety korzystania z Hellinger Distance?

Smith Volka
źródło
9
Odległość Hellingera jest probabilistycznym analogiem odległości euklidesowej. Istotną właściwością jest jej symetria jako metryka. Takie właściwości matematyczne są przydatne, jeśli piszesz artykuł i potrzebujesz funkcji odległości, która ma pewne właściwości, aby umożliwić dowód. W aplikacji ktoś może odkryć, że jedna metryka daje lepsze lub lepsze wyniki niż inna dla określonego zadania; np. odległość Wassersteina jest modna w generatywnych sieciach przeciwników
Emre
Dziękuje za komentarz. Natknąłem się na to pytanie, które jest dość podobne do pytania, które mam teraz. datascience.stackexchange.com/questions/22324/… Daj mi znać, dlaczego odpowiedź mówi, że Hellinger Distance jest odpowiedni?
Smith Volka
2
Prawdopodobnie do wizualizacji tematów w przestrzeni metrycznej. Inną ciekawą właściwością jest to, że odległość Hellingera jest skończona dla dystrybucji z różnym wsparciem. Dobrze, że zadajesz te pytania. Sugeruję wypróbowanie różnych wskaźników dla siebie i obserwowanie wyników.
Emre
Dzięki. to dobry link. bardzo pomaga. Ale czy odległość Hellingera ogranicza się tylko do tematów pochodzących z Latent Dirichlet Allocation (LDA), jak wspomniano w linku?
Smith Volka
1
Nie, nie ma żadnego nieodłącznego związku z LDA.
Emre

Odpowiedzi:

7

Odległość Hellingera jest miarą mierzącą różnicę między dwoma rozkładami prawdopodobieństwa. Jest to probabilistyczny analog odległości euklidesowej .

Biorąc pod uwagę dwa rozkłady prawdopodobieństwa, i , odległość Hellingera definiuje się jako:QPQ

h(P,Q)=12PQ2

Jest to przydatne podczas kwantyfikacji różnicy między dwoma rozkładami prawdopodobieństwa. Na przykład, jeśli oszacujesz dystrybucję dla użytkowników i osób niebędących użytkownikami usługi. Jeśli dla niektórych obiektów odległość Hellingera jest niewielka między tymi grupami, wówczas cechy te nie są statystycznie przydatne do segmentacji.

Brian Spiering
źródło