Grupowanie: czy powinienem użyć dywergencji Jensena-Shannona czy jej kwadratu?

15

Grupuję rozkłady prawdopodobieństwa za pomocą algorytmu propagacji powinowactwa i planuję użyć dywergencji Jensena-Shannona jako miary odległości.

Czy poprawne jest użycie samego JSD jako odległości lub kwadratu JSD? Dlaczego? Jakie różnice wynikałyby z wyboru jednego lub drugiego?

AlcubierreDrive
źródło

Odpowiedzi:

20

Myślę, że to zależy od tego, jak ma być używany.

P.Q

jot(P.,Q)=12)(re(P.∣∣R)+re(Q∣∣R))
R=12)(P.+Q)re(∣∣)

Kusiłbym teraz, aby użyć pierwiastka kwadratowego dywergencji Jensena-Shannona, ponieważ jest to metryka , tzn. Spełnia wszystkie „intuicyjne” właściwości miary odległości.

Aby uzyskać więcej informacji na ten temat, zobacz

Endres i Schindelin, Nowa miara rozkładów prawdopodobieństwa , IEEE Trans. na Info. Twój. , vol. 49, nr 3, lipiec 2003, s. 1858–1860.

Oczywiście w pewnym sensie zależy to od tego, czego potrzebujesz. Jeśli wszystko, czego używasz, to ocena jakiejś miary parami, wtedy każda monotoniczna transformacja JSD będzie działać. Jeśli szukasz czegoś, co jest najbliżej „odległości do kwadratu”, to sama JSD jest analogiczną wielkością.

Nawiasem mówiąc, możesz być także zainteresowany tym poprzednim pytaniem oraz powiązanymi odpowiedziami i dyskusjami.

kardynał
źródło
Fajnie, jak najszybciej przeczytam „nową miarę rozkładu prawdopodobieństwa”. Txh
ocram
Dzięki! Nie zdawałem sobie sprawy, że sam JSD jest już analogiczny do dist ** 2
AlcubierreDrive
Dzięki za świetne wyjaśnienie! Krótkie pytanie. Wiem, że J-dywergencja jest w tym symetryczna J(P,Q) = J(Q,P). Czytałem, że rozbieżność JS jest symetryczna w P i Q. Czy to oznacza JS(P,Q) = JS(Q,P)? Proszę o to, ponieważ używam KLdivfunkcji z flexmixpakietu w R. Dla moich dwóch dystrybucji wynik macierzy z KLdiv nie jest symetryczny. Spodziewałem się, że JS to naprawi, ale dane wyjściowe z JS (obliczone przy użyciu KL) nie są symetryczne.
Legenda,
1
@ Legend: Tak, rozbieżność JS jest symetryczna. Mam nadzieję, że łatwo to zauważyć na podstawie równania podanego w odpowiedzi. Upewnij się, że bierzesz rozbieżność między KLP. oraz środek punktu środkowego i Qoraz miara punktu środkowego dla każdego z dwóch składników. Osobno żadne z nich nie będzie koniecznie symetryczne.
kardynał