Widzę, że istnieje wiele formalnych różnic między miarami odległości Kullback – Leibler vs. Kołmogorow-Smirnov. Oba są jednak używane do pomiaru odległości między rozkładami.
- Czy istnieje typowa sytuacja, w której należy użyć jednej zamiast drugiej?
- Jakie jest uzasadnienie tego?
Odpowiedzi:
Rozbieżność KL jest zwykle stosowana w ustawieniach teoretycznych, a nawet w ustawieniach Bayesa, do mierzenia zmiany informacji między rozkładami przed i po zastosowaniu pewnych wnioskowania, na przykład. Nie jest to odległość w typowym (metrycznym) sensie, z powodu braku symetrii i nierówności trójkąta, dlatego jest używana w miejscach, w których kierunkowość jest znacząca.
Odległość KS jest zwykle stosowana w kontekście testu nieparametrycznego. W rzeczywistości rzadko widziałem, by była używana jako ogólna „odległość między rozkładami”, gdzie bardziej powszechna jest odległość odległość Jensen-Shannon i inne.ℓ1
źródło
Inny sposób wyrażenia tego samego, co poprzednia odpowiedź, w bardziej laicki sposób:
Rozbieżność KL - w rzeczywistości stanowi miarę, jak dużą różnicą są dwie rozkłady od siebie. Jak wspomniano w poprzedniej odpowiedzi, miara ta nie jest odpowiednią miarą odległości, ponieważ nie jest symetryczna. Tj. Odległość między rozkładem A i B jest wartością inną niż odległość między rozkładem B i A.
Test Kołmogorowa-Smirnowa - jest to miara oceny, która sprawdza największą separację między skumulowanym rozkładem rozkładu testowego w stosunku do rozkładu odniesienia. Ponadto można użyć tej metryki podobnie jak z-score względem rozkładu Kołmogorowa, aby wykonać test hipotezy, czy rozkład testu jest taki sam jak odniesienie. Metryka ta może być używana jako funkcja odległości, ponieważ jest symetryczna. To znaczy największe rozdzielenie między CDF A w porównaniu z CDF B jest takie samo, jak największe oddzielenie między CDF B w porównaniu z CDF A
źródło