Odległość Kullback – Leibler vs Kołmogorow-Smirnov

37

Widzę, że istnieje wiele formalnych różnic między miarami odległości Kullback – Leibler vs. Kołmogorow-Smirnov. Oba są jednak używane do pomiaru odległości między rozkładami.

  • Czy istnieje typowa sytuacja, w której należy użyć jednej zamiast drugiej?
  • Jakie jest uzasadnienie tego?
Greg
źródło
Powiązane pytanie: stats.stackexchange.com/questions/4/…
GaBorgulya

Odpowiedzi:

23

Rozbieżność KL jest zwykle stosowana w ustawieniach teoretycznych, a nawet w ustawieniach Bayesa, do mierzenia zmiany informacji między rozkładami przed i po zastosowaniu pewnych wnioskowania, na przykład. Nie jest to odległość w typowym (metrycznym) sensie, z powodu braku symetrii i nierówności trójkąta, dlatego jest używana w miejscach, w których kierunkowość jest znacząca.

Odległość KS jest zwykle stosowana w kontekście testu nieparametrycznego. W rzeczywistości rzadko widziałem, by była używana jako ogólna „odległość między rozkładami”, gdzie bardziej powszechna jest odległość odległość Jensen-Shannon i inne.1

Suresh Venkatasubramanian
źródło
5
Innym zastosowaniem rozbieżności KL, o którym warto wspomnieć, jest testowanie hipotez. Załóżmy że są takie same jak miary o gęstości lub . Niech . Neyman - Pearson, optymalny test odrzuca, gdy jest duży. Teraz pod prawdopodobieństwem , i pod , . Ponieważ jest nieujemny, implikacja jest taka, że ​​użycie reguły do odrzucenia jest asymptotycznie idealne.p 0 p 1 T n = n - 1n i = 1 log ( p 1 ( X i ) / p 0 ( X i ) ) T n p 0 T n- D ( p 0X1,X2,p0p1Tn=n1i=1nlog(p1(Xi)/p0(Xi))Tnp0p 1 T nD ( p 1TnD(p0||p1)p1D ( TnD(p1||p0)T n > 0 p 0D(||)Tn>0p0
kardynał
W rzeczy samej. to doskonały przykład. W rzeczywistości większość ogólnych wersji ogonów Chernoff-Hoeffding wykorzystuje rozbieżność KL.
Suresh Venkatasubramanian
2

Inny sposób wyrażenia tego samego, co poprzednia odpowiedź, w bardziej laicki sposób:

Rozbieżność KL - w rzeczywistości stanowi miarę, jak dużą różnicą są dwie rozkłady od siebie. Jak wspomniano w poprzedniej odpowiedzi, miara ta nie jest odpowiednią miarą odległości, ponieważ nie jest symetryczna. Tj. Odległość między rozkładem A i B jest wartością inną niż odległość między rozkładem B i A.

Test Kołmogorowa-Smirnowa - jest to miara oceny, która sprawdza największą separację między skumulowanym rozkładem rozkładu testowego w stosunku do rozkładu odniesienia. Ponadto można użyć tej metryki podobnie jak z-score względem rozkładu Kołmogorowa, aby wykonać test hipotezy, czy rozkład testu jest taki sam jak odniesienie. Metryka ta może być używana jako funkcja odległości, ponieważ jest symetryczna. To znaczy największe rozdzielenie między CDF A w porównaniu z CDF B jest takie samo, jak największe oddzielenie między CDF B w porównaniu z CDF A

SriK
źródło