Zamierzam użyć rozbieżności KL w moim kodzie python i mam ten samouczek .
W tym samouczku wdrożenie rozbieżności KL jest dość proste.
kl = (model * np.log(model/actual)).sum()
Jak rozumiem, rozkład prawdopodobieństwa model
i actual
powinien wynosić <= 1.
Moje pytanie brzmi: jaka jest maksymalna związana / maksymalna możliwa wartość k ?. Muszę znać maksymalną możliwą wartość kl odległości jak dla maksymalnej granicy w moim kodzie.
machine-learning
distance
kullback-leibler
użytkownik46543
źródło
źródło
Odpowiedzi:
Lub nawet przy takim samym wsparciu, gdy jedna dystrybucja ma znacznie grubszy ogon niż druga. Weź gdy a następnie i Istnieją inne odległości, które pozostają ograniczone, takie jakp ( x ) = gęstość Cauchy'ego ⏞ 1
źródło
W przypadku dystrybucji, które nie mają tego samego wsparcia, rozbieżność KL nie jest ograniczona. Spójrz na definicję:
jeśli P i Q nie mają tego samego wsparcia, istnieje punkt gdzie i , co powoduje, że KL przechodzi w nieskończoność. Dotyczy to również dystrybucji dyskretnych, co jest Twoim przypadkiem.x′ p(x′)≠0 q(x′)=0
Edycja: Być może lepszym wyborem do pomiaru rozbieżności między rozkładami prawdopodobieństwa byłaby tak zwana odległość Wassersteina, która jest metryką i ma lepsze właściwości niż rozbieżność KL. Stał się dość popularny ze względu na swoje zastosowania w głębokim uczeniu się (patrz sieci WGAN)
źródło
Aby dodać do doskonałych odpowiedzi Carlosa i Xi'ana , warto również zauważyć, że wystarczającym warunkiem, aby dywergencja KL była skończona, jest to, aby obie zmienne losowe miały tę samą zwartą podporę, a granice gęstości odniesienia były ograniczone . Wynik ten ustanawia również domyślną granicę maksymalnej dywergencji KL (patrz twierdzenie i dowód poniżej).
Twierdzenie: Jeśli gęstości i mają to samo zwarte podłoże a gęstość jest ograniczona na tym podłożu (tj. Ma skończoną górną granicę), to .p q X p KL(P||Q)<∞
Dowód: Ponieważ ma kompaktowe wsparcie oznacza to, że istnieje pewna dodatnia wartość minimalna:q X
Podobnie, ponieważ ma kompaktowe wsparcie oznacza to, że istnieje pewna dodatnia wartość supremum:p X
Ponadto, ponieważ oba są gęstościami na tym samym wsparciu, a to drugie jest ograniczone, mamy . To znaczy że:0<q–⩽p¯<∞
Teraz, pozwalając być ostatnią górną granicą, wyraźnie mamy więc że:L––≡ln(p¯)−ln(q–) 0⩽L––<∞
To ustanawia wymaganą górną granicę, co potwierdza twierdzenie.■
źródło