Moim zdaniem rozbieżność KL od rozkładu próbki do rozkładu rzeczywistego jest po prostu różnicą między entropią krzyżową a entropią.
Dlaczego używamy entropii krzyżowej jako funkcji kosztów w wielu modelach uczenia maszynowego, a dywergencji Kullbacka-Leiblera w t-sne? Czy jest jakaś różnica w szybkości uczenia się?
kullback-leibler
tsne
cross-entropy
JimSpark
źródło
źródło
Odpowiedzi:
Rozbieżność KL jest naturalnym sposobem pomiaru różnicy między dwoma rozkładami prawdopodobieństwa. Entropia rozkładu p daje minimalną możliwą liczbę bitów na komunikat, która byłaby potrzebna (średnio) do bezstratnego kodowania zdarzeń pobranych z p . Osiągnięcie tego ograniczenia wymagałoby użycia optymalnego kodu zaprojektowanego dla p , który przypisuje krótsze słowa kodowe do zdarzeń o wyższym prawdopodobieństwie. D K L ( p ∥ q ) można interpretować jako oczekiwaną liczbę dodatkowych bitów na komunikat potrzebną do zakodowania zdarzeń pochodzących z rozkładu rzeczywistego pH(p) p p p DKL(p∥q) p , jeśli używasz optymalnego kodu dla dystrybucji zamiast p . Ma kilka dobrych właściwości do porównywania dystrybucji. Na przykład, jeśli p i q są równe, wówczas rozbieżność KL wynosi 0.q p p q
Rozbieżność KL i entropia krzyżowa są powiązane jako:
van der Maaten i Hinton (2008) . Wizualizacja danych za pomocą t-SNE.
źródło