Dla dwóch dyskretnych rozkładów i , entropia krzyżowa jest zdefiniowana jakoq
Zastanawiam się, dlaczego byłby to intuicyjny pomiar odległości między dwoma rozkładami prawdopodobieństwa?
Widzę, że jest entropią , która mierzy „zaskoczenie” . jest miarą, która częściowo zastępuje przez . Nadal nie rozumiem intuicyjnego znaczenia definicji.
probability
distributions
cross-entropy
Kadistar
źródło
źródło
Odpowiedzi:
Minimalizowanie entropii krzyżowej jest często stosowane jako cel uczenia się w modelach generatywnych, w których p jest rozkładem prawdziwym, a q jest rozkładem uczenia się.
Entropia krzyżowa p i q jest równa entropii p plus dywergencja KL między p i q.
Możesz myśleć o jako stałej, ponieważ pochodzi bezpośrednio z danych treningowych i nie jest uczony przez model. Tak więc ważny jest tylko termin dywergencji KL. Motywacją do rozbieżności KL jako odległości między rozkładami prawdopodobieństwa jest to, że informuje ona o tym, ile bitów informacji uzyskano przez zastosowanie rozkładu p zamiast przybliżenia q.pH(p) p
Należy zauważyć, że rozbieżność KL nie jest właściwą miarą odległości. Po pierwsze, nie jest symetryczna w p i q. Jeśli potrzebujesz metryki odległości do rozkładów prawdopodobieństwa, będziesz musiał użyć czegoś innego. Ale jeśli używasz słowa „odległość” nieformalnie, możesz użyć dywergencji KL.
źródło