Nie powołując się na źródła Wikipedia określa przekrój entropia dyskretnych rozkładów i Q się
Kto pierwszy zaczął używać tej ilości? A kto wynalazł ten termin? Zajrzałem do:
JE Shore i RW Johnson, „Aksjomatyczne wyprowadzenie zasady maksymalnej entropii i zasady minimalnej entropii krzyżowej”, Teoria informacji, Transakcje IEEE, vol. 26, nr 1, s. 26–37, styczeń 1980 r.
Śledziłem ich wprowadzenie do
A. Wehrl, „Ogólne właściwości entropii”, Recenzje współczesnej fizyki, vol. 50, nr 2, s. 221–260, kwiecień 1978 r.
kto nigdy nie używa tego terminu.
Ani też nie
S. Kullback i R. Leibler, „O informacji i wystarczalności”, The Annals of Mathematical Statistics, vol. 22, nr 1, s. 79–86, 1951.
Zajrzałem do środka
TM Cover i JA Thomas, Elementy teorii informacji (seria Wiley w telekomunikacji i przetwarzaniu sygnałów). Wiley-Interscience, 2006.
i
I. Dobry, „Maksymalna entropia dla formułowania hipotez, szczególnie w wielowymiarowych tabelach kontyngencji”, The Annals of Mathematical Statistics, vol. 34, nr 3, s. 911–934, 1963.
ale oba artykuły definiują entropię krzyżową jako synonim rozbieżności KL.
Oryginalny papier
CE Shannon, „Matematyczna teoria komunikacji”, czasopismo techniczne systemu Bell, vol. 27, 1948 r.
Nie wspomina o entropii krzyżowej (i ma dziwną definicję „entropii względnej”: „Stosunek entropii źródła do maksymalnej wartości, jaką może mieć, gdy jest ograniczony do tych samych symboli”).
Wreszcie przejrzałem stare książki i dokumenty Tribusa.
Czy ktoś wie, jak nazywa się powyższe równanie i kto je wymyślił lub ma ładną prezentację?
źródło
Dzięki sugestii @ Itamar znalazłem wzmiankę w:
IJ Good, „Some Terminology and Notation in Information Theory”, Proceedings of the IEE - Część C: Monografie, t. 103, nr 3, s. 200–204, marzec 1956 r.
Przydałaby mi się dobra prezentacja cross-entropii.
źródło
Dzięki za to - dobre podsumowanie literatury przedmiotu. Artykuł Shore and Johnson z 1980 roku w IEEE to dobry początek, ale wskaźnik @ itamar do monografii Good z 1956 roku jest jeszcze lepszy. Koncepcja wydaje się wynikać z pracy Shannona, a notatka AMS Kullback & Leibler z 1951 r. Jest początkiem obecnego użycia tego terminu. W zakresie, w jakim pochodzenie terminu „entropia krzyżowa” odnosi się do sztucznych sieci neuronowych, istnieje termin używany w pracy w Science, przedłożonej w 1994 r., Opublikowanej w 1995 r. Przez GE Hinton, P. Dayan, BJ Frey & RM Neal, w: które jest wczesnym użyciem terminu „maszyna Hemholtza” - być może pierwsze. Adres URL do kopiowania: http://elderlab.yorku.ca/~elder/teaching/cosc6390psyc6225/readings/hinton%201995.pdf W artykule „Algorytm Wake-sleep dla nienadzorowanych sieci neuronowych”, uwaga przed równaniem nr 5 mówi: „Gdy istnieje wiele alternatywnych sposobów opisu wektora wejściowego, można zaprojektować schemat kodowania stochastycznego, który wykorzystuje entropia w alternatywnych opisach [1]. Koszt to wtedy: „(patrz artykuł dla równania # 5)„ Drugi termin jest wówczas entropią rozkładu, który wagi rozpoznania przypisują różnym alternatywnym przedstawieniom ”. W dalszej części artykułu eqn # 5 jest przepisany jako eqn # 8, a ostatni termin jest opisany jako rozbieżność Kullbacka-Leiblera między początkowym rozkładem prawdopodobieństwa a tylnym rozkładem prawdopodobieństwa. Artykuł stwierdza: „Tak więc dla dwóch modeli generatywnych, które przypisują równe prawdopodobieństwo do d, ) W tym dokumencie nadal opisuje się proces minimalizacji tego konkretnego algorytmu jako minimalizujący rozbieżność Kullbacka-Leiblera, ale wygląda na to, że termin „entropia w alternatywnych opisach” został skrócony do po prostu „entropii krzyżowej”. Aby zobaczyć numeryczny przykład entropii krzyżowej przy użyciu TensorFlow, zobacz zamieszczony tutaj post, pomocne: ) W tym dokumencie nadal opisuje się proces minimalizacji tego konkretnego algorytmu jako minimalizujący rozbieżność Kullbacka-Leiblera, ale wygląda na to, że termin „entropia w alternatywnych opisach” został skrócony do po prostu „entropii krzyżowej”. Aby zobaczyć numeryczny przykład entropii krzyżowej przy użyciu TensorFlow, zobacz zamieszczony tutaj post, pomocne: /programming/41990250/what-is-cross-entropy Zauważ, że rozwiązanie CE = 0,47965 wynika po prostu z naturalnego logu prawdopodobieństwa .619. W powyższym przykładzie użycie kodowania „jeden gorący” oznacza, że dwa pozostałe prawdopodobieństwa początkowe i tylne są ignorowane z powodu pomnożenia przez prawdopodobieństwo początkowe o wartości zerowej, w sumie dla entropii krzyżowej.
źródło