Rozważmy Bayesa posterior . Asymptotycznie, jego maksimum występuje przy oszacowaniu MLE , co tylko maksymalizuje prawdopodobieństwo .
Wszystkie te koncepcje - priory bayesowskie, maksymalizujące prawdopodobieństwo - brzmią bardzo pryncypialnie i wcale nie są arbitralne. W polu widzenia nie ma logów.
Jednak MLE minimalizuje rozbieżność KL między rozkładem rzeczywistym i , tzn. Minimalizuje
Woah - skąd pochodzą te dzienniki? Dlaczego w szczególności dywergencja KL?
Dlaczego na przykład minimalizowanie różnych rozbieżności nie odpowiada nadrzędnym i zmotywowanym koncepcjom bayesowskich posteriorów i maksymalizacji prawdopodobieństwa powyżej?
Wydaje się, że w tym kontekście jest coś specjalnego w dywergencji KL i / lub logach. Oczywiście możemy podnieść ręce w powietrze i powiedzieć, że taka jest matematyka. Ale podejrzewam, że może być głębsza intuicja lub powiązania do odkrycia.
źródło
Odpowiedzi:
Zastosowanie logarytmów w takich obliczeniach pochodzi z teorii informacji . W szczególnym przypadku rozbieżności KL miarę można interpretować jako informację względną dwóch rozkładów:
gdzie jest entropia z i jest przekrój entropia i . Entropię można traktować jako mierniki średniego tempa produkowanego przez gęstość (myśl, że entropia krzyżowa jest nieco bardziej skomplikowana). Minimalizowanie rozbieżności KL dla stałej wartości (jak we wspomnianym problemie) jest równoważne z minimalizowaniem entropii krzyżowej, dlatego optymalizację tę można interpretować teoretycznie.H.(fa~) fa~ H.(fa~,faθ) fa~ faθ fa~
Nie jestem w stanie podać dobrego opisu teorii informacji i właściwości miar informacji w krótkim poście. Poleciłbym jednak przyjrzeć się tej dziedzinie, ponieważ ma ona ścisłe powiązania ze statystykami. Wiele miar statystycznych obejmujących całki i sumy w logarytmach gęstości to proste kombinacje standardowych miar informacji stosowanych w teorii miar, w takich przypadkach można je interpretować w kategoriach podstawowych poziomów informacji w różnych gęstościach itp.
źródło