Metody wnioskowania MaxEnt i Bayesian odpowiadają różnym sposobom włączania informacji do procedury modelowania. Oba można postawić na gruncie aksjomatycznym ( „Aksjomaty maksymalnej entropii” Johna Skillinga i „Algebra prawdopodobnego wnioskowania” Coxa ).
Podejście Bayesa jest proste do zastosowania, jeśli twoja wcześniejsza wiedza ma postać mierzalnej funkcji o wartości rzeczywistej w przestrzeni hipotezy, tzw. „Wcześniej”. MaxEnt jest prosty, gdy informacja pojawia się jako zestaw twardych ograniczeń w przestrzeni hipotez. W prawdziwym życiu wiedza nie przychodzi ani w formie „wcześniejszej”, ani w „ograniczonej”, więc powodzenie twojej metody zależy od umiejętności przedstawienia swojej wiedzy w odpowiedniej formie.
W przypadku problemu z zabawkami, uśrednianie modelu Bayesa da ci najniższą średnią stratę logarytmiczną (uśrednioną dla wielu losowań modelu), gdy wcześniejsze dopasowanie odpowiada prawdziwemu rozkładowi hipotez. Podejście MaxEnt zapewni najmniejszą utratę logów w najgorszym przypadku, gdy zostaną spełnione jego ograniczenia (najgorsze przejęcie wszystkich możliwych priorytetów)
ETJaynes, uważany za ojca metod „MaxEnt”, również polegał na metodach bayesowskich. Na stronie 1412 swojej książki podaje przykład, w którym podejście bayesowskie zaowocowało dobrym rozwiązaniem, a następnie przykład, w którym podejście MaxEnt jest bardziej naturalne.
Maksymalne prawdopodobieństwo zasadniczo polega na tym, że model leży w pewnej z góry określonej przestrzeni modelu i próbuje dopasować go „tak mocno, jak to możliwe” w tym sensie, że będzie miał najwyższą wrażliwość na dane spośród wszystkich metod wyboru modelu ograniczonych do takiego modelu przestrzeń. Podczas gdy MaxEnt i Bayesian są szkieletami, ML jest konkretną metodą dopasowania modelu, a dla niektórych konkretnych wyborów projektowych ML może kończyć metodę pochodzącą z podejścia Bayesian lub MaxEnt. Na przykład MaxEnt z ograniczeniami równości jest równoważny dopasowaniu maksymalnego prawdopodobieństwa pewnej rodziny wykładniczej. Podobnie zbliżenie do wnioskowania bayesowskiego może prowadzić do uregulowanego rozwiązania maksymalnego prawdopodobieństwa. Jeśli zdecydujesz się, aby twoje wnioski były maksymalnie wrażliwe na dane, wynik wnioskowania bayesowskiego będzie odpowiadał dopasowaniu maksymalnego prawdopodobieństwa. Na przykład,p
Prawdziwe sukcesy uczenia maszynowego są często połączeniem różnych filozofii. Na przykład „pola losowe” zostały wyprowadzone z zasad MaxEnt. Najpopularniejsza implementacja pomysłu, uregulowana CRF, polega na dodaniu „wcześniejszego” parametru. W rezultacie metoda nie jest tak naprawdę MaxEntem ani Bayesianem, ale jest pod wpływem obu szkół myślenia.
Zebrałem kilka linków na temat filozoficznych podstaw podejścia Bayesa i MaxEnta tu i tutaj .
Uwaga na terminologię: czasami ludzie nazywają swoją metodę Bayesian po prostu, jeśli w pewnym momencie używa ona reguły Bayesa. Podobnie „MaxEnt” jest czasem używany w przypadku niektórych metod, które faworyzują rozwiązania o wysokiej entropii. Nie jest to to samo, co „wnioskowanie MaxEnt” lub „wnioskowanie bayesowskie”, jak opisano powyżej
Aby uzyskać zabawną krytykę metod maksymalnej entropii, polecam przeczytanie starych postów na grupach dyskusyjnych na sci.stat.math i sci.stat.consult, szczególnie te autorstwa Radford Neal:
Nie znam żadnych porównań między maksymalnymi i innymi metodami: część problemu wydaje się polegać na tym, że maksymalne nie jest tak naprawdę ramą, ale niejednoznaczną dyrektywą („w obliczu nieznanego, po prostu maksymalizuj entropię”), która jest interpretowane na różne sposoby przez różnych ludzi.
źródło
Prawdą jest, że w przeszłości MaxEnt i Bayes zajmowali się różnymi rodzajami lub formami informacji. Powiedziałbym, że Bayes stosuje również „twarde” ograniczenia, prawdopodobieństwo.
W każdym razie nie jest to już problemem, ponieważ Regułę Bayesa (nie regułę produktu) można uzyskać z Maksymalna względna Entropia (MrE), a nie w niejednoznaczny sposób:
To nowy świat ...
źródło