Porównanie MaxEnt, ML, Bayesa i innych metod wnioskowania statystycznego

21

Nie jestem w żaden sposób statystykiem (miałem kurs statystyki matematycznej, ale nic więcej), a ostatnio, studiując teorię informacji i mechanikę statystyczną, spotkałem to, co nazywa się „miarą niepewności” / „entropią”. Odczytałem jej pochodzenie Khinchina jako miarę niepewności i miało to dla mnie sens. Kolejną rzeczą, która miała sens, był opis MaxEnta przez Jaynesa w celu uzyskania statystyki, gdy znasz średnią arytmetyczną jednej lub więcej funkcji na próbce (zakładając, że akceptujesz jako miarę niepewności). -pjalnpja

Szukałem więc w sieci, aby znaleźć związek z innymi metodami wnioskowania statystycznego, a Bóg był zdezorientowany. Na przykład ten artykuł sugeruje, zakładając, że mam rację, że po prostu dostaniesz estymator ML przy odpowiedniej przeformułowaniu problemu; MacKey w swojej książce mówi, że MaxEnt może dać ci dziwne rzeczy i nie powinieneś używać go nawet do wstępnych szacunków w wnioskowaniu bayesowskim; itd. Mam problem ze znalezieniem dobrych porównań.

Moje pytanie brzmi: czy możesz podać wyjaśnienie i / lub dobre uzasadnienie słabych i mocnych stron MaxEnt jako metody wnioskowania statystycznego z porównaniami ilościowymi do innych metod (na przykład w przypadku modeli zabawek)?

Francesco
źródło

Odpowiedzi:

19

Metody wnioskowania MaxEnt i Bayesian odpowiadają różnym sposobom włączania informacji do procedury modelowania. Oba można postawić na gruncie aksjomatycznym ( „Aksjomaty maksymalnej entropii” Johna Skillinga i „Algebra prawdopodobnego wnioskowania” Coxa ).

Podejście Bayesa jest proste do zastosowania, jeśli twoja wcześniejsza wiedza ma postać mierzalnej funkcji o wartości rzeczywistej w przestrzeni hipotezy, tzw. „Wcześniej”. MaxEnt jest prosty, gdy informacja pojawia się jako zestaw twardych ograniczeń w przestrzeni hipotez. W prawdziwym życiu wiedza nie przychodzi ani w formie „wcześniejszej”, ani w „ograniczonej”, więc powodzenie twojej metody zależy od umiejętności przedstawienia swojej wiedzy w odpowiedniej formie.

W przypadku problemu z zabawkami, uśrednianie modelu Bayesa da ci najniższą średnią stratę logarytmiczną (uśrednioną dla wielu losowań modelu), gdy wcześniejsze dopasowanie odpowiada prawdziwemu rozkładowi hipotez. Podejście MaxEnt zapewni najmniejszą utratę logów w najgorszym przypadku, gdy zostaną spełnione jego ograniczenia (najgorsze przejęcie wszystkich możliwych priorytetów)

ETJaynes, uważany za ojca metod „MaxEnt”, również polegał na metodach bayesowskich. Na stronie 1412 swojej książki podaje przykład, w którym podejście bayesowskie zaowocowało dobrym rozwiązaniem, a następnie przykład, w którym podejście MaxEnt jest bardziej naturalne.

Maksymalne prawdopodobieństwo zasadniczo polega na tym, że model leży w pewnej z góry określonej przestrzeni modelu i próbuje dopasować go „tak mocno, jak to możliwe” w tym sensie, że będzie miał najwyższą wrażliwość na dane spośród wszystkich metod wyboru modelu ograniczonych do takiego modelu przestrzeń. Podczas gdy MaxEnt i Bayesian są szkieletami, ML jest konkretną metodą dopasowania modelu, a dla niektórych konkretnych wyborów projektowych ML może kończyć metodę pochodzącą z podejścia Bayesian lub MaxEnt. Na przykład MaxEnt z ograniczeniami równości jest równoważny dopasowaniu maksymalnego prawdopodobieństwa pewnej rodziny wykładniczej. Podobnie zbliżenie do wnioskowania bayesowskiego może prowadzić do uregulowanego rozwiązania maksymalnego prawdopodobieństwa. Jeśli zdecydujesz się, aby twoje wnioski były maksymalnie wrażliwe na dane, wynik wnioskowania bayesowskiego będzie odpowiadał dopasowaniu maksymalnego prawdopodobieństwa. Na przykład,p

Prawdziwe sukcesy uczenia maszynowego są często połączeniem różnych filozofii. Na przykład „pola losowe” zostały wyprowadzone z zasad MaxEnt. Najpopularniejsza implementacja pomysłu, uregulowana CRF, polega na dodaniu „wcześniejszego” parametru. W rezultacie metoda nie jest tak naprawdę MaxEntem ani Bayesianem, ale jest pod wpływem obu szkół myślenia.

Zebrałem kilka linków na temat filozoficznych podstaw podejścia Bayesa i MaxEnta tu i tutaj .

Uwaga na terminologię: czasami ludzie nazywają swoją metodę Bayesian po prostu, jeśli w pewnym momencie używa ona reguły Bayesa. Podobnie „MaxEnt” jest czasem używany w przypadku niektórych metod, które faworyzują rozwiązania o wysokiej entropii. Nie jest to to samo, co „wnioskowanie MaxEnt” lub „wnioskowanie bayesowskie”, jak opisano powyżej

Jarosław Bułatow
źródło
1
Dzięki. Nie sądziłem, że „Logika nauki” mówi o tych sprawach, na pewno przeczytam tę książkę.
Francesco
19

Aby uzyskać zabawną krytykę metod maksymalnej entropii, polecam przeczytanie starych postów na grupach dyskusyjnych na sci.stat.math i sci.stat.consult, szczególnie te autorstwa Radford Neal:

Nie znam żadnych porównań między maksymalnymi i innymi metodami: część problemu wydaje się polegać na tym, że maksymalne nie jest tak naprawdę ramą, ale niejednoznaczną dyrektywą („w obliczu nieznanego, po prostu maksymalizuj entropię”), która jest interpretowane na różne sposoby przez różnych ludzi.

Simon Byrne
źródło
4
(+1) Wątek z 2002 roku to piekielna wymiana pomysłów.
whuber
1
Zauważ, że „wyprowadzenie Wallisa” maksimum podane przez Edwina Jaynesa w Teorii prawdopodobieństwa: Logika nauki daje „eksperymentalne” uzasadnienie maksymalizacji entropii. W rozkładach dyskretnych, jeśli zaczniemy od zasady obojętności (PID), a następnie w zasadzie wykonamy próbę odrzucenia na podstawie prawdopodobieństw, używając ograniczeń do zaakceptowania lub odrzucenia losowych jednorodnych próbek. Wynikowe prawdopodobieństwo jest następnie arbitralnie bliskie (dyskretnemu) rozkładowi maksymalnemu.
probabilityislogic
3

Prawdą jest, że w przeszłości MaxEnt i Bayes zajmowali się różnymi rodzajami lub formami informacji. Powiedziałbym, że Bayes stosuje również „twarde” ograniczenia, prawdopodobieństwo.

W każdym razie nie jest to już problemem, ponieważ Regułę Bayesa (nie regułę produktu) można uzyskać z Maksymalna względna Entropia (MrE), a nie w niejednoznaczny sposób:

To nowy świat ...


źródło