Robby McKilliam mówi w komentarzu do tego postu:
Należy zauważyć, że z punktu widzenia częstych nie ma powodu, dla którego nie można włączyć wcześniejszej wiedzy do modelu. W tym sensie widok częstych jest prostszy, masz tylko model i niektóre dane. Nie ma potrzeby oddzielania wcześniejszych informacji od modelu
Również tutaj @jbowman mówi, że osoby często korzystające z regularyzacji korzystają z funkcji koszt / kara, podczas gdy bayesianie mogą to zrobić wcześniej:
Częstokroć zdawali sobie sprawę, że regularyzacja jest dobra i używają jej dość często w dzisiejszych czasach - a priory bayesowskie można łatwo interpretować jako regularyzację.
Moje pytanie brzmi zatem: czy osoby zajmujące się częstotliwością w ogóle mogą włączyć do swoich modeli, które Bayesianie określają jako priory? Biorąc za przykład regularyzację, czy funkcja koszt / kara jest naprawdę zintegrowana z modelem, czy jest to czysto sztuczny sposób dostosowania rozwiązania (a także uczynienia go wyjątkowym)?
źródło
Odpowiedzi:
W odniesieniu do komentarza Robby'ego McKilliama: Myślę, że trudność, z jaką często borykający się z tym problem, wynika z definicji „wcześniejszej wiedzy”, a nie tyle ze zdolności włączenia wcześniejszej wiedzy do modelu. Rozważmy na przykład oszacowanie prawdopodobieństwa, że dana moneta trafi do głowy. Załóżmy, że moja wcześniejsza wiedza była w gruncie rzeczy eksperymentem, w którym ta moneta została obrócona 10 razy i otrzymała 5 głów, a może w postaci „fabryka wyprodukowała 1 milion monet i dystans , ponieważ określone przez ogromne eksperymenty, jest β ( a , b )p β( a , b ) ". Każdy stosuje Regułę Bayesa, gdy naprawdę masz wcześniejsze informacje tego rodzaju (Reguła Bayesa określa jedynie warunkowe prawdopodobieństwo, nie jest to tylko kwestia Bayesowska), więc w rzeczywistości częsty i Bayesian stosowaliby to samo podejście, i włącz informacje do modelu za pomocą reguły Bayesa (zastrzeżenie: chyba że wielkość próbki jest wystarczająco duża, abyś był pewien, że wcześniejsze informacje nie będą miały wpływu na wyniki). Jednak interpretacja wyników jest następująca: oczywiście inny.
Trudności pojawiają się, szczególnie z filozoficznego punktu widzenia, ponieważ wiedza staje się mniej obiektywna / eksperymentalna i bardziej subiektywna. Gdy tak się stanie, częsty będzie prawdopodobnie mniej skłonny do włączania tych informacji do modelu, podczas gdy Bayesian wciąż ma jakieś mniej lub bardziej formalne mechanizmy do tego, trudności w uzyskiwaniu subiektywnego uprzedzenia pomimo tego.
W odniesieniu do regularyzacji: rozważ prawdopodobieństwo i wcześniejsze p ( θ ) . Nic nie stoi na przeszkodzie, by przynajmniej częstokroć, by częsty nie używał oszacowania maksymalnego prawdopodobieństwa „uregulowanego” przez log p ( θ ) , jak w:l ( θ ; x ) p ( θ ) logp ( θ )
Dla Gaussa oznacza to kwadratową karę zmniejszającą się θ w kierunku średniej Gaussa i tak dalej dla innych rozkładów. ˜ θp ( θ ) θ θ~ jest równe maksymalnemu oszacowaniu punktu a posteriori (MAP) bayesowskiego przy użyciu tej samej funkcji prawdopodobieństwa i wcześniejszej. Oczywiście ponownie interpretacja szacunków częstych i bayesowskich będzie się różnić. Bayesian nie jest również zobowiązany do korzystania z oszacowania punktu MAP, mając dostęp do pełnego rozkładu w odcinku bocznym - ale wtedy częsty nie musi również maksymalizować regularnego prawdopodobieństwa dziennika, będąc w stanie korzystać z różnych wiarygodnych oszacowań lub metody -momenty itp., jeśli są dostępne.
Ponownie trudność wynika z filozoficznego punktu widzenia. Dlaczego warto wybrać jedną funkcję regularyzacji zamiast innej? Bayesian może to zrobić - przechodząc do wcześniejszego widoku - oceniając wcześniejsze informacje. Częstotliwy miałby trudniejszy czas (nie byłby w stanie?) Uzasadnić wyboru z tych powodów, ale zamiast tego prawdopodobnie zrobiłby to w dużej mierze w oparciu o właściwości funkcji regularyzacji stosowanej do jego / jej rodzaju problemu, jak wynika z połączenia praca / doświadczenie wielu statystyk. OTOH, (pragmatyczni) Bayesianie robią to również z priors - gdybym miał 100 $ za każdy artykuł o priors za wariancje, które przeczytałem ...
Inne „myśli”: pominąłem cały problem wyboru funkcji prawdopodobieństwa, zakładając, że nie ma na nią wpływu punkt widzenia częstokrzyskiego / bayesowskiego. Jestem pewien, że w większości przypadków tak jest, ale mogę sobie wyobrazić, że w nietypowych sytuacjach byłoby to np. Z powodów obliczeniowych.
źródło
Aby odpowiedzieć na to pytanie, użyteczne jest zdefiniowanie częstości jako „interesujących właściwości rozkładu próbkowania funkcji danych”. Takimi funkcjami mogą być estymatory punktowe, wartości p statystyki testowej, przedziały ufności, wyniki testu Neymana-Pearsona lub w zasadzie wszystko, co tylko możesz wymyślić. Częstotliwość nie określa, w jaki sposób konstruować estymatory, wartości p itp. W pełnej ogólności, chociaż istnieją pewne wytyczne, np. Stosować wystarczającą statystykę, jeśli są one dostępne, używać statystyki zasadniczej, jeśli są dostępne itp. Z tego perspektywicznym, przed informacje nie są włączone do modelu jako takiego , ale w funkcji mapowania danych na wyjściu funkcji.
„Zainteresowanie”, o którym mowa powyżej, dotyczy właściwości uważanych za ważne dla wnioskowania, takich jak brak uprzedzeń, asymptotyczna spójność, wariancja, średni błąd kwadratu, średni błąd bezwzględny, zakres pewności (szczególnie nominalny w porównaniu do rzeczywistego), kontrola błędów typu I i cokolwiek innego inne z oczywistym lub intuicyjnym znaczeniem dla uczenia się z danych. Właściwości te można ocenić (symulując, jeśli nic więcej), czy funkcja zawiera wcześniejsze informacje.
Szczególne zainteresowanie koncentruje się na właściwościach, o których wiadomo, że zachowują je niezależnie od rzeczywistych wartości parametrów leżących u podstaw procesu generowania danych. Na przykład w normalnym modelu iid ze znaną wariancją średnia danych jest obiektywna i asymptotycznie spójna dla średniej rozkładu bez względu na to, co to jest. Natomiast estymator skurczu (średnia ważona średniej danych i wcześniejsze przypuszczenie średniej rozkładu) ma niższy średni błąd kwadratu, jeśli średnia rozkładu jest zbliżona do poprzedniej domysły, ale w przeciwnym razie wyższy średni błąd kwadratu, chociaż „ dziedziczy „asymptotyczną spójność ze średniej danych.
Powiedziałbym więc, że można wprowadzić wcześniejsze informacje do metody wnioskowania, ale nie wchodzi ona do modelu. Naprawdę ładną ilustracją pojęć, które nakreśliłem w kontekście przedziałów ufności dla właściwości fizycznych, które z konieczności są nieujemne, jest Feldman i Cousins, ujednolicone podejście do klasycznej analizy statystycznej małych sygnałów .
źródło