Gdyby ktoś powiedział
„Ta metoda wykorzystuje MLE do oszacowania punktowego parametru, który maksymalizuje , dlatego jest częsty; a ponadto nie jest bayesowski.”
zgodziłbyś się?
- Aktualizacja w tle : Niedawno przeczytałem artykuł, który twierdzi, że jest częsty. Nie zgadzam się z ich twierdzeniem, w najlepszym razie uważam, że jest to niejednoznaczne. Artykuł nie wspomina wyraźnie ani o MLE (ani o MAP ). Po prostu dokonują oszacowania punktowego i po prostu postępują tak, jakby to oszacowanie punktowe było prawdziwe. Oni nieprzeprowadzić analizę rozkładu próbkowania tego estymatora lub coś podobnego; model jest dość złożony i dlatego taka analiza prawdopodobnie nie jest możliwa. W żadnym momencie nie używają też słowa „posterior”. Po prostu biorą ten szacunek punktu za wartość nominalną i przechodzą do głównego interesującego tematu - wnioskowania o brakujących danych. Nie sądzę, by w ich podejściu było coś, co sugerowałoby ich filozofię. Być może zamierzali być częstymi (ponieważ czują się zobowiązani do noszenia swojej filozofii na rękawie), ale ich rzeczywiste podejście jest dość proste / wygodne / leniwe / niejednoznaczne. Skłaniam się teraz do stwierdzenia, że badania tak naprawdę nie mają żadnej filozofii; zamiast tego myślę, że ich postawa była bardziej pragmatyczna lub wygodniejsza:
„Obserwowałem dane i chcę oszacować pewne brakujące dane, . Istnieje parametr który kontroluje związek między i . Tak naprawdę nie dbam o chyba że jako środek do celu Jeśli mam oszacowanie dla , łatwiej przewidzieć od . Wybiorę oszacowanie punktowe dla ponieważ jest to wygodne, w szczególności wybiorę która maksymalizuje . "oo θ oo x θ θ oo x θ θ P ( x | θ )
W metodach bayesowskich role danych i parametru są w pewnym sensie odwrócone. W szczególności uzależniamy teraz obserwowane dane i przechodzimy do wnioskowania na temat wartości parametru. To wymaga uprzedniego.
Jak dotąd tak dobrze, ale gdzie mieści się w tym MLE (oszacowanie maksymalnego prawdopodobieństwa)? Mam wrażenie, że wiele osób uważa, że jest to Frequentist (a dokładniej, że nie jest to Bayesian). Ale czuję, że jest to Bayesian, ponieważ polega na pobraniu zaobserwowanych danych, a następnie znalezieniu parametru maksymalizującego . MLE domyślnie używa jednolitego uprzedniego warunku danych i maksymalizuje . Czy można uczciwie powiedzieć, że MLE wygląda zarówno na częstego, jak i bayesowskiego? Czy też każde proste narzędzie musi należeć dokładnie do jednej z tych dwóch kategorii?P ( p a r a m e t e r | d a t a )
MLE jest spójny, ale uważam, że spójność można przedstawić jako ideę bayesowską. Biorąc pod uwagę arbitralnie duże próbki, oszacowanie jest zbieżne z poprawną odpowiedzią. Stwierdzenie „oszacowanie będzie równe wartości rzeczywistej” obowiązuje dla wszystkich wartości parametru. Interesujące jest to, że to stwierdzenie jest prawdziwe, jeśli warunkujesz obserwowane dane, co czyni je Bayesowskim. To ciekawe, oprócz MLE, ale nie bezstronnego estymatora.
Właśnie dlatego uważam, że MLE jest „najbardziej bayesowską” metodą, którą można by określić jako częsty.
W każdym razie większość właściwości Frequentist (takich jak obiektywizm) ma zastosowanie we wszystkich przypadkach, w tym skończonych wielkościach próbek. Fakt, że spójność zachodzi tylko w niemożliwym scenariuszu (nieskończona próbka w ramach jednego eksperymentu) sugeruje, że spójność nie jest tak przydatną własnością.
Biorąc pod uwagę realistyczną (tj. Skończoną) próbkę, czy istnieje właściwość Frequentist, która odnosi się do MLE? Jeśli nie, MLE nie jest tak naprawdę częsty.
źródło
Odpowiedzi:
Nie. Proste (i nie tak proste narzędzia) można badać z wielu różnych punktów widzenia. Sama funkcja prawdopodobieństwa jest kamieniem węgielnym zarówno w statystyce bayesowskiej, jak i częstokrzyskiej i można ją badać z obu punktów widzenia! Jeśli chcesz, możesz badać MLE jako przybliżone rozwiązanie Bayesa lub możesz badać jego właściwości za pomocą teorii asymptotycznej, w częsty sposób.
źródło
Podczas szacowania maksymalnego prawdopodobieństwa bierze się pod uwagę wartość oszacowania i właściwości próbkowania estymatora w celu ustalenia niepewności oszacowania wyrażonej jako przedział ufności. Myślę, że jest to ważne w odniesieniu do twojego pytania, ponieważ przedział ufności będzie generalnie zależeć od punktów próbki, które nie zostały zaobserwowane, co niektórzy wydają się zasadniczo niebayesowską właściwością.
PS Jest to związane z bardziej ogólnym faktem, że oszacowanie maksymalnej wiarygodności (punkt + interwał) nie spełnia zasady wiarygodności , podczas gdy pełna („ styl Savage'a ”) analiza bayesowska spełnia.
źródło
Funkcja prawdopodobieństwa to funkcja, która obejmuje dane i nieznane parametry. Można to postrzegać jako gęstość prawdopodobieństwa obserwowanych danych, biorąc pod uwagę wartość (wartości) parametru (ów). Parametry są ustalone. Zatem samo w sobie prawdopodobieństwo jest pojęciem częstym. Maksymalizacja prawdopodobieństwa polega jedynie na znalezieniu konkretnej wartości parametru (parametrów), która powoduje, że prawdopodobieństwo przyjmuje maksymalną wartość. Oszacowanie maksymalnego prawdopodobieństwa jest więc częstą metodą opartą wyłącznie na danych i formie modelu, który ma ją wygenerować. Oszacowanie Bayesa pojawia się tylko wtedy, gdy na parametrze (parametrach) zostanie umieszczony wcześniejszy rozkład, a wzór Bayesa zostanie wykorzystany do uzyskania rozkładu aposteriori dla parametru (ów) poprzez połączenie wcześniejszego z prawdopodobieństwem.
źródło
Zakładając, że przez „Bayesian” odwołujesz się do subiektywnego Bayesa (aka epistemicznego Bayesa, De-Finetti Bayesa), a nie do obecnego empirycznego znaczenia Bayesa - jest daleki od trywialnego. Z jednej strony wnioskujesz na podstawie samych danych. Nie ma pod ręką subiektywnych przekonań. Wydaje się to dość częste ... Ale krytyką, wyrażoną nawet u samego Fishera (surowego nie (subiektywnego) bayesowskiego), jest to, że przy wyborze próbkowania wprowadzono rozkład subiektywności danych. Parametr jest zdefiniowany tylko na podstawie naszego przekonania o procesie generowania danych.
Podsumowując - uważam, że MLE jest zwykle uważane za pojęcie częste, choć jest to tylko kwestia tego, jak zdefiniujesz „częsty” i „bayesowski”.
źródło
(odpowiadając na własne pytanie)
Estymator jest funkcją, która pobiera dane i tworzy numer (lub zakres numerów). Estymator sam w sobie nie jest tak naprawdę „bayesowski” ani „częsty” - można go traktować jako czarną skrzynkę, w której liczby wchodzą i wychodzą. Możesz przedstawić ten sam estymator częstownikowi i Bayesianowi, a będą mieli różne rzeczy do powiedzenia na temat estymatora.
(Nie jestem zadowolony z mojego uproszczonego rozróżnienia między częstym a bayesowskim - są inne kwestie do rozważenia. Ale dla uproszczenia udawajmy, że są to tylko dwa dobrze zdefiniowane obozy filozoficzne.)
Nie wiadomo, czy badacz jest częstokroć badaczem bayesowskim, tylko za pomocą jakiego estymatora wybrał. Ważne jest, aby wysłuchać, jakie analizy przeprowadzają na estymatorze i jakie uzasadniają wybór tego estymatora.
Kiedy to samo oprogramowanie jest prezentowane Bayesianowi, Bayesian może być zadowolony z dużej części analizy częstych. Tak, wszystkie inne rzeczy są równe, stronniczość nie jest dobra, a spójność jest dobra. Ale Bayesianie będą bardziej zainteresowani innymi rzeczami. Bayesian będzie chciał sprawdzić, czy estymator przyjmuje kształt jakiejś funkcji rozkładu tylnego; a jeśli tak, jaki użyto wcześniejszego? Jeśli estymator opiera się na a posteriori, Bayesian zastanawia się, czy przeor jest dobry. Jeśli są zadowoleni z wcześniejszego i jeśli estymator zgłasza tryb a posteriori (w przeciwieństwie do, powiedzmy, średniej z posteriora), chętnie zastosują tę interpretację do oszacowania: „Oszacowanie jest sednem oszacuj, która ma największe szanse na poprawność ”.
Często słyszę, jak mówi się, że osoby często występujące z Bayesa i „interpretują” rzeczy inaczej, nawet jeśli liczby są takie same. To może być trochę mylące i nie sądzę, żeby to była prawda. Ich interpretacje nie są ze sobą sprzeczne; po prostu wypowiadają się na temat różnych aspektów systemu. Odłóżmy na chwilę szacunki punktowe i rozważmy zamiast tego interwały. W szczególności istnieją częste przedziały ufności i wiarygodne przedziały bayesowskie . Zazwyczaj udzielają różnych odpowiedzi. Ale w niektórych modelach, z pewnymi priorytetami, dwa typy przedziałów dają tę samą odpowiedź liczbową.
Kiedy odstępy czasu są takie same, jak możemy je interpretować inaczej? Częstochowiec powie o estymatorze interwału:
podczas gdy Bayesian powie o estymatorze interwału:
Te dwa stwierdzenia są identyczne, z wyjątkiem słów „Przed” i „Po”. Bayesian zrozumie i zgodzi się z poprzednim stwierdzeniem, a także przyzna, że jego prawda jest niezależna od jakiegokolwiek wcześniejszego, co czyni go „silniejszym”. Ale mówiąc sam jako Bayesjanin, martwiłbym się, że poprzednie oświadczenie może nie być zbyt przydatne . Częste stwierdzenie nie spodoba się temu ostatniemu stwierdzeniu, ale nie rozumiem go wystarczająco dobrze, aby podać rzetelny opis jego zarzutów.
Czy po zobaczeniu danych częsty nadal będzie optymistą, czy prawdziwa wartość jest zawarta w przedziale czasowym? Może nie. Jest to nieco sprzeczne z intuicją, ale jest ważne dla prawdziwego zrozumienia przedziałów ufności i innych koncepcji opartych na rozkładzie próbkowania. Można przypuszczać, że częsty nadal powiedziałby: „Biorąc pod uwagę dane, nadal uważam, że istnieje 95% prawdopodobieństwo, że prawdziwa wartość znajduje się w tym przedziale”. Częstościowym nie tylko pytanie, czy to stwierdzenie jest prawdziwe, to oni również pytanie, czy jest sens do prawdopodobieństw atrybut w ten sposób. Jeśli masz więcej pytań na ten temat, nie pytaj mnie, ten problem jest dla mnie za duży!
Bayesian chętnie wypowiada się następująco: „Uwzględniając dane, które właśnie widziałem, prawdopodobieństwo wynosi 95%, że prawdziwa wartość mieści się w tym zakresie”.
Muszę przyznać, że jestem trochę zdezorientowany co do ostatniego punktu. Rozumiem i zgadzam się z oświadczeniem osoby często podróżującej przed zobaczeniem danych. Rozumiem i zgadzam się z oświadczeniem Bayesian po obejrzeniu danych. Nie jestem jednak pewien, co powie częsty po zobaczeniu danych; czy ich przekonania o świecie ulegną zmianie? Nie jestem w stanie zrozumieć tutaj filozofii częstych.
źródło
źródło