Jeśli użyjesz oceny punktowej, która maksymalizuje

12

Gdyby ktoś powiedział

„Ta metoda wykorzystuje MLE do oszacowania punktowego parametru, który maksymalizuje , dlatego jest częsty; a ponadto nie jest bayesowski.”P(x|θ)

zgodziłbyś się?

  • Aktualizacja w tle : Niedawno przeczytałem artykuł, który twierdzi, że jest częsty. Nie zgadzam się z ich twierdzeniem, w najlepszym razie uważam, że jest to niejednoznaczne. Artykuł nie wspomina wyraźnie ani o MLE (ani o MAP ). Po prostu dokonują oszacowania punktowego i po prostu postępują tak, jakby to oszacowanie punktowe było prawdziwe. Oni nieprzeprowadzić analizę rozkładu próbkowania tego estymatora lub coś podobnego; model jest dość złożony i dlatego taka analiza prawdopodobnie nie jest możliwa. W żadnym momencie nie używają też słowa „posterior”. Po prostu biorą ten szacunek punktu za wartość nominalną i przechodzą do głównego interesującego tematu - wnioskowania o brakujących danych. Nie sądzę, by w ich podejściu było coś, co sugerowałoby ich filozofię. Być może zamierzali być częstymi (ponieważ czują się zobowiązani do noszenia swojej filozofii na rękawie), ale ich rzeczywiste podejście jest dość proste / wygodne / leniwe / niejednoznaczne. Skłaniam się teraz do stwierdzenia, że ​​badania tak naprawdę nie mają żadnej filozofii; zamiast tego myślę, że ich postawa była bardziej pragmatyczna lub wygodniejsza:

    „Obserwowałem dane i chcę oszacować pewne brakujące dane, . Istnieje parametr który kontroluje związek między i . Tak naprawdę nie dbam o chyba że jako środek do celu Jeśli mam oszacowanie dla , łatwiej przewidzieć od . Wybiorę oszacowanie punktowe dla ponieważ jest to wygodne, w szczególności wybiorę która maksymalizuje . "oo θ oo x θ θ oo x θ θ P ( x | θ )xzθzxθθzxθθ^P(x|θ)

Idea obiektywnego estymatora jest wyraźnie koncepcją Frequentist. Wynika to z faktu, że nie warunkuje danych i opisuje dobrą właściwość (bezstronność), która zachowa wszystkie wartości parametru.

W metodach bayesowskich role danych i parametru są w pewnym sensie odwrócone. W szczególności uzależniamy teraz obserwowane dane i przechodzimy do wnioskowania na temat wartości parametru. To wymaga uprzedniego.

Jak dotąd tak dobrze, ale gdzie mieści się w tym MLE (oszacowanie maksymalnego prawdopodobieństwa)? Mam wrażenie, że wiele osób uważa, że ​​jest to Frequentist (a dokładniej, że nie jest to Bayesian). Ale czuję, że jest to Bayesian, ponieważ polega na pobraniu zaobserwowanych danych, a następnie znalezieniu parametru maksymalizującego . MLE domyślnie używa jednolitego uprzedniego warunku danych i maksymalizuje . Czy można uczciwie powiedzieć, że MLE wygląda zarówno na częstego, jak i bayesowskiego? Czy też każde proste narzędzie musi należeć dokładnie do jednej z tych dwóch kategorii?P ( p a r a m e t e r | d a t a )P(data|parameter)P(parameter|data)

MLE jest spójny, ale uważam, że spójność można przedstawić jako ideę bayesowską. Biorąc pod uwagę arbitralnie duże próbki, oszacowanie jest zbieżne z poprawną odpowiedzią. Stwierdzenie „oszacowanie będzie równe wartości rzeczywistej” obowiązuje dla wszystkich wartości parametru. Interesujące jest to, że to stwierdzenie jest prawdziwe, jeśli warunkujesz obserwowane dane, co czyni je Bayesowskim. To ciekawe, oprócz MLE, ale nie bezstronnego estymatora.

Właśnie dlatego uważam, że MLE jest „najbardziej bayesowską” metodą, którą można by określić jako częsty.

W każdym razie większość właściwości Frequentist (takich jak obiektywizm) ma zastosowanie we wszystkich przypadkach, w tym skończonych wielkościach próbek. Fakt, że spójność zachodzi tylko w niemożliwym scenariuszu (nieskończona próbka w ramach jednego eksperymentu) sugeruje, że spójność nie jest tak przydatną własnością.

Biorąc pod uwagę realistyczną (tj. Skończoną) próbkę, czy istnieje właściwość Frequentist, która odnosi się do MLE? Jeśli nie, MLE nie jest tak naprawdę częsty.

Aaron McDaid
źródło
6
MLE nie może być uważany za bayesowski, zaczynając od interpretacji parametrów w obu paradygmatach. Z perspektywy Bayesa parametr jest zmienną losową, podczas gdy w ustawieniu klasycznym jest wartością, którą należy oszacować. MLE pokrywa się z MAP (i ewentualnie innymi punktowymi estymatorami bayesowskimi) w wielu przypadkach, ale interpretacja jest zupełnie inna.
3
@ Procrastinator, powinieneś opublikować swój komentarz jako odpowiedź. Nie oczekuję, że jeszcze go poprę lub zaakceptuję, ale po prostu czuję, że twój komentarz jest odpowiedzią. Następnie ty i ja możemy usunąć nasze komentarze tutaj.
Aaron McDaid
1
Nie rozumiem tego pytania. (Mogę być w tym sam). Dokładnie, co masz na myśli mówiąc „częsty”? „Nie bayesowski” nie da rady, ponieważ obejmuje on szeroki zakres filozofii i metod. Co czyni coś „własnością częstych”? Czy w ogóle istnieje związek między twoim „częstym” a, powiedzmy, Abrahamem Waldem lub Jackiem Kieferem, który uzasadnia procedury statystyczne zasadami teoretycznymi decyzji? (W szczególności Kiefer miał dość krytyczną opinię na temat MLE na tej podstawie.)
whuber
3
@whuber: Nie jesteś sam. Jeden głos do zamknięcia należy do mnie i został wydany dzień lub dwa lata temu. To pytanie nie ma pewnej jasności i skupienia, a granice są mało konstruktywne ze względu na jego dyskursywne i nieco polemiczne kadrowanie, moim zdaniem.
kardynał
1
Moderatorzy niechętnie zamykają ten wątek, ponieważ zebrał wiele odpowiedzi (w tym jedną, która została zaakceptowana!) I komentarzy, co sugeruje, że społeczność może nie zgodzić się z twoją nową oceną tego wątku, Aaron.
whuber

Odpowiedzi:

7

Czy też każde proste narzędzie musi należeć dokładnie do jednej z tych dwóch kategorii?

Nie. Proste (i nie tak proste narzędzia) można badać z wielu różnych punktów widzenia. Sama funkcja prawdopodobieństwa jest kamieniem węgielnym zarówno w statystyce bayesowskiej, jak i częstokrzyskiej i można ją badać z obu punktów widzenia! Jeśli chcesz, możesz badać MLE jako przybliżone rozwiązanie Bayesa lub możesz badać jego właściwości za pomocą teorii asymptotycznej, w częsty sposób.

kjetil b halvorsen
źródło
4
To źle Aaron. Osoby często korzystające z danych szacują maksymalne prawdopodobieństwo i wierzą w zasadę prawdopodobieństwa. Kjetil ma rację, że funkcja prawdopodobieństwa jest kluczowym elementem zarówno bayesowskiego, jak i częstokroć podejścia do wnioskowania. Ale używają go inaczej.
Michael R. Chernick
3
Udzieliłem bardzo dobrej odpowiedzi na pytanie Aarona, ale z jakiegoś dziwnego powodu ludzie go odrzucają. Nie mogą zrozumieć, co się dzieje. Nie ma możliwości, aby oszacowanie maksymalnego prawdopodobieństwa można było zaklasyfikować jako bayesowskie, ponieważ maksymalizuje to prawdopodobieństwo i nie bierze pod uwagę wcześniejszych rozkładów!
Michael R. Chernick
4
(Właśnie usunąłem własny komentarz, staram się dodawać tylko pomocne komentarze.) Michael, nie ma sensu narzekać na opinie negatywne i nie zyskasz żadnej sympatii, mówiąc tylko: „Nie mogą zrozumieć, co jest dziać się."
Aaron McDaid
7
@Michael, czy kiedykolwiek byłeś świadkiem produktywnej pracy tam iz powrotem, która zaczyna się od „dlaczego zostałem przegłosowany”? Na pewno nie. Dlatego ja (i kilku innych członków tutaj) odradzam nawet rozpoczęcie rozmowy, niezależnie od tego, czy uważasz, że jest to uzasadnione. Jest to bezcelowe i generalnie prowadzi do długiej dyskusji poza tematem.
Makro
3
@Michael, z pewnością zgadzam się z tym, że udzielanie wyjaśnień jest powszechne i staram się to zrobić, jeśli ktoś inny nie wyraził już mojej uwagi w komentarzach. Ale jeśli dostaniesz cichą opinię, wątpię, aby poruszyć ten temat, zapoczątkuje produktywną rozmowę.
Makro
10

Podczas szacowania maksymalnego prawdopodobieństwa bierze się pod uwagę wartość oszacowania i właściwości próbkowania estymatora w celu ustalenia niepewności oszacowania wyrażonej jako przedział ufności. Myślę, że jest to ważne w odniesieniu do twojego pytania, ponieważ przedział ufności będzie generalnie zależeć od punktów próbki, które nie zostały zaobserwowane, co niektórzy wydają się zasadniczo niebayesowską właściwością.

PS Jest to związane z bardziej ogólnym faktem, że oszacowanie maksymalnej wiarygodności (punkt + interwał) nie spełnia zasady wiarygodności , podczas gdy pełna („ styl Savage'a ”) analiza bayesowska spełnia.

Zen
źródło
+1. Pomysł, że obcięta normalna spowoduje inny tył jest interesujący i zaskakujący! Skomentowałem, że jestem sceptyczny, ale usunąłem ten komentarz. Muszę o tym jeszcze trochę pomyśleć. Zwykle uważam, że Zasada Wiarygodności jest „oczywiście prawdziwa”, więc powinienem się nad tym trochę zastanowić.
Aaron McDaid
Dobra uwaga Zen. Myślę, że jako punktowy szacunek oszacowanie maksymalnego prawdopodobieństwa jest zgodne z zasadą prawdopodobieństwa, ale częste pojęcie przedziałów ufności nie.
Michael R. Chernick
@Zen, nie jestem przekonany, że plakaty są takie same. Czy masz na to referencje? Utworzyłem Dokument Google z moim argumentem, że tylny zmieni się, gdy zastąpimy normalny obciętą normalną. Z góry dziękuję.
Aaron McDaid
6

Funkcja prawdopodobieństwa to funkcja, która obejmuje dane i nieznane parametry. Można to postrzegać jako gęstość prawdopodobieństwa obserwowanych danych, biorąc pod uwagę wartość (wartości) parametru (ów). Parametry są ustalone. Zatem samo w sobie prawdopodobieństwo jest pojęciem częstym. Maksymalizacja prawdopodobieństwa polega jedynie na znalezieniu konkretnej wartości parametru (parametrów), która powoduje, że prawdopodobieństwo przyjmuje maksymalną wartość. Oszacowanie maksymalnego prawdopodobieństwa jest więc częstą metodą opartą wyłącznie na danych i formie modelu, który ma ją wygenerować. Oszacowanie Bayesa pojawia się tylko wtedy, gdy na parametrze (parametrach) zostanie umieszczony wcześniejszy rozkład, a wzór Bayesa zostanie wykorzystany do uzyskania rozkładu aposteriori dla parametru (ów) poprzez połączenie wcześniejszego z prawdopodobieństwem.

Michael R. Chernick
źródło
Wszystkie zamieszczone tutaj komentarze zostały przeniesione do dedykowanego pokoju rozmów . Jeśli ktoś ma trudności z dołączeniem do tego pokoju, i tylko w tym przypadku, prosimy o zwrócenie uwagi moderatora. Dalsze komentarze nie będą akceptowane.
chl
6

Zakładając, że przez „Bayesian” odwołujesz się do subiektywnego Bayesa (aka epistemicznego Bayesa, De-Finetti Bayesa), a nie do obecnego empirycznego znaczenia Bayesa - jest daleki od trywialnego. Z jednej strony wnioskujesz na podstawie samych danych. Nie ma pod ręką subiektywnych przekonań. Wydaje się to dość częste ... Ale krytyką, wyrażoną nawet u samego Fishera (surowego nie (subiektywnego) bayesowskiego), jest to, że przy wyborze próbkowania wprowadzono rozkład subiektywności danych. Parametr jest zdefiniowany tylko na podstawie naszego przekonania o procesie generowania danych.

Podsumowując - uważam, że MLE jest zwykle uważane za pojęcie częste, choć jest to tylko kwestia tego, jak zdefiniujesz „częsty” i „bayesowski”.

JohnRos
źródło
+1: Do tego chciałem dojść w powyższym komentarzu.
Neil G
1

(odpowiadając na własne pytanie)

Estymator jest funkcją, która pobiera dane i tworzy numer (lub zakres numerów). Estymator sam w sobie nie jest tak naprawdę „bayesowski” ani „częsty” - można go traktować jako czarną skrzynkę, w której liczby wchodzą i wychodzą. Możesz przedstawić ten sam estymator częstownikowi i Bayesianowi, a będą mieli różne rzeczy do powiedzenia na temat estymatora.

(Nie jestem zadowolony z mojego uproszczonego rozróżnienia między częstym a bayesowskim - są inne kwestie do rozważenia. Ale dla uproszczenia udawajmy, że są to tylko dwa dobrze zdefiniowane obozy filozoficzne.)

Nie wiadomo, czy badacz jest częstokroć badaczem bayesowskim, tylko za pomocą jakiego estymatora wybrał. Ważne jest, aby wysłuchać, jakie analizy przeprowadzają na estymatorze i jakie uzasadniają wybór tego estymatora.

θP(x|θ)

Kiedy to samo oprogramowanie jest prezentowane Bayesianowi, Bayesian może być zadowolony z dużej części analizy częstych. Tak, wszystkie inne rzeczy są równe, stronniczość nie jest dobra, a spójność jest dobra. Ale Bayesianie będą bardziej zainteresowani innymi rzeczami. Bayesian będzie chciał sprawdzić, czy estymator przyjmuje kształt jakiejś funkcji rozkładu tylnego; a jeśli tak, jaki użyto wcześniejszego? Jeśli estymator opiera się na a posteriori, Bayesian zastanawia się, czy przeor jest dobry. Jeśli są zadowoleni z wcześniejszego i jeśli estymator zgłasza tryb a posteriori (w przeciwieństwie do, powiedzmy, średniej z posteriora), chętnie zastosują tę interpretację do oszacowania: „Oszacowanie jest sednem oszacuj, która ma największe szanse na poprawność ”.

Często słyszę, jak mówi się, że osoby często występujące z Bayesa i „interpretują” rzeczy inaczej, nawet jeśli liczby są takie same. To może być trochę mylące i nie sądzę, żeby to była prawda. Ich interpretacje nie są ze sobą sprzeczne; po prostu wypowiadają się na temat różnych aspektów systemu. Odłóżmy na chwilę szacunki punktowe i rozważmy zamiast tego interwały. W szczególności istnieją częste przedziały ufności i wiarygodne przedziały bayesowskie . Zazwyczaj udzielają różnych odpowiedzi. Ale w niektórych modelach, z pewnymi priorytetami, dwa typy przedziałów dają tę samą odpowiedź liczbową.

Kiedy odstępy czasu są takie same, jak możemy je interpretować inaczej? Częstochowiec powie o estymatorze interwału:

Zanim zobaczę dane lub odpowiedni przedział, mogę powiedzieć, że istnieje co najmniej 95% prawdopodobieństwo, że prawdziwy parametr zostanie zawarty w tym przedziale.

podczas gdy Bayesian powie o estymatorze interwału:

Po wyświetleniu danych lub odpowiadającego przedziału mogę stwierdzić, że istnieje co najmniej 95% prawdopodobieństwo, że prawdziwy parametr jest zawarty w tym przedziale.

Te dwa stwierdzenia są identyczne, z wyjątkiem słów „Przed” i „Po”. Bayesian zrozumie i zgodzi się z poprzednim stwierdzeniem, a także przyzna, że ​​jego prawda jest niezależna od jakiegokolwiek wcześniejszego, co czyni go „silniejszym”. Ale mówiąc sam jako Bayesjanin, martwiłbym się, że poprzednie oświadczenie może nie być zbyt przydatne . Częste stwierdzenie nie spodoba się temu ostatniemu stwierdzeniu, ale nie rozumiem go wystarczająco dobrze, aby podać rzetelny opis jego zarzutów.

Czy po zobaczeniu danych częsty nadal będzie optymistą, czy prawdziwa wartość jest zawarta w przedziale czasowym? Może nie. Jest to nieco sprzeczne z intuicją, ale jest ważne dla prawdziwego zrozumienia przedziałów ufności i innych koncepcji opartych na rozkładzie próbkowania. Można przypuszczać, że częsty nadal powiedziałby: „Biorąc pod uwagę dane, nadal uważam, że istnieje 95% prawdopodobieństwo, że prawdziwa wartość znajduje się w tym przedziale”. Częstościowym nie tylko pytanie, czy to stwierdzenie jest prawdziwe, to oni również pytanie, czy jest sens do prawdopodobieństw atrybut w ten sposób. Jeśli masz więcej pytań na ten temat, nie pytaj mnie, ten problem jest dla mnie za duży!

Bayesian chętnie wypowiada się następująco: „Uwzględniając dane, które właśnie widziałem, prawdopodobieństwo wynosi 95%, że prawdziwa wartość mieści się w tym zakresie”.

Muszę przyznać, że jestem trochę zdezorientowany co do ostatniego punktu. Rozumiem i zgadzam się z oświadczeniem osoby często podróżującej przed zobaczeniem danych. Rozumiem i zgadzam się z oświadczeniem Bayesian po obejrzeniu danych. Nie jestem jednak pewien, co powie częsty po zobaczeniu danych; czy ich przekonania o świecie ulegną zmianie? Nie jestem w stanie zrozumieć tutaj filozofii częstych.

Aaron McDaid
źródło
1
Chociaż uważam, że wiele z tego jasnego i zapewniającego przemyślenia, wydaje się całkowicie ignorować coś fundamentalnego, jakim są różne interpretacje prawdopodobieństwa. Ponadto dwa ostatnie akapity nie dotyczą żadnej analizy lub interpretacji, którą widziałem. Rzeczywiście, nie rozpoznaję żadnego praktykującego statystyki w twoim „częstym” (który brzmi raczej jak starożytny filozof). Kto - przynajmniej po Arystotelesie - powiedział kiedykolwiek, że ich analiza danych została zakończona przed uzyskaniem danych? Czy to słaby człowiek za próbę rozwinięcia podejścia bayesowskiego?
whuber
1
@ whuber, jeśli jest to słomiany człowiek, nie jest to zamierzone. Zawsze trudno jest podjąć próbę zgłoszenia opinii innych osób bez przypadkowego uwzględnienia ich opinii. I nie twierdzę, że mam szerokie zrozumienie wielu zróżnicowanych pozycji. Spróbuję przemyśleć mój ostatni akapit. Mówisz też, że pominąłem „różne interpretacje prawdopodobieństwa”. Wolę powiedzieć nic, niż powiedzieć coś niepoprawnego. Nie można powiedzieć wszystkiego. Mogę spróbować dać ci prawdę i tylko prawdę, ale nie mogę dać ci całej prawdy :-)
Aaron McDaid
(+1) Masz rację, tutaj jest długa debata i nie można opisać wszystkich punktów w jednym poście. Głosuję za odpowiedzią za jej staranne i przemyślane przedstawienie (ale nie dlatego, że się z tym zgadzam!).
whuber
Zredagowałem kilka ostatnich akapitów, aby być bardziej sprawiedliwym; od „Po obejrzeniu danych ...”. Nie jestem ekspertem, więc staram się być szczerze niejasny, kiedy wychodzę z głębi. Dziękuję za opinię.
Aaron McDaid
1

P(x|θ)

Ben - Przywróć Monikę
źródło