Czy Bayesian przyznałby, że istnieje jedna stała wartość parametru?

39

W analizie danych bayesowskich parametry są traktowane jak zmienne losowe. Wynika to z bayesowskiej subiektywnej koncepcji prawdopodobieństwa. Ale czy Bayesianie teoretycznie uznają, że istnieje jedna prawdziwa stała wartość parametru w „prawdziwym świecie”?

Wydaje się, że oczywistą odpowiedzią jest „tak”, ponieważ wówczas próba oszacowania parametru byłaby prawie bezsensowna. Docenione byłoby cytowanie akademickie tej odpowiedzi.

ATJ
źródło
2
Podaj mi ten parametr, a ja zdefiniuję dla niego rozkład. :-)
Anne van Rossum

Odpowiedzi:

42

IMHO „tak”! Oto jeden z moich ulubionych cytatów autorstwa Grenlandii (2006: 767):

Często mówi się (niepoprawnie), że „parametry są traktowane jako ustalone przez częstego, ale tak losowe przez Bayesian”. W przypadku częstych i Bayesian wartość parametru mogła zostać ustalona od samego początku lub mogła zostać wygenerowana z fizycznie losowego mechanizmu. W obu przypadkach obaj przypuszczają, że przyjął on pewną stałą wartość, którą chcielibyśmy poznać. Bayesian stosuje formalne modele prawdopodobieństwa, aby wyrazić osobistą niepewność co do tej wartości. „Losowość” w tych modelach reprezentuje osobistą niepewność co do wartości parametru; nie jest to właściwość parametru (chociaż powinniśmy mieć nadzieję, że dokładnie odzwierciedla właściwości mechanizmów, które wytworzyły parametr).

Greenland, S. (2006). Perspektywy bayesowskie dla badań epidemiologicznych: I. Podstawy i podstawowe metody. International Journal of Epidemiology , 35 (3), 765–774.

Bernd Weiss
źródło
2
Będąc nieco sprzecznym, czy nie można argumentować, że (pozycja, pęd) cząstki jest „parametrem”, który możemy spróbować oszacować? Można argumentować, że nie ma „ustalonej” wartości tego parametru i że powinniśmy naprawdę traktować go jako rozkład. Uznawanie niewiadomych konkretnie za rozkłady, a nie stałe wartości, wydaje się być tym, co natura robi w pewnych sytuacjach. Nie sądzę, aby takie rozumowanie bardzo podobało się Bayesowi w praktyce, ale uważam, że aby w pełni odpowiedzieć na pytania PO, potrzebna jest dyskusja na temat natury losowości.
facet
3
Nie rozumiem, co jest „nieistotne” w rozważaniu dystrybucji jako celu wnioskowania. Rzeczywiście, indeksowanie rzeczy parametrami jest zresztą opcjonalne, np. Można postawić swoją niepewność, używając bezpośrednio rozkładów funkcji (patrz Neal i Williams na temat procesów Gaussa). I nie trzeba mieć żadnego szczególnego spojrzenia na „losowość”, aby przedstawić niepewność za pomocą rachunku prawdopodobieństwa. Wnioskowanie na podstawie próbek (teoria) prawdopodobnie nie potrzebują takiej teorii, ale o ile widzę bayesianizmu nie jest (lub przynajmniej nie musi być.)
conjugateprior
2
Nie zgadzam się z tym, że Bayesian zakłada, że ​​parametr ma stałą wartość i tylko ich osobista niepewność zmusza go do zdefiniowania parametru jako rozkładu, a nie punktu. Próbowałem rozwinąć tę kwestię w mojej odpowiedzi. Twoja niepewność osobista / teoretyczna jest częścią rozkładu, ale wydaje mi się, że twój model zasadniczo uśrednia zmienne, które zostały pominięte w modelu i tworzy rozkład, nawet jeśli twoje osobiste priorytety są bardzo precyzyjne.
Wayne
29

Bayesowska koncepcja prawdopodobieństwa niekoniecznie jest subiektywna (por. Jaynes). Ważnym rozróżnieniem jest tutaj to, że Bayesian próbuje określić swój stan wiedzy na temat wartości parametru, łącząc wcześniejszy rozkład jego prawdopodobnej wartości z prawdopodobieństwem, które podsumowuje informacje zawarte w niektórych spostrzeżeniach. Dlatego jako Bayesian powiedziałbym, że cieszę się z idei, że parametr ma prawdziwą wartość, która nie jest dokładnie znana, a celem rozkładu późniejszego jest podsumowanie tego, co wiem o jego prawdopodobnych wartościach, na podstawie moich wcześniejszych założeń i obserwacji.

Teraz, kiedy tworzę model, model nie jest rzeczywistością. Tak więc w niektórych przypadkach dany parametr istnieje w rzeczywistości (np. Średnia waga wombata), a w niektórych pytaniach nie (np. Prawdziwa wartość parametru regresji - model regresji jest jedynie modelem wyniku prawa fizyczne rządzące systemem, które mogą nie zostać w pełni ujęte w modelu regresji). Stwierdzenie, że w świecie rzeczywistym istnieje jedna prawdziwa stała wartość parametru, niekoniecznie musi być prawdziwe.

Z drugiej strony, sugerowałbym, że najczęściej stwierdzający twierdzą, że istnieje jedna prawdziwa wartość dla statystyki, ale oni też nie wiedzą, co to jest, ale mają estymatory i przedziały ufności dla swoich szacunków, które (w pewnym sensie ) określa ich niepewność co do wiarygodności różnych wartości (ale częstokroć pojęcie prawdopodobieństwa uniemożliwia im wyrażenie tego bezpośrednio).

Dikran Torbacz
źródło
Zawsze myślałem, że „subiektywne prawdopodobieństwa” nazywane są subiektywnymi, ponieważ odnoszą się one do właściwości podmiotu wykonującego obliczenia (tj. Jej wiedzy), a nie do właściwości obiektywnej rzeczywistości (np. Rozkład masy nie do końca uczciwych kości).
nikie
1
@nikie istnieją zasady, takie jak MaxEnt i grupy transformacji do definiowania priorów w obiektywny sposób. W takim przypadku obliczenia dają tę samą odpowiedź niezależnie od tego, kto lub co wykonuje obliczenia (robot doszedłby do tego samego wniosku). Częstotliwościowe statystyki nie są również pozbawione subiektywności, na przykład jak ustawić dla testów hipotez, ale intencją było usunięcie subiektywności ze statystyk w sensie „osobistego prawdopodobieństwa / przekonania” zamiast „stopnia wiarygodności” (IIRC) . α
Dikran Torbacz
Wiem, ale wciąż są subiektywne prawdopodobieństwa, prawda? Ponieważ wciąż opisują wiedzę badanego na temat jakiegoś parametru (który dla częstego nie byłby wcale zmienną losową)
nikie
Nie musi to być temat. Zestaw robotów lub komputerów może wykonać te same obliczenia i dojść do tego samego wniosku, bez względu na to, czy stosuje się częste, czy obiektywistyczne podejście bayesowskie. Jest stan wiedzy, niezależnie od podmiotu wykonującego obliczenia, dlatego jest to cel niż subiektywne.
Dikran Torbacz
16

W twoim głównym punkcie, w analizie danych bayesowskich (wydanie trzecie, 93), Gelman również pisze

Z punktu widzenia analizy danych bayesowskich często możemy interpretować klasyczne oszacowania punktowe jako dokładne lub przybliżone podsumowania tylne w oparciu o jakiś domyślny model pełnego prawdopodobieństwa. Na granicy dużej liczebności próby możemy w rzeczywistości zastosować teorię asymptotyczną do skonstruowania teoretycznego uzasadnienia bayesowskiego dla klasycznego wnioskowania o maksymalnym prawdopodobieństwie.

Być może więc nie Bayesianie powinni „przyznać”, że tak naprawdę istnieją pojedyncze rzeczywiste wartości parametrów, ale częstokrzyści powinni odwoływać się do statystyki bayesowskiej, aby uzasadnić swoje procedury szacunkowe! (Mówię to z językiem mocno w policzek.)

Nawiasem mówiąc, sprzeciwiam się ogólnemu stwierdzeniu, że statystyki bayesowskie opierają się na subiektywnym prawdopodobieństwie, i sugeruję, że Bayes jest subiektywny, podczas gdy inne paradygmaty wnioskowania nie są. Jest to z pewnością jeden argument, który można postawić, być może obejmujący również perspektywę argumentu „koherencji zakładów”, ale zobacz Gelman, który tutaj definiuje „Bayesian” jako statystykę, która używa rozkładu tylnego , i tutaj argumentuje przeciwko zbyt restrykcyjnym definicjom.Pr(θ|y)

Ale idea, że ​​w przyrodzie lub w systemach społecznych istnieją pojedyncze parametry, jest jedynie uproszczeniem. Może być jakiś ozdobny proces generujący obserwowalne wyniki, ale odkrycie tego systemu jest niezwykle skomplikowane; założenie, że istnieje jedna stała wartość parametru, znacznie upraszcza problem. Myślę, że to dotyczy sedna twojego pytania: Bayesianie nie powinni „przyznawać się” do tego uproszczenia bardziej niż Częstotliwi.

Przywróć Monikę
źródło
Czy mógłbyś zastanowić się, dlaczego odrzucasz wnioskowanie bayesowskie oparte na subiektywnym prawdopodobieństwie? Teksty wprowadzające, które przeczytałem (Kruschke, Lynch) wydają się w ten sposób ująć w ramy. Czy to tylko częściowo subiektywne (pochodzące z wcześniejszego)?
ATJ
@ATJ Mam nadzieję, że to wyjaśnia mój punkt widzenia. Istnieją inne argumenty, które można by wysunąć, ale prawdziwym punktem spornym było dla mnie domniemane założenie, że statystyki bayesowskie są subiektywne w sposób, w jaki inne paradygmaty nie są. Na przykład sprzeciwiłbym się charakterystyce cytatu Bernda, ponieważ faworyzowanie metody obiektywnego szacowania punktów w porównaniu z ramami tylnej zmienności wydaje się równie „osobiste”.
Przywróć Monikę
@ATJ, teksty wprowadzające opowiadają historię motywującą metody. Coś takiego jak ta historia mogło pierwotnie motywować metody. Ale to nie znaczy, że ta historia ma duży wpływ na założenia, które ludzie przyjmują, stosując te metody w praktyce. (A historia może być nonsensowna: na przykład idea, że ​​prawdopodobieństwa związane ze statystykami mogą być zdefiniowane w kategoriach częstotliwości w sposób, w jaki czasami mówią teksty wprowadzające, nie ma sensu - artykuły Alana Hajeka „15 Argumentów” Google'a Nie oznacza to, że statystyki częstokroć nie działają; mają).
Mars
8

Czy uważasz, że istnieje jeden „prawdziwy ustalony parametr” dla czegoś takiego jak wkład picia mleka we wzrost dziecka? A może dla zmniejszenia wielkości guza na podstawie ilości chemikaliów X, które wstrzykujesz do ciała pacjenta? Wybierz dowolny model, który znasz i zadaj sobie pytanie, czy naprawdę wierzysz, że istnieje jedna prawdziwa, uniwersalna, precyzyjna i stała wartość dla każdego parametru, nawet teoretycznie.

Zignoruj ​​błąd pomiaru, spójrz na swój model, jakby wszystkie pomiary były idealnie dokładne i nieskończenie precyzyjne. Biorąc pod uwagę twój model, czy uważasz, że każdy parametr ma konkretną wartość punktową?

Fakt, że masz model, oznacza, że ​​pomijasz niektóre szczegóły. Twój model będzie miał niedokładność, ponieważ uśredniasz parametry / zmienne, które pominąłeś w celu stworzenia modelu - uproszczone przedstawienie rzeczywistości. (Tak jak nie tworzysz mapy 1: 1 planety, ze wszystkimi szczegółami, ale raczej mapę 1: 10000000 lub jakieś takie uproszczenie. Mapa jest modelem).

Biorąc pod uwagę, że uśredniasz zmienne pominięte, parametrami zmiennych, które uwzględnisz w swoim modelu, będą rozkłady, a nie wartości punktowe.

To tylko część filozofii bayesowskiej - ignoruję niepewność teoretyczną, niepewność pomiaru, priory itp. - ale wydaje mi się, że pomysł, że twoje parametry mają rozkłady, ma intuicyjny sens, podobnie jak statystyki opisowe mają dystrybucja.

Wayne
źródło
6

Ale czy Bayesianie teoretycznie przyznają, że istnieje jedna prawdziwa stała wartość parametru w „prawdziwym świecie”?

Moim zdaniem odpowiedź brzmi „tak”. Istnieje nieznana wartość parametru, a wcześniejszy rozkład opisuje naszą wiedzę / niepewność na jej temat. W bayesowskim modelowaniu matematycznym uważa się za realizację zmiennej losowej po wcześniejszym rozkładzie.θ0θ0

Stéphane Laurent
źródło
Czym dokładnie jest , co oznacza ten indeks ? θ00
nbro
2

Jeśli pójdziemy w parze z bayesianizmem z deterministycznym wszechświatem (zanim powiesz coś ze słowem „kwant”, żartuj sobie i przypomnij sobie, że to nie jest fizyka. Zmiana stosu), otrzymamy ciekawe wyniki.

Wyraźnie przyjmując nasze założenia:

  1. Mamy agenta bayesowskiego będącego częścią i obserwującego deterministyczny wszechświat.
  2. Agent ma ograniczone zasoby obliczeniowe.

Teraz wszechświat deterministyczny może być takim, w którym atomy to newtonowskie małe kule bilardowe. Może być całkowicie niekwantowy. Powiedzmy, że tak.

Agent rzuca teraz uczciwą monetą. Pomyśl o tym przez chwilę, co stanowi uczciwa moneta w deterministycznym wszechświecie? Moneta o współczynniku prawdopodobieństwa 50/50?

Ale to jest deterministyczne! Przy wystarczającej mocy obliczeniowej możesz dokładnie obliczyć, w jaki sposób wyląduje moneta, wyłącznie poprzez symulację modelu monety rzucanej w ten sam sposób.

W deterministycznym wszechświecie uczciwa moneta byłaby metalowym dyskiem o jednolitej gęstości. Żadna siła nie zmusza go do spędzania więcej czasu z jedną twarzą w dół niż drugą (pomyśl o tym, jak działają ważone kości).

Agent rzuca uczciwą monetą. Jednak agent nie jest wystarczająco silny. Nie ma wystarczająco ostrych oczu, aby zmierzyć, jak moneta obraca się po obróceniu, widzi jedynie rozmycie.

I tak jest napisane: „Ta moneta trafi w głowę z 50% prawdopodobieństwem”. Brak informacji prowadzi do prawdopodobieństwa.

Możemy spojrzeć na przestrzeń fazową rzucania monetą. Duży wielowymiarowy układ współrzędnych z osiami odnoszącymi się do kierunku rzutu, siły rzutu, obrotu monety, prędkości i kierunku wiatru i tak dalej. Pojedynczy punkt w tej przestrzeni odpowiada jednemu możliwemu spinaczowi monet.

Jeśli poprosimy agenta wcześniej o pokolorowanie w układzie współrzędnych gradientem w skali szarości odpowiadającym przypisaniu przez agenta prawdopodobieństwa głów dla każdego rzutu, najbardziej pokoloruje to wszystko jednolitym odcieniem szarości.

Jeśli będziemy stopniowo udostępniać mu mocniejsze komputery wewnętrzne, za pomocą których będą obliczać prawdopodobieństwa głów, będzie w stanie tworzyć coraz bardziej wymagające kolory. Kiedy wreszcie damy mu najpotężniejszy wewnętrzny komputer, dzięki czemu będzie wszechwiedzący, skutecznie namaluje dziwną szachownicę.

Jasne monety nie są wykonane z prawdopodobieństw, są wykonane z metalu. Prawdopodobieństwa istnieją tylko w strukturach obliczeniowych. Tak mówi Bayesian.

Karl Damgaard Asmussen
źródło
-3

Istnieją niewłaściwe priory, na przykład Jeffreys, który ma pewien związek z macierzą informacji Fishera. To nie jest subiektywne.

Analityk
źródło
2
Czy mógłbyś wyjaśnić, w jaki sposób przeor Jeffreysa i jego związek z matrycą informacji Fishera oznaczają, że wnioskowanie bayesowskie nie jest subiektywne? Jak rozumiem, głównym powodem korzystania z przeora Jeffreysa jest to, że jest on niezmienny dla alternatywnych parametryzacji modelu. Ponadto w środowisku wielowymiarowym przeorat Jeffreysa może stać się wysoce informacyjny, a wyniki są kontrowersyjne (Gelman, BDA 3, s. 53). Czy podważa to jego „obiektywizm”?
Przywróć Monikę
@ user777, ponieważ jest oparty na parametrach gęstości pod ręką, jest obiektywny. Przypuśćmy, że pomnożę prawdopodobieństwo przez 1, czy przed obliczeniem prawdopodobieństwa mam wynik pośredni? Ponieważ prawdopodobieństwo tylne jest związane z wcześniejszym prawdopodobieństwem x.
Analityk
I częsty też musi odwołać się do Aksjomatu Prawdziwego Modelu, jeśli chce użyć prawdopodobieństwa ... :)
Analityk