W swojej książce „All of Statistics” prof. Larry Wasserman przedstawia następujący przykład (11.10, strona 188). Załóżmy, że mamy gęstość taką, że , gdzie jest znaną (nieujemną, całkowitą) funkcją, a stała normalizacyjna jest nieznana .g c > 0
Interesują nas te przypadki, w których nie możemy obliczyć . Na przykład może się zdarzyć, że jest pdf w bardzo wielowymiarowej przestrzeni próbki.
Powszechnie wiadomo, że istnieją techniki symulacji, które pozwalają nam pobierać próbki , mimo że jest nieznane. Zatem zagadka brzmi: jak możemy oszacować podstawie takiej próbki?
Prof Wasserman opisuje następujące rozwiązanie Bayesa niech być nieco przed dla . Prawdopodobieństwo to Dlatego tylna nie zależy od wartości próbek . Dlatego Bayesjanin nie może wykorzystywać informacji zawartych w próbce do wyciągania wniosków na temat .π ( c ∣ x ) ∝ c n π ( c ) x 1 , … , x n c
Prof. Wasserman zwraca uwagę, że „Bayesianie są niewolnikami funkcji prawdopodobieństwa. Kiedy prawdopodobieństwo pójdzie nie tak, podobnie będzie z wnioskowaniem Bayesa”.
Moje pytanie dla innych osób układających w stosy brzmi: jeśli chodzi o ten konkretny przykład, co poszło nie tak (jeśli w ogóle) w metodologii bayesowskiej?
PS Jak uprzejmie wyjaśnił prof. Wasserman w swojej odpowiedzi, przykład należy do Eda George'a.
Odpowiedzi:
Zostało to omówione w mojej pracy (opublikowanej tylko w Internecie) „Na przykładzie Larry'ego Wassermana” [ 1 ] oraz w wymianie blogów między mną, Wassermanem, Robinsem i innymi komentatorami na blogu Wassermana: [ 2 ]
Krótka odpowiedź jest taka, że Wasserman (i Robins) generują paradoksy, sugerując, że priory w przestrzeniach o dużych wymiarach „muszą” mieć cechy, które sugerują, że albo interesujący parametr jest znany z góry z całą pewnością, albo że wyraźnie istotny problem (stronniczość wyboru) wiadomo z niemal całkowitą pewnością, że nie będzie obecny. W rzeczywistości rozsądni priory nie mieliby takich cech. Jestem w trakcie pisania podsumowującego posta na blogu, aby to wspólnie narysować. Istnieje doskonały artykuł z 2007 roku, pokazujący rozsądne bayesowskie podejście do przykładów, które rozważają Wasserman i Ritov, Hamelinga i Toussaint'a: „Bayesowskie estymatory problemu Robinsa-Ritova” [ 3 ]
źródło
W tym przykładzie nie widzę wiele odwołania, szczególnie. jako potencjalna krytyka Bayesianów i prawdopodobieństwa-ścian .... Znana jest stała , równa Jeśli jest jedynym „ nieznany”w obrazie, ponieważ próbka , to nie jest żaden problem statystyczny o problemie i nie zgadzam się, że istnieją estymatory o . Ani priory na (inne niż masa Diraca dla powyższej wartości). Nie jest to co najmniej problem statystyczny, ale raczej problem liczbowy .1 / ∫ X g ( x ) d x c x 1 , … , x n c cc
To, że próbka może być wykorzystana poprzez (częste) oszacowanie gęstości w celu zapewnienia numerycznego przybliżenia jest zwykłą ciekawostką. Brak krytyki alternatywnych podejść statystycznych: mógłbym również użyć szacunku gęstości Bayesa ... cx1,…,xn c
źródło
Zgadzam się, że przykład jest dziwny. Miałem na myśli, że to naprawdę układanka. (Ten przykład jest właściwie spowodowany przez Eda George'a.)
Rodzi to pytanie, co to znaczy „być znanym”. Christian mówi, że jest znane. Ale, przynajmniej z czysto subiektywnego punktu widzenia prawdopodobieństwa, nie znasz tego tylko dlatego, że w zasadzie można go poznać. (Załóżmy, że nie można wykonać całki liczbowej.) Subiektywny Bayesian uważa wszystko za zmienną losową o rozkładzie, w tym .cc c
W każdym razie papier
(z dyskusją) traktuje zasadniczo ten sam problem.
Przykład, do którego nawiązuje Chris Sims w swojej odpowiedzi, ma zupełnie inny charakter.
źródło
Proponowany model statystyczny można opisać w następujący sposób: mieć znaną nieujemną funkcji zabudowy i nieujemne zmienną losową . Zmienne losowe powinny być warunkowo niezależne i identycznie rozmieszczone, biorąc pod uwagę, że , o gęstości warunkowej , dla .g:R→R C X1,…,Xn C=c fXi∣C(xi∣c)=cg(xi) c>0
Niestety ogólnie nie jest to prawidłowy opis modelu statystycznego. Problem polega na tym, że z definicji musi być gęstością prawdopodobieństwa dla prawie każdej możliwej wartości , co ogólnie jest wyraźnie fałszywe. W rzeczywistości jest to prawdą tylko dla pojedynczej wartości . Dlatego model jest poprawnie określony tylko w trywialnym przypadku, gdy rozkład jest skoncentrowany na tej konkretnej wartości. Oczywiście nie jesteśmy zainteresowani tą sprawą. Chcemy, aby rozkład był zdominowany przez miarę Lebesgue'a, z ładnym pdf .fXi∣C(⋅∣c) c c=(∫∞−∞g(x)dx)−1 C C π
Stąd, definiując , wyrażenie wzięte jako funkcja o , dla stałych , nie odpowiada rzeczywistej funkcji prawdopodobieństwa.x=(x1,…,xn)
Wszystko po tym dziedziczy po tym problemie. W szczególności, a posterior obliczony za pomocą twierdzenia Bayesa jest fałszywy. Łatwo to zauważyć: załóżmy, że masz prawidłową wcześniejszą Zauważ, że . Zgodnie z obliczeniami przedstawionymi w przykładzie, tylny powinien być Ale jeśli to prawda, ten tylny byłby zawsze niewłaściwy, ponieważ różni się dla każdej wielkości próbki .
Jest to niemożliwe: wiemy, że jeśli zaczniemy od właściwego uprzedniego, nasz tylny nie może być niewłaściwy dla każdej możliwej próbki (może być niewłaściwy w zestawie zerowego prawdopodobieństwa wcześniejszego przewidywania).
źródło
Przykład jest trochę dziwny i wymyślony. Prawdopodobieństwo nie powiodło się, ponieważ g jest znaną funkcją. Jedynym nieznanym parametrem jest c, który nie jest częścią prawdopodobieństwa. Ponieważ g jest znany, dane nie dają żadnych informacji na temat f. Kiedy widzisz coś takiego w praktyce? Więc tylny jest tylko proporcjonalny do przeora, a wszystkie informacje o c znajdują się w przeorze.
Dobrze, ale pomyśl o tym. Częstotliwości używają maksymalnego prawdopodobieństwa, dlatego częstokrzydzi czasami polegają również na funkcji prawdopodobieństwa. Cóż, częsty może oszacować parametry na inne sposoby. Ale ten problem z gotowaniem ma tylko jeden parametr c i nie ma informacji w danych o c. Ponieważ znany jest g, nie ma problemu statystycznego związanego z nieznanymi parametrami, które można uzyskać z okresu danych.
źródło
Jak na ironię, standardowym sposobem wykonywania obliczeń bayesowskich jest częste analizowanie próbek MCMC. W tym przykładzie możemy uznać, że jest ściśle związane z krańcowym prawdopodobieństwem, które chcielibyśmy obliczyć, ale będziemy purystami bayesowskimi w sensie próby przeprowadzenia obliczeń również w sposób bayesowski.c
Nie jest to powszechne, ale można wykonać tę całkę w ramach Bayesa. Wiąże się to z nadaniem funkcji (w praktyce proces Gaussa) oceny funkcji w niektórych punktach, uwarunkowaniem tych punktów i obliczeniem całki ponad tylną nad . W tej sytuacji prawdopodobieństwo polega na ocenie w wielu punktach, ale jest poza tym nieznane, dlatego prawdopodobieństwo jest zupełnie inne niż podane powyżej prawdopodobieństwo. Metodę przedstawiono w tym artykule http://mlg.eng.cam.ac.uk/zoubin/papers/RasGha03.pdfg() g() g() g()
Nie sądzę, żeby coś poszło nie tak z metodologią bayesowską. Prawdopodobieństwo zapisane traktuje jak wiadomo wszędzie. Gdyby tak było, nie byłoby statystycznego aspektu problemu. Jeśli zakłada się, że jest nieznany, z wyjątkiem skończonej liczby punktów, metodologia bayesowska działa dobrze.g() g()
źródło
Możemy rozszerzyć definicję możliwych wiadome (analogicznie do rozszerzenia danych pozwalających na brakujące dane dla punktu odniesienia, który był obserwowany , ale stracił) zawierać NULL (brak danych wygenerowanych).
Załóżmy, że masz poprawną wcześniejszą Teraz zdefiniuj model danych dla x
Jeślic=(∫∞−∞g(x)dx)−1
W przeciwnym raziefaXa∣C(xa∣c)=0
Zatem wartość tylna wynosiłaby 0 lub 1 (właściwa), ale prawdopodobieństwo z powyższego modelu danych nie jest dostępne (ponieważ nie można określić warunku wymaganego w modelu danych).
Więc robisz ABC.
Narysuj „c” z wcześniejszego.
Teraz przybliżmy przez pewną integrację numeryczną i zachowaj „c”, jeśli to przybliżenie - „c” <epsilon.(∫∞−∞g(x)dx)−1
Zachowane litery „c” będą przybliżeniem prawdziwego tyłu.
(Dokładność przybliżenia będzie zależeć od epsilon i wystarczalności uwarunkowania od tego przybliżenia.)
źródło
źródło