Czy ktoś może dobrze podsumować różnice między bayesowskim a częstym podejściem do prawdopodobieństwa?
Z tego co rozumiem:
Częstotliwość uważa, że dane są powtarzalną próbą losową (zmienną losową) o określonej częstotliwości / prawdopodobieństwie (która jest zdefiniowana jako względna częstotliwość zdarzenia, gdy liczba prób zbliża się do nieskończoności). Podstawowe parametry i prawdopodobieństwa pozostają stałe podczas tego powtarzalnego procesu, a zmiana jest spowodowana zmiennością a nie rozkładem prawdopodobieństwa (który jest ustalony dla określonego zdarzenia / procesu).
Bayesowski widok jest taki, że dane są stałe, podczas gdy częstotliwość / prawdopodobieństwo dla określonego zdarzenia może ulec zmianie, co oznacza, że parametry rozkładu ulegają zmianie. W efekcie otrzymane dane zmieniają wcześniejszą dystrybucję parametru, który jest aktualizowany dla każdego zestawu danych.
Wydaje mi się, że częste podejście jest bardziej praktyczne / logiczne, ponieważ wydaje się rozsądne, że zdarzenia mają określone prawdopodobieństwo i że zmienność jest w naszym dobraniu próby.
Co więcej, większość analiz danych z badań jest zwykle przeprowadzana przy użyciu podejścia częstokroć (tj. Przedziały ufności, testowanie hipotez z wartościami p itp.), Ponieważ jest to łatwe do zrozumienia.
Zastanawiałem się tylko, czy ktokolwiek mógłby mi szybko podsumować swoją interpretację podejścia bayesowskiego vs. częstokrzyskiego, w tym bayesowskie równoważniki statystyczne częstości p i przedziału ufności. Ponadto doceniono konkretne przykłady, w których 1 metoda byłaby lepsza od drugiej.
Odpowiedzi:
W podejściu częstokrzyskim stwierdza się, że jedynym sensem, w którym prawdopodobieństwa mają znaczenie, jest wartość graniczna liczby sukcesów w sekwencji prób, tj.
gdzie to liczba sukcesów, a to liczba prób. W szczególności nie ma sensu kojarzenie rozkładu prawdopodobieństwa z parametrem .k n
Na przykład rozważmy próbki z rozkładu Bernoulliego z parametrem (tzn. Mają wartość 1 z prawdopodobieństwem i 0 z prawdopodobieństwem ). Możemy zdefiniować przykładowy wskaźnik sukcesu będzieX1,…,Xn p p 1−p
i mów o rozkładzie uwarunkowanym wartością , ale nie ma sensu odwracać pytania i zacząć mówić o rozkładzie prawdopodobieństwa zależnym od obserwowanej wartości . W szczególności oznacza to, że kiedy obliczamy przedział ufności, interpretujemy końce przedziału ufności jako zmienne losowe i mówimy o „prawdopodobieństwie, że przedział zawiera prawdziwy parametr”, a nie „prawdopodobieństwie, że parametr jest w przedziale ufności ".p^ p p p^
W podejściu bayesowskim interpretujemy rozkłady prawdopodobieństwa jako kwantyfikujące naszą niepewność co do świata. W szczególności oznacza to, że możemy teraz w znaczący sposób mówić o rozkładach prawdopodobieństwa parametrów, ponieważ chociaż parametr jest stały, nasza wiedza o jego prawdziwej wartości może być ograniczona. W powyższym przykładzie możemy odwrócić rozkład prawdopodobieństwa za pomocą prawa Bayesa, aby daćf(p^∣p)
Wadą jest to, że musimy wprowadzić wcześniejszy rozkład do naszej analizy - odzwierciedla to nasze przekonanie o wartości zanim zobaczymy rzeczywiste wartości . Rola przeora jest często krytykowana w podejściu częstokroć, ponieważ argumentuje się, że wprowadza podmiotowość w skądinąd surowy i obiektowy świat prawdopodobieństwa.p Xi
W podejściu bayesowskim nie mówi się już o przedziałach ufności, ale zamiast wiarygodnych przedziałów, które mają bardziej naturalną interpretację - biorąc pod uwagę 95% wiarygodny przedział, możemy przypisać 95% prawdopodobieństwo, że parametr znajduje się w tym przedziale.
źródło
Masz rację co do interpretacji prawdopodobieństwa częstych: losowość w tym ustawieniu wynika jedynie z niepełnego próbkowania. Z punktu widzenia bayesowskiego prawdopodobieństwa są „subiektywne”, ponieważ odzwierciedlają niepewność agenta co do świata. Nie jest słuszne stwierdzenie, że parametry rozkładów „zmieniają się”. Ponieważ nie mamy pełnych informacji o parametrach, nasza niepewność co do nich zmienia się, gdy zbieramy więcej informacji.
Obie interpretacje są przydatne w aplikacjach, a to, co jest bardziej przydatne, zależy od sytuacji. Na blogu Andrew Gelmana możesz znaleźć pomysły na temat aplikacji bayesowskich. W wielu sytuacjach, które Bayesianie nazywają „priorsami”, częstokrzyści nazywają „regularyzacją”, a więc (z mojej perspektywy) emocje mogą opuścić pokój dość szybko. W rzeczywistości, zgodnie z twierdzeniem Bernsteina-von Misesa, wnioskowanie bayesowskie i częstościowe są w rzeczywistości asymptotycznie równoważne przy raczej słabych założeniach (chociaż w szczególności twierdzenie zawodzi w przypadku rozkładów nieskończenie wymiarowych). Można znaleźć mnóstwo odniesień na ten temat tutaj .
Ponieważ poprosiłeś o interpretację: myślę, że punkt widzenia Frequentist ma duży sens podczas modelowania eksperymentów naukowych w taki sposób, w jaki został zaprojektowany. W przypadku niektórych zastosowań uczenia maszynowego lub modelowania wnioskowania indukcyjnego (lub uczenia się) prawdopodobieństwo bayesowskie ma dla mnie większy sens. Istnieje wiele sytuacji, w których modelowanie zdarzenia ze stałym „prawdziwym” prawdopodobieństwem wydaje się nieprawdopodobne.
Na przykład zabawki wracającej do Laplace , rozważ prawdopodobieństwo wschodu słońca jutro. Z perspektywy Frequentist musimy ustalić coś w rodzaju nieskończenie wielu wszechświatów, aby określić prawdopodobieństwo. Jako Bayesianie istnieje tylko jeden wszechświat (a przynajmniej nie musi ich być wiele). Nasza niepewność co do wschodu słońca jest stłumiona przez nasze bardzo, bardzo silne wcześniejsze przekonanie, że powstanie jutro.
źródło
Bayesowska interpretacja prawdopodobieństwa jest interpretacją stopnia wiary.
Bayesian może powiedzieć, że prawdopodobieństwo istnienia życia na Marsie miliard lat temu wynosi .1/2
Częstochowiec odmówi przypisania prawdopodobieństwa tej propozycji. Nie jest to coś, co można powiedzieć, że jest prawdziwe w połowie wszystkich przypadków, więc nie można przypisać prawdopodobieństwa .1/2
źródło
Chris podaje ładne, uproszczone wyjaśnienie, które właściwie rozróżnia dwa podejścia do prawdopodobieństwa. Jednak częstokroć teoria prawdopodobieństwa to coś więcej niż tylko patrzenie na długofalowy odsetek sukcesów. Uwzględniamy również dane losowo pobrane z rozkładu i oszacowujemy parametry rozkładu, takie jak średnia i wariancja, przyjmując pewne typy średnich danych (np. Dla średniej jest to średnia arytmetyczna obserwacji. Teoria częstościowa wiąże prawdopodobieństwo z oszacowaniem zwanym rozkładem próbkowania.
W teorii częstotliwości jesteśmy w stanie wykazać dla parametrów takich jak średnia, które są pobierane przez uśrednienie z próbek, że oszacowanie będzie zbieżne z parametrem prawdziwym. Rozkład próbkowania służy do opisania, jak blisko oszacowania jest do parametru dla dowolnej ustalonej wielkości próbki n. Zamknięcie jest zdefiniowane przez miarę dokładności (np. Średni błąd kwadratowy).
W Chris wskazuje na dowolny parametr, taki jak średnia Bayesa dołącza do niego wcześniejszy rozkład prawdopodobieństwa. Następnie, biorąc pod uwagę dane, reguła Bayesa jest używana do obliczenia rozkładu tylnego dla parametru. W przypadku Bayesian wszystkie wnioski na temat parametru oparte są na tym rozkładzie bocznym.
Częstokroć konstruują przedziały ufności, które są przedziałami wiarygodnych wartości parametru. Ich konstrukcja oparta jest na częstym prawdopodobieństwie, że jeśli proces zastosowany do wygenerowania przedziału zostanie powtórzony wiele razy dla niezależnych próbek, proporcja przedziałów, która faktycznie zawiera prawdziwą wartość parametru, będzie wynosić co najmniej pewien wcześniej określony poziom ufności (np. 95% ).
Bayesianie używają rozkładu a posteriori dla parametru do budowy wiarygodnych regionów. Są to po prostu regiony w przestrzeni parametrów, w których rozkład tylny jest zintegrowany, aby uzyskać określone z góry prawdopodobieństwo (np. 0,95). Wiarygodne regiony są interpretowane przez Bayesian jako regiony, które mają wysokie (np. Określone wcześniej 0,95) prawdopodobieństwo włączenia prawdziwej wartości parametru.
źródło
Z punktu widzenia „prawdziwego świata” znajduję jedną zasadniczą różnicę między częstym a klasycznym lub bayesowskim „rozwiązaniem”, które dotyczy co najmniej trzech głównych scenariuszy. Różnica w wyborze metodologii zależy od tego, czy potrzebujesz rozwiązania, na które ma wpływ prawdopodobieństwo populacyjne, czy takiego, na które wpływa indywidualne prawdopodobieństwo. Przykłady poniżej:
Jeśli istnieje znane 5% prawdopodobieństwo, że mężczyźni powyżej 40 roku życia umrą w danym roku i będą musieli płacić składki na ubezpieczenie na życie, firma ubezpieczeniowa może wykorzystać 5% LUDNOŚCI do oszacowania kosztów, ale powiedzieć, że każdy mężczyzna powyżej 40 roku życia ma 5% szansa na śmierć ... nie ma znaczenia ... Ponieważ 5% ma 100% prawdopodobieństwo śmierci - co jest częstym podejściem. Na poziomie indywidualnym zdarzenie albo występuje (prawdopodobieństwo 100%), albo nie (prawdopodobieństwo 0%) Jednak na podstawie tych ograniczonych informacji nie można przewidzieć osób, które mają 100% prawdopodobieństwo śmierci, a 5 % „uśrednionego” prawdopodobieństwa populacji jest bezużyteczne na poziomie indywidualnym.
Powyższy argument dotyczy również pożarów w budynkach, dlatego zraszacze są wymagane we wszystkich budynkach w populacji.
Oba powyższe argumenty odnoszą się również w równym stopniu do awarii systemów informatycznych, uszkodzeń lub „włamań”. Procenty populacji są bezużyteczne, dlatego należy chronić wszystkie systemy.
źródło
Wybór interpretacji zależy od pytania. Jeśli chcesz poznać szanse w grze losowej, klasyczna interpretacja rozwiąże Twój problem, ale dane statystyczne są bezużyteczne, ponieważ uczciwe kości nie mają pamięci.
Jeśli chcesz przewidzieć przyszłe wydarzenie na podstawie przeszłych doświadczeń, interpretacja częstych jest poprawna i wystarczająca.
Jeśli nie wiesz, czy zdarzenie miało miejsce w przeszłości, i chcesz oszacować prawdopodobieństwo, że miało ono miejsce, musisz wziąć swoje wcześniejsze przekonania, tj. To, co już wiesz o szansie wystąpienia zdarzenia i zaktualizować swoje przekonanie po nabyciu nowe dane.
Ponieważ pytanie dotyczy stopnia przekonania, a każda osoba może mieć inne zdanie na temat priorytetów, interpretacja jest z konieczności subiektywna, czyli Bayesowska.
źródło