W grupie studentów są 2 z 18 osób leworęcznych. Znajdź rozkład tylny studentów leworęcznych w populacji, zakładając, że uprzedni nieinformacyjny. Podsumuj wyniki. Według literatury 5-20% osób jest leworęcznych. Uwzględnij te informacje w swoim poprzednim i oblicz nowy nowy z tyłu.
Wiem, że należy tutaj użyć wersji beta . Po pierwsze, z wartościami i jako 1? Oto równanie, które znalazłem w materiale na tylną część ciała
N = 18 ,
Dlaczego jest to, że w równaniu? ( oznacza odsetek osób leworęcznych). Nie jest znane, więc jak może być w tym równaniu? Wydaje mi się niedorzeczne obliczenie dla i użycie tego równaniu dającym . Cóż, przy próbce wynik wynosił . mam wydedukować z tego?
Równanie dające oczekiwaną wartość przy znanych i działało lepiej i dało mi co brzmi właściwie. Równanie to E (r | X, N, α, β) = (α + X) / (α + β + N) o wartości 1 przypisanej do α i β . Jakie wartości powinienem podać α i β, aby uwzględnić wcześniejsze informacje?
Niektóre wskazówki byłyby bardzo mile widziane. Ogólny wykład na temat wcześniejszych i późniejszych dystrybucji również nie zaszkodziłby (ja niejasno rozumiem, czym one są, ale tylko niejasny). Pamiętaj również, że nie jestem bardzo zaawansowanym statystykiem (właściwie jestem z wykształcenia politologiem) zaawansowana matematyka prawdopodobnie przeleci nad moją głową.
Odpowiedzi:
Pozwól mi najpierw wyjaśnić, czym jest przeor koniugatu . Wyjaśnię następnie analizy bayesowskie na twoim konkretnym przykładzie. Statystyki bayesowskie obejmują następujące kroki:
Podstawą wszystkich statystyk bayesowskich jest twierdzenie Bayesa, które jest
W twoim przypadku prawdopodobieństwo jest dwumianowe. Jeśli wcześniejsze i tylne rozmieszczenie należą do tej samej rodziny, poprzednie i tylne są nazywane rozkładami sprzężonymi . Rozkład beta jest wcześniej koniugatem, ponieważ tylny jest również rozkładem beta. Mówimy, że rozkład beta jest rodziną sprzężoną dla prawdopodobieństwa dwumianowego. Analizy sprzężone są wygodne, ale rzadko występują w rzeczywistych problemach. W większości przypadków rozkład tylny należy znaleźć numerycznie za pomocą MCMC (używając Stan, WinBUGS, OpenBUGS, JAGS, PyMC lub innego programu).
Jeśli wcześniejszy rozkład prawdopodobieństwa nie integruje się z 1, nazywa się to niepoprawnym przeorem, a jeśli integruje się z 1, nazywa się to właściwym przeorem. W większości przypadków niewłaściwe przejęcie nie stanowi poważnego problemu dla analiz bayesowskich. Rozkład tylny musi być jednak prawidłowy, tzn. Tylny musi się zintegrować z 1.
Te podstawowe zasady wynikają bezpośrednio z natury procedury analizy bayesowskiej:
Doskonały przegląd niektórych możliwych „pouczających” i „nieinformacyjnych” priorów dla wersji beta można znaleźć w tym poście .
Powiedz, że Twoja poprzednia wersja beta to gdzie to odsetek osób leworęcznych. Aby określić wcześniejsze parametry i , warto znać średnią i wariancję rozkładu beta (na przykład, jeśli chcesz, aby przedtem była pewna średnia i wariancja). Średnia to . Zatem za każdym razem, gdy , średnia wynosi . Wariacją rozkładu wersji beta jest . Teraz wygodną rzeczą jest to, że możesz pomyśleć o iBeta(πLH|α,β) πLH α β π¯LH=α/(α+β) α=β 0.5 αβ(α+β)2(α+β+1) α β jak wcześniej zaobserwowano (pseudo-) dane, mianowicie leworęczni i praworęczni z (pseudo-) próbki o wielkości . Rozkład jest równomierny (wszystkie wartości są jednakowo prawdopodobne) i jest równoważny z obserwacją dwóch osób z których jeden jest leworęczny, a drugi praworęczny.α β neq=α+β Beta(πLH|α=1,β=1) πLH
Dystrybucja boczna beta to po prostu gdzie jest rozmiarem próbki, a jest liczbą osób leworęcznych w próbce. Tylna średnia z to zatem . Tak aby znaleźć parametry rozkładu a posteriori beta, możemy po prostu dodać leworęcznych do i praworęcznych do . Tylna wariancja toBeta(z+α,N−z+β) N z πLH (z+α)/(N+α+β) z α N−z β (z+α)(N−z+β)(N+α+β)2(N+α+β+1) . Zauważ, że bardzo pouczający przeor prowadzi również do mniejszej wariancji rozkładu bocznego (poniższe wykresy dobrze ilustrują ten punkt).
W twoim przypadku, i a twój przeor jest mundurem, który nie jest pouczający, więc . Twoja tylna dystrybucja to zatem . Średnia tylna to . Oto wykres, który pokazuje wcześniejsze, prawdopodobieństwo danych i tylnejz=2 N=18 α=β=1 Beta(3,17) π¯LH=3/(3+17)=0.15
Widzisz, że ponieważ twoja poprzednia dystrybucja jest nieinformacyjna, twoja tylna dystrybucja jest całkowicie napędzana przez dane. Wykreślono również interwał największej gęstości (HDI) dla rozkładu tylnego. Wyobraź sobie, że umieszczasz swój rozkład tylny w basenie 2D i zaczynasz napełniać wodą, aż 95% rozkładu znajdzie się powyżej linii wodnej. Punkty przecięcia linii wodnej z rozkładem tylnym stanowią 95% -HDI. Każdy punkt w HDI ma większe prawdopodobieństwo niż jakikolwiek punkt poza nim. Ponadto HDI zawsze zawiera pik rozkładu tylnego (tj. Tryb). HDI różni się od równego 95% wiarygodnego przedziału, w którym 2,5% z każdego ogona tylnej jest wykluczone (patrz tutaj ).
W drugim zadaniu poproszono o uwzględnienie informacji, że 5-20% populacji to osoby leworęczne. Można to zrobić na kilka sposobów. Najprościej jest powiedzieć, że poprzednia dystrybucja beta powinna mieć średnią co stanowi średnią i . Ale jak wybrać i z poprzedniej dystrybucji beta? Po pierwsze, chcesz, aby średnia z wcześniejszego rozkładu wynosiła z pseudopróbki o równoważnej wielkości próbki . Mówiąc bardziej ogólnie, jeśli chcesz, aby twój przed miał średnią wielkością pseudopróbki , odpowiedni0.125 0.05 0.2 α β 0.125 neq m neq α i to: i . Wystarczy, że wybierzesz rozmiar pseudopróbki który określa stopień pewności co do twoich wcześniejszych informacji. Powiedzmy, że jesteś bardzo pewny swoich wcześniejszych informacji i ustaw . Parametry Twojej wcześniejszej dystrybucji to: i . Rozkład tylny to ze średnią około która jest praktycznie taka sama jak poprzednia średniaβ α=mneq β=(1−m)neq neq neq=1000 α=0.125⋅1000=125 β=(1−0.125)⋅1000=875 Beta(127,891) 0.125 0.125 . Wcześniejsze informacje dominują w odcinku tylnym (patrz poniższy wykres):
Jeśli nie masz pewności co do wcześniejszych informacji, możesz ustawić swojej pseudopróbki na, powiedzmy, , co daje i dla poprzedniej dystrybucji beta. Rozkład tylny to ze średnią około . Średnia tylna jest teraz zbliżona do średniej twoich danych ( ), ponieważ dane przytłaczają wcześniejsze. Oto wykres pokazujący sytuację:neq 10 α=1.25 β=8.75 Beta(3.25,24.75) 0.116 0.111
Bardziej zaawansowaną metodą włączania wcześniejszych informacji byłoby stwierdzenie, że kwantyl twojego wcześniejszego rozkładu beta powinien wynosić około a kwantyl powinien wynosić około . Jest to równoznaczne z powiedzeniem, że masz 95% pewności, że odsetek osób leworęcznych w populacji wynosi od 5% do 20%. Funkcja w pakiecie R oblicza odpowiednie wartości i beta rozkładu beta odpowiadającego takim kwantylom. Kod jest0.025 0.05 0.975 0.2 α β
beta.select
LearnBayes
Wydaje się, że rozkład beta z parametrami i ma pożądane właściwości. Poprzednia średnia to co jest bliskie średniej twoich danych ( ). Ponownie, ta wcześniejsza dystrybucja zawiera informacje o pseudopróbce o równoważnej wielkości próbki około . Rozkład tylnej jest przy średniej która jest porównywalna ze średnią poprzedniej analizy, wykorzystując wysoce informacyjny przed. Oto odpowiedni wykres:α=7.61 β=59.13 7.61/(7.61+59.13)≈0.114 0.111 neq≈7.61+59.13≈66.74 Beta(9.61,75.13) 0.113 Beta(125,875)
Zobacz także to odniesienie, aby uzyskać krótki, ale bardzo dobry przegląd rozumowania bayesowskiego i prostej analizy. Dłuższe wprowadzenie do analiz sprzężonych, zwłaszcza danych dwumianowych, można znaleźć tutaj . Ogólne wprowadzenie do myślenia bayesowskiego można znaleźć tutaj . Więcej slajdów dotyczących aspektów statystyki baysiańskiej znajduje się tutaj .
źródło
Rozkład beta z = 1 i = 1 jest taki sam, jak rozkład jednolity. Jest to więc jednolite. Próbujesz znaleźć informacje o parametrze rozkładu (w tym przypadku procent osób leworęcznych w grupie osób). Formuła Bayesa stwierdza:α β
które wskazałeś jest proporcjonalne do:
Zasadniczo zaczynasz od wcześniejszego przekonania o odsetku osób leworęcznych w grupie (P (r), dla którego używasz jednolitego dystansu), a następnie rozważasz dane, które gromadzisz w celu poinformowania o tym przełożonego (dwumianowy w tym przypadku albo jesteś praworęczny, albo leworęczny, więc ). Rozkład dwumianowy ma wcześniej koniugat beta, co oznacza, że rozkład tylnyP(Y1,...,n|r) P(r|Y1,...n) , rozkład parametru po uwzględnieniu danych należy do tej samej rodziny, co wcześniej. r tutaj nie jest koniec nieznany. (i szczerze mówiąc, to nie było przed zebraniem danych. mamy całkiem niezły pomysł na proporcję osób leworęcznych w społeczeństwie.) Masz zarówno wcześniejszą dystrybucję (twoje założenie r) i zebrałeś dane i złóż je razem. Późniejsze jest twoje nowe założenie dotyczące podziału osób leworęcznych po uwzględnieniu danych. Więc bierzesz prawdopodobieństwo danych i mnożymy je przez mundur. Oczekiwana wartość rozkładu wersji beta (jakim jest plakat) to . Więc kiedy zacząłeś, twoje założenie z = 1 iαα+β α β = 1 było to, że odsetek leworęcznych na świecie wynosił . Teraz zebrałeś dane, które mają 2 resztki z 18. Obliczyłeś później. (wciąż beta) Twoje wartości i są teraz różne, zmieniając twoje wyobrażenie o proporcji lewaków i prawicowców. jak to się zmieniło?12 α β
źródło
W pierwszej części pytania prosi się o zdefiniowanie odpowiedniego przedimka dla „r”. Biorąc pod uwagę dane dwumianowe, rozsądnie byłoby wybrać rozkład wersji beta. Ponieważ wtedy tylna będzie wersją beta. Jednolita dystrybucja będąca szczególnym przypadkiem wersji beta, możesz wybrać wcześniej dla „r” jednolitą dystrybucję, pozwalając, aby każda możliwa wartość „r” była równie prawdopodobna.
W drugiej części podano informacje dotyczące wcześniejszej dystrybucji „r”.
Mając to pod ręką, odpowiedź @ COOLSerdash poda właściwe wskazówki.
Dziękujemy za opublikowanie tego pytania i COOLSerdash za udzielenie prawidłowej odpowiedzi.
źródło