Oświadczenie: Nie jestem statystykiem, ale inżynierem oprogramowania. Większość mojej wiedzy statystycznej pochodzi z samokształcenia, dlatego wciąż mam wiele luk w zrozumieniu pojęć, które mogą wydawać się trywialne dla innych ludzi. Byłbym więc bardzo wdzięczny, gdyby odpowiedzi zawierały mniej szczegółowe warunki i więcej wyjaśnień. Wyobraź sobie, że rozmawiasz ze swoją babcią :)
Próbuję zrozumieć naturę z rozkładu beta - jaki powinien być stosowany i jak interpretować go w każdym przypadku. Gdybyśmy mówili o, powiedzmy, rozkładzie normalnym, można by to określić jako czas przyjazdu pociągu: najczęściej przyjeżdża on w samą porę, nieco rzadziej jest o 1 minutę wcześniej lub o 1 minutę spóźniony i bardzo rzadko przybywa z różnicą 20 minut od średniej. Jednolita dystrybucja opisuje w szczególności szansę każdego biletu w loterii. Rozkład dwumianowy można opisać za pomocą rzutów monetą i tak dalej. Ale czy istnieje takie intuicyjne wyjaśnienie od rozkładu beta ?
Powiedzmy, że i . Rozkład beta w tym przypadku wygląda następująco (wygenerowany w R):β = 0,5 B ( α , β )
Ale co to właściwie znaczy? Oś Y jest oczywiście gęstością prawdopodobieństwa, ale co znajduje się na osi X?
Byłbym bardzo wdzięczny za każde wyjaśnienie, z tym przykładem lub jakimkolwiek innym.
źródło
Odpowiedzi:
Krótka wersja jest taka, że rozkład Beta można rozumieć jako reprezentujący rozkład prawdopodobieństw - to znaczy reprezentuje wszystkie możliwe wartości prawdopodobieństwa, gdy nie wiemy, jakie jest to prawdopodobieństwo. Oto moje ulubione intuicyjne wyjaśnienie tego:
Każdy, kto podąża za baseballem, zna średnie z mrugnięcia - po prostu ile razy gracz dostaje trafienie podstawowe podzielone przez liczbę, w których podnosi się w nietoperzu (więc jest to tylko procent pomiędzy
0
i1
)..266
jest ogólnie uważany za średnią średnią mrugnięcia, podczas gdy.300
jest uważany za doskonały.Wyobraź sobie, że mamy baseballistę i chcemy przewidzieć, jaka będzie jego średnia sezonowa mrugnięcia. Można powiedzieć, że do tej pory możemy po prostu użyć jego średniej mrugnięcia - ale będzie to bardzo słaba miara na początku sezonu! Jeśli gracz podbije raz bat i dostanie jeden, jego średnia mrugnięcia jest na krótko
1.000
, a jeśli uderzy, jego średnia mrugnięcia wynosi0.000
. Nie poprawi się to znacznie, jeśli podejdziesz do nietoperza pięć lub sześć razy - możesz uzyskać szczęśliwą passę i uzyskać średnią1.000
, lub pechową passę i uzyskać średnią0
, z których żaden nie jest zdalnie dobrym prognostykiem tego, jak będziesz nietoperz w tym sezonie.Dlaczego twoja średnia mrugnięcia w pierwszych kilku trafieniach nie jest dobrym prognostykiem twojej ostatecznej średniej mrugnięcia? Kiedy pierwszy atak nietoperza jest strajkiem, dlaczego nikt nie przewiduje, że nigdy nie zostanie trafiony przez cały sezon? Ponieważ wchodzimy w wcześniejsze oczekiwania. Wiemy, że w historii większość średnich mrugnięć w ciągu sezonu wahała się pomiędzy czymś takim,
.215
a.360
z kilkoma wyjątkowymi wyjątkami po obu stronach. Wiemy, że jeśli gracz na początku otrzyma kilka strajków z rzędu, może to oznaczać, że skończy trochę gorzej niż przeciętnie, ale wiemy, że prawdopodobnie nie odbiega od tego zakresu.Biorąc pod uwagę nasz średni problem mrugnięcia, który można przedstawić za pomocą rozkładu dwumianowego (seria sukcesów i niepowodzeń), najlepszym sposobem przedstawienia tych wcześniejszych oczekiwań (co w statystykach nazywamy uprzednim ) jest rozkładem beta - mówi: zanim zobaczymy, jak gracz wykonuje swój pierwszy zamach, z grubsza oczekujemy, że będzie to jego średnia mrugnięcia. Domena dystrybucji Beta jest
(0, 1)
, podobnie jak prawdopodobieństwo, już wiemy, że jesteśmy na dobrej drodze - ale adekwatność Bety do tego zadania wykracza daleko poza to..27
.21
.35
Wymyśliłem te parametry z dwóch powodów:
(.2, .35)
- rozsądnego zakresu dla średniej mrugnięcia.Zapytałeś, co oś x reprezentuje na wykresie gęstości rozkładu beta - tutaj reprezentuje jego średnią mrugnięcia. Zauważ więc, że w tym przypadku oś Y nie tylko jest prawdopodobieństwem (a ściślej gęstością prawdopodobieństwa), ale także oś X (średnia uderzenia jest w końcu tylko prawdopodobieństwem trafienia)! Rozkład Beta reprezentuje rozkład prawdopodobieństwa prawdopodobieństw .
Ale oto dlaczego dystrybucja Beta jest tak odpowiednia. Wyobraź sobie, że gracz otrzymuje jedno trafienie. Jego rekord sezonu jest teraz
1 hit; 1 at bat
. Musimy następnie zaktualizować nasze prawdopodobieństwa - chcemy nieco przesunąć całą krzywą, aby odzwierciedlić nasze nowe informacje. Chociaż matematyka dla udowodnienia tego jest trochę zaangażowana ( pokazano tutaj ), wynik jest bardzo prosty . Nowa dystrybucja Beta będzie:Zauważ, że prawie się nie zmienił - zmiana jest rzeczywiście niewidoczna gołym okiem! (To dlatego, że jedno trafienie tak naprawdę nic nie znaczy).
Zauważ, że krzywa jest teraz zarówno cieńsza, jak i przesunięta w prawo (wyższa średnia mrugnięcia) niż kiedyś - lepiej rozumiemy, jaka jest średnia mrugnięcia gracza.
Zatem rozkład Beta najlepiej nadaje się do reprezentowania rozkładu prawdopodobieństwa - przypadek, w którym nie wiemy z góry, jakie jest prawdopodobieństwo, ale mamy pewne uzasadnione domysły.
źródło
Dystrybucja Beta służy do modelowania rzeczy, które mają ograniczony zakres, jak 0 do 1.
Przykładami są prawdopodobieństwo sukcesu w eksperymencie mającym tylko dwa wyniki, takie jak sukces i porażka. Jeśli wykonasz ograniczoną liczbę eksperymentów, a niektóre zakończą się sukcesem, możesz przedstawić to, co powiesz na podstawie wersji beta.
Innym przykładem są statystyki zamówień . Na przykład, jeśli wygenerujesz kilka (powiedzmy 4) jednolitych 0,1 liczb losowych i posortujesz je, jaki jest rozkład trzeciej?
Więcej o tym ...
źródło
Ten wynik pokazuje, że rozkłady Beta naturalnie pojawiają się w matematyce i mają kilka interesujących zastosowań w matematyce.
źródło
Istnieją dwie główne motywacje:
Po pierwsze, rozkład beta jest sprzężony przed rozkładem Bernoulliego. Oznacza to, że jeśli masz nieznane prawdopodobieństwo, takie jak stronniczość monety, którą szacujesz za pomocą powtarzanych rzutów monetą, wówczas prawdopodobieństwo wywołane przez nieznane stronniczość przez sekwencję rzutów monetą jest rozkładem beta.
Dystrybucja beta nie jest szczególna do ogólnego modelowania rzeczy powyżej [0,1], ponieważ wiele dystrybucji można obciąć do tego wsparcia i w wielu przypadkach są bardziej odpowiednie.
źródło
Załóżmy, że sprzedawca na stronie e-commerce otrzymuje 500 ocen, z czego 400 jest dobrych, a 100 złych.
Naiwna jakość pod względem ocen sprzedawcy wynosi 80%, ponieważ 0,8 = 400 / 500. Ale „prawdziwej” jakości pod względem ocen nie znamy.
http://www.joyofdata.de/blog/an-intuitive-interpretation-of-the-beta-distribution/
źródło
Do tej pory przewaga odpowiedzi obejmowała uzasadnienie generowania RV Beta jako pierwszeństwa dla proporcji próbki, a jedna sprytna odpowiedź wiązała RV Beta z porządkowaniem statystyk.
Rozkłady beta powstają również z prostej zależności między dwoma RV Gamma (k_i, 1), i = 1,2 nazywają je X i Y. X / (X + Y) ma rozkład Beta.
RV Gamma mają już swoje uzasadnienie w modelowaniu czasów przyjazdu dla niezależnych zdarzeń, więc nie zajmę się tym, ponieważ nie jest to twoje pytanie. Ale „ułamek czasu” spędzony na wykonaniu jednego z dwóch zadań wykonanych po kolei naturalnie nadaje się do dystrybucji Beta.
źródło
źródło
W cytowanym przykładzie parametry to alfa = 81 i beta = 219 z poprzedniego roku [81 trafień w 300 u nietoperzy lub (81 i 300 - 81 = 219)]
Nie wiem, jak nazywają wcześniejsze założenie 81 trafień i 219 outsów, ale w języku angielskim to założenie a priori.
Zwróć uwagę, jak w trakcie sezonu krzywa przesuwa się w lewo lub w prawo, a prawdopodobieństwo modalne przesuwa się w lewo lub w prawo, ale nadal istnieje krzywa.
Zastanawiam się, czy Laa Dużych Liczb w końcu się trzyma i obniża średnią mrugnięcia z powrotem do.
Aby oszacować ogólnie alfa i beta, należy wziąć pełną liczbę wcześniejszych wystąpień (u nietoperzy), znaną średnią mrugnięcia, uzyskać całkowitą liczbę trafień (alfa), beta lub sumę całkowitą minus porażki) i voila - masz swoją formułę. Następnie przeprowadź dodatkowe dane, jak pokazano.
źródło
Nawiasem mówiąc, co słychać, jeśli otrzymujesz rozkład wielkości z obserwacji mikroskopowej i masz rozkład cząstek w liczbie, a Twoim celem jest praca z rozkładem objętości? Prawie obowiązkowe jest uzyskanie pierwotnego rozkładu liczbowego ograniczonego po prawej stronie. Tak więc transformacja jest bardziej spójna, ponieważ masz pewność, że w nowym rozkładzie objętości nie pojawi się żaden tryb, ani mediana, ani średni rozmiar poza przedziałem czasu pracy. Poza tym unikasz efektu grenlandzkiej Afryki.
Transformacja jest bardzo łatwa, jeśli masz regularne kształty, np. Kulę lub pryzmat. Należy dodać trzy jednostki do parametru alfa rozkładu liczbowego beta i uzyskać rozkład objętości.
źródło
Myślę, że za dystrybucją beta NIE MA intuicji! Dystrybucja beta jest po prostu bardzo elastyczną dystrybucją z asortymentem FIX! A dla liczb całkowitych a i b jest nawet łatwo sobie poradzić. Wiele specjalnych przypadków wersji beta ma swoje natywne znaczenie, takie jak jednolity rozkład. Więc jeśli dane muszą być modelowane w ten sposób lub z nieco większą elastycznością, to beta jest bardzo dobrym wyborem.
źródło
W innym pytaniu dotyczącym dystrybucji wersji beta przedstawiono następującą intuicję stojącą za wersją beta:
Aby uzyskać szczegółowe informacje, sprawdź pełną odpowiedź na https://stats.stackexchange.com/a/429754/142758
źródło