Dystrybucja beta pojawia się w dwóch parametryzacjach (lub tutaj )
lub ten, który wydaje się być używany częściej
Ale dlaczego dokładnie jest „ ” w drugiej formule?
Pierwsze sformułowanie wydaje się intuicyjnie bardziej bezpośrednio odpowiadać rozkładowi dwumianowemu
ale „widziana” z perspektywy „s . Jest to szczególnie wyraźne w modelu beta-dwumianowym, w którym można rozumieć jako wcześniejszą liczbę sukcesów, a to wcześniejszą liczbę niepowodzeń.
Dlaczego więc druga forma zyskała popularność i jakie jest jej uzasadnienie ? Jakie są konsekwencje zastosowania dowolnej z parametryzacji (np. W połączeniu z rozkładem dwumianowym)?
Byłoby wspaniale, gdyby ktoś mógł dodatkowo wskazać pochodzenie takiego wyboru i wstępne argumenty przemawiające za nim, ale nie jest to dla mnie koniecznością.
Odpowiedzi:
To opowieść o stopniach swobody i parametrach statystycznych oraz o tym, dlaczego miło jest, że oba mają bezpośrednie proste połączenie.
Historycznie terminy „ ” pojawiły się w badaniach Eulera dotyczących funkcji Beta. Używał tej parametryzacji do 1763 roku, podobnie jak Adrien-Marie Legendre: ich użycie ustanowiło kolejną konwencję matematyczną. Ta praca poprzedza wszystkie znane zastosowania statystyczne.−1
Współczesna teoria matematyczna dostarcza wielu wskazówek, poprzez bogactwo zastosowań w analizie, teorii liczb i geometrii, że terminy „ ” faktycznie mają pewne znaczenie. Naszkicowałem niektóre z tych powodów w komentarzach do pytania.−1
Bardziej interesujące jest to, jaka powinna być „właściwa” parametryzacja statystyczna. To nie jest tak jasne i nie musi być takie samo jak konwencja matematyczna. Istnieje ogromna sieć powszechnie używanych, znanych, powiązanych ze sobą rodzin rozkładów prawdopodobieństwa. Zatem konwencje stosowane do nazwania (to znaczy parametryzacji) jednej rodziny zwykle implikują powiązane konwencje do rodzin związanych z nazwami. Zmień jedną parametryzację, a będziesz chciał je wszystkie zmienić. Możemy zatem spojrzeć na te relacje w poszukiwaniu wskazówek.
Mało kto nie zgadza się, że najważniejsze rodziny dystrybucyjne wywodzą się z rodziny Normalnej. Przypomnijmy, że zmienna losowa jest „rozkładem normalnym”, gdy ma gęstość prawdopodobieństwa proporcjonalną do . Gdy i , mówi się, że ma standardowy rozkład normalny.( X - μ ) / σ f ( x ) exp ( - x 2 / 2 ) σ = 1 μ = 0 XX (X−μ)/σ f(x) exp(−x2/2) σ=1 μ=0 X
Wiele zestawów danych jest badanych przy użyciu stosunkowo prostych statystyk obejmujących racjonalne kombinacje danych i niskie moce (zwykle kwadraty). Gdy dane te są modelowane jako losowe próbki z rozkładu normalnego - tak, że każdy jest postrzegany jako realizacja zmiennej normalnej , wszystkie mają wspólny rozkład i są niezależne - rozkłady tych statystyk są określone przez ten rozkład normalny. Najczęściej pojawiają się w praktycex i X i X ix1,x2,…,xn xi Xi Xi
t ν = n - 1 t = ˉ Xtν , rozkład Studentat z „stopniami swobody”. Jest to rozkład statystyki nazwa gdzie modeluje średnią danych i jest standardowym błędem średniej. Dzielenie przez pokazuje, że musi wynosić lub więcej, skąd jest liczbą całkowitąν=n−1 ˉ X =(X1+X2+⋯+Xn)/nse(X)=(1/√
χ 2 ν ν χ 2 1 / ν χ 2χ2ν , (chi-kwadrat) rozkładu z "stopni swobody" (DF). Jest to rozkład sumy kwadratów niezależnych standardowych zmiennych normalnych . Rozkład średniej kwadratów tych zmiennych będzie zatem skalowanym przez : będę to określać jako „znormalizowany” .χ2 ν ν χ2 1/ν χ2
F ( ν 1 , ν 2 ) χ 2 ν 1 ν 2Fν1,ν2 , Współczynnik podziału parametrów to stosunek dwóch niezależnych znormalizowane rozkładów i stopni swobody.F (ν1,ν2) χ2 ν1 ν2
Obliczenia matematyczne pokazują, że wszystkie trzy z tych rozkładów mają gęstości. Co ważne, gęstość jest proporcjonalna do całki w całkowej definicji Eulera funkcji Gamma ( ). Porównajmy je: Γχ2ν Γ
To pokazuje, że dwukrotnie zmienna ma rozkład gamma z parametrem . Współczynnik połowy jest dość uciążliwy, ale odjęcie znacznie pogorszy związek. To już dostarcza przekonującej odpowiedzi na pytanie: jeśli chcemy, aby parametr zliczał liczbę kwadratowych zmiennych normalnych, które go wytwarzają (do ), to wykładnik gęstości funkcja musi być o połowę mniejsza niż ta liczba. v / 2 1 χ 2 1 / 2χ2ν ν/2 1 χ2 1/2
Dlaczego współczynnik mniej kłopotliwy niż różnica ? Powodem jest to, że czynnik pozostanie spójny, gdy dodamy rzeczy. Jeśli suma kwadratów niezależnych normalnych norm jest proporcjonalna do rozkładu gamma z parametrem (razy jakiś czynnik), wówczas suma kwadratów niezależnych normalnych norm jest proporcjonalna do rozkładu gamma z parametrem (razy ten sam współczynnik) , skąd suma kwadratów wszystkich zmiennych jest proporcjonalna do rozkładu gamma z parametrem (wciąż razy ten sam współczynnik). 1 n n m m n + m m + n1/2 1 n n m m n + m m + n Bardzo pomocne jest to, że tak ścisłe dodanie parametrów naśladuje dodanie zliczeń.
Gdybyśmy jednak usunęli te matematycznie wyglądające „ ” ze wzorów matematycznych, te miłe relacje stałyby się bardziej skomplikowane. Na przykład, jeśli zmieniliśmy parametryzację rozkładów gamma tak, aby odnosiła się do rzeczywistej mocy we wzorze, tak że byłby powiązany z rozkładem „Gamma ” (ponieważ moc w jego PDF to ), wówczas suma trzech rozkładów musiałaby być nazwana rozkładem „Gamma ”. Krótko mówiąc, bliski związek addytywny między stopniami swobody a parametrem w rozkładach gamma zostałby utracony przez usunięciex χ 2 1 ( 0 ) x 1 - 1 = 0 χ 2 1 ( 2 ) - 1- 1 x χ2)1 ( 0 ) x 1 - 1 = 0 χ2)1 ( 2 ) - 1 ze wzoru i wchłaniając go w parametrze.
Podobnie funkcja prawdopodobieństwa rozkładu współczynnika jest ściśle związana z rozkładami Beta. Rzeczywiście, gdy ma rozkład współczynnika , rozkład ma Beta . Jego funkcja gęstości jest proporcjonalna doY C Z = ν 1 T / ( ν 1 Y + ν 2 ) ( ν 1 / 2 , ν 2 / 2 )fa Y fa Z= ν1Y/ ( ν1Y+ ν2)) ( ν1/ 2, ν2)/ 2)
Ponadto - przyjmując te idee do pełnego koła - kwadrat rozkładu Studenta z df ma rozkład współczynnika z parametrami . Jeszcze raz widać, że utrzymanie konwencjonalnej parametryzacji utrzymuje wyraźny związek z podstawowymi liczbami, które przyczyniają się do stopni swobody.ν F ( 1 , ν )t ν fa ( 1 , ν)
Z statystycznego punktu widzenia byłoby więc najbardziej naturalne i najprostsze zastosowanie odmiany konwencjonalnych parametryzacji matematycznych rozkładów i Beta: powinniśmy preferować nazywanie rozkładu a „ dystrybucja ”i dystrybucja Beta należy nazwać„ dystrybucją Beta ”. W rzeczywistości już to zrobiliśmy: właśnie dlatego nadal używamy nazw „rozkład chi-kwadrat” i „ współczynnik ” zamiast „gamma” i „beta”. Niezależnie od tego w żadnym wypadku nie chcielibyśmy usunąć „Γ Γ ( 2 α )Γ ( α ) Γ ( 2 α ) ( 2 α , 2 β ) F - 1( α , β) ( 2 α , 2 β) fa - 1 „terminy, które pojawiają się we wzorach matematycznych dla ich gęstości. Gdybyśmy to zrobili, stracilibyśmy bezpośredni związek między parametrami w gęstościach i liczeniem danych, z którymi są one powiązane: zawsze bylibyśmy wyłączeni o jeden.
źródło
Notacja wprowadza Cię w błąd. Istnieje „ukryta ” w formule , ponieważ w , i musi być większa niż (drugi człon, który podałeś w swoim pytaniu mówi to wyraźnie). „S ” te same parametry, y w obu wzorach nie są; mają różne zakresy: w , oraz w , . Te zakresy dla i( 1 ) ( 1 ) α β - 1 α β ( 1 ) α , β > - 1 ( 2 ) α , β > 0 α β (- 1 ( 1 ) ( 1 ) α β - 1 α β ( 1 ) α , β> - 1 ( 2 ) α , β> 0 α β są niezbędne, aby zagwarantować, że całka gęstości nie będzie się różnić. Aby to zobaczyć, weź pod uwagę w przypadek (lub mniej) i , a następnie spróbuj zintegrować gęstość (jądro) między a . Odpowiednio, wypróbuj to samo w dla (lub mniej) i .α = - 1 β = 0 0 1 ( 2 ) α = 0 β = 1(1) α=−1 β=0 0 1 (2) α=0 β=1
źródło
Dla mnie istnienie -1 w wykładniku wiąże się z rozwojem funkcji gamma. Motywacją funkcji Gamma jest znalezienie gładkiej krzywej do połączenia punktów silni. Ponieważ nie można obliczyćbezpośrednio, jeśli nie jest liczbą całkowitą, pomysłem było znalezienie funkcji dla dowolnego która spełnia relację powtarzalności zdefiniowaną przez silnię, a mianowiciex! x! x x≥0
Rozwiązanie polegało na zbieżności całki. Dla funkcji zdefiniowanej jako
integracja przez części zapewnia:
Tak więc powyższa funkcja spełnia tę właściwość, a -1 w wykładniku wywodzi się z procedury całkowania przez części. Zobacz artykuł w Wikipedii https://en.wikipedia.org/wiki/Gamma_function .
Edycja: przepraszam, jeśli mój post nie jest w pełni jasny; Próbuję tylko wskazać, że moim zdaniem istnienie -1 w rozkładzie beta wynika z uogólnienia silni za pomocą funkcji gamma. Istnieją dwa warunki: oraz . Mamy, dlatego spełnia. Ponadto mamy . Jeśli chodzi o rozkład beta z parametrami , uogólnienie współczynnika dwumianowego tof(1)=1 f(x+1)=x⋅f(x) Γ(x)=(x−1)! Γ(x+1)=x⋅Γ(x)=x⋅(x−1)!=x! Γ(1)=(1−1)!=0!=1 α,β Γ(α+β)Γ(α)⋅Γ(β)=(α+β−1)!(α−1)!⋅(β−1)! . Tam mamy -1 w mianowniku dla obu parametrów.
źródło