Czy rodzina dystrybucji ma inną definicję statystyki niż w innych dyscyplinach?
Ogólnie rodzina krzywych jest zbiorem krzywych, z których każda jest podana przez funkcję lub parametryzację, w której zmienia się jeden lub więcej parametrów. Takie rodziny są wykorzystywane na przykład do charakteryzowania komponentów elektronicznych .
W przypadku statystyki rodzina według jednego źródła jest wynikiem zmiany parametru kształtu. Jak zatem możemy zrozumieć, że rozkład gamma ma parametr kształtu i skali, a jedynie uogólniony rozkład gamma ma dodatkowo parametr lokalizacji? Czy to sprawia, że rodzina jest wynikiem zmiany parametru lokalizacji? Według @whuber znaczenie rodziny jest domyślnie „Parametryzacja” rodziny jest ciągłą mapą z podzbioru ℝ , ze zwykłą topologią, w przestrzeń rozkładów, których obraz jest tą rodziną.
Czym w prostym języku jest rodzina rozkładów statystycznych?
Pytanie o relacje między właściwościami statystycznymi rozkładów z tej samej rodziny wywołało już wiele kontrowersji w związku z innym pytaniem, więc warto zbadać znaczenie.
To, że niekoniecznie jest to proste pytanie, rodzi się z jego użycia w wyrażeniu rodzina wykładnicza , która nie ma nic wspólnego z rodziną krzywych, ale jest związana ze zmianą formy PDF rozkładu poprzez zmianę parametrów nie tylko parametrów , ale także podstawienie funkcji niezależnych zmiennych losowych.
Odpowiedzi:
Pojęcia statystyczne i matematyczne są dokładnie takie same, przy założeniu, że „rodzina” jest ogólnym terminem matematycznym z technicznymi odmianami dostosowanymi do różnych okoliczności:
Reszta tego postu wyjaśnia, co to znaczy. Nawiasem mówiąc, nie sądzę, aby którekolwiek z tych kwestii było kontrowersyjne, zarówno matematycznie, jak i statystycznie (oprócz jednego drobnego problemu, o którym mowa poniżej). Na poparcie tej opinii podałem wiele odniesień (głównie do artykułów z Wikipedii).
Ta terminologia „rodzin” jest zwykle stosowana podczas badania klas funkcji w zestawie Y lub „mapach”. Biorąc pod uwagę domenę X , rodzina F map na X sparametryzowana przez jakiś zestaw Θ („parametry”) jest funkcjąCY Y X F X Θ
dla których (1) dla każdego funkcja F θ : X → Y podana przez F θ ( x ) = F ( x , θ ) jest w C Y, a (2) samo F ma pewne „ładne” właściwości.θ∈Θ Fθ:X→Y Fθ(x)=F(x,θ) CY F
Chodzi o to, że chcemy zmieniać funkcje od do Y w sposób „płynny” lub kontrolowany. Właściwość (1) oznacza, że każda θ oznacza taką funkcję, podczas gdy szczegóły właściwości (2) uchwycą sens, w którym „mała” zmiana θ wywołuje wystarczająco „małą” zmianę F θ .X Y θ θ Fθ
Standardowym przykładem matematycznym, zbliżonym do wspomnianego w pytaniu, jest homotopia . W tym przypadku jest kategorią ciągłych map od przestrzeni topologicznych X do przestrzeni topologicznej Y ; Θ = [ 0 , 1 ] ⊂ R jest odstęp urządzenie z zwykle topologii i wymagają F być ciągła na mapie z produktu topologicznej X x Θ do Y . Można to uznać za „ciągłe deformowanie mapy F.CY X Y Θ=[0,1]⊂R F X×Θ Y do F 1. "Gdy X = [ 0 , 1 ] jest przedziałem, takie mapy sąkrzywymiw Y, a homotopia jest gładkim odkształceniem od jednej krzywej do drugiej.F0 F1 X=[0,1] Y
Dla zastosowań statystycznych jest zbiorem wszystkich rozkładów na R (lub, w praktyce, na R n dla niektórych n , ale dla uproszczenia opisu skupię się na n = 1 ). Możemy to utożsamiać ze zbiorem wszystkich nie malejących funkcji càdlàg R → [ 0 , 1 ], gdzie zamknięcie ich zakresu obejmuje zarówno 0, jak i 1 : są to skumulowane funkcje rozkładowe lub po prostu funkcje rozkładowe. Zatem X = R iCY R Rn n n=1 R→[0,1] 0 1 X=R .Y=[0,1]
Rodziny rozkładów jest dowolnym podzbiorem .CY Inną nazwą rodziny jest model statystyczny. Składa się ze wszystkich rozkładów, które, jak przypuszczamy, rządzą naszymi obserwacjami, ale nie wiemy, który rozkład jest właściwy.
Te abstrakcyjne cechy zestawu teoretycznego są stosunkowo mało interesujące lub użyteczne. Ta koncepcja staje się użyteczna dopiero wtedy, gdy weźmiemy pod uwagę dodatkową (istotną) strukturę matematyczną na Ale jakie właściwości C Y mają znaczenie statystyczne? Niektóre, które często się pojawiają to:CY CY
jestzestawem wypukłym: biorąc pod uwagę dowolne dwa rozkłady F , G ∈ C Y , możemy utworzyćrozkład mieszaniny(1-t) F +t G ∈Ydla wszystkicht∈[0,1]. Jest to rodzaj „homotopii” zFdoG.CY F,G∈CY (1−t)F+tG∈Y t∈[0,1] F G
Duże części obsługują różne pseudometryki, takie jak rozbieżność Kullbacka-Leiblera lub blisko związana metryka informacji Fisher.CY
ma strukturę dodatków: odpowiadająca dowolnym dwóm rozkładuFiGjest ich suma M ⋆ G .CY F G F⋆G
obsługuje wiele przydatnych, naturalnych funkcji, często nazywanych „właściwościami”. Obejmują one wszelkie ustalone kwantyle (takie jak mediana), a takżekumulanty.CY
jest podzbioremprzestrzeni funkcji. Jako taki, dziedziczy wiele przydatnych wskaźników, takich jaksup norma(norma L ∞ ) podana przez | | F-G | | ∞ = sup x ∈ R | F(x)-G(x) | .CY L∞
Naturalne działania grupa o wywołania działania na C Y . Najczęstsze działania to tłumaczenia T μ : x → x + μ i skalowania S σ : x → x σ dla σ > 0 . Wpływ, jaki mają one na rozkład, polega na wysłaniu F do rozkładu podanego przez F μ , σ ( x ) = F ( ( x - μ )R CY Tμ:x→x+μ Sσ:x→xσ σ>0 F . Prowadzą one do koncepcji rodzin o skali lokalizacji i ich uogólnień. (Nie dostarczam referencji, ponieważ szeroko zakrojone wyszukiwania w sieci ujawniają wiele różnych definicji: tutaj przynajmniej może być trochę kontrowersji.)Fμ,σ(x)=F((x−μ)/σ)
Istotne właściwości zależą od problemu statystycznego i od tego, jak zamierzasz analizować dane. Zajęcie się wszystkimi wariantami sugerowanymi przez powyższe cechy zajęłoby zbyt dużo miejsca dla tego medium. Skupmy się na jednej wspólnej ważnej aplikacji.
Weźmy na przykład maksymalne prawdopodobieństwo. W większości aplikacji będziesz chciał móc korzystać z rachunku różniczkowego, aby uzyskać oszacowanie. Aby to zadziałało, musisz być w stanie „brać pochodne” w rodzinie.
( Pomijając kwestię techniczną: zwykłym sposobem osiągnięcia tego jest wybranie domeny dla d ≥ 0 i określenie ciągłej, lokalnie odwracalnej funkcji p od Θ do C Y. (Oznacza to, że dla każdego θ ∈ Θ tam istnieje kula B ( θ , ϵ ) , gdzie ϵ > 0, dla których p ∣ B ( θ , ϵ ) :Θ⊂Rd d≥0 p Θ CY θ∈Θ B(θ,ϵ) ϵ>0 jest jeden do jednego. Innymi słowy, jeśli zmienimy θ o wystarczająco małą ilość, zawsze otrzymamy inny rozkład.))p∣B(θ,ϵ):B(θ,ϵ)∩Θ→CY θ
W związku z tym w większości aplikacji ML wymagamy, aby było ciągłe (i, miejmy nadzieję, prawie wszędzie różnicowalne) w komponencie Θ . (Bez ciągłości maksymalizacja prawdopodobieństwa zwykle staje się trudnym problemem.) Prowadzi to do następującej definicji parametrycznej rodziny zorientowanej na prawdopodobieństwo :p Θ
Należy zauważyć, że rodzina parametryczna to więcej niż tylko zbiór F θ : obejmuje również określony sposób, w jaki wartości parametrów θ odpowiadają rozkładom.F Fθ θ
Skończymy na kilku przykładowych przykładach.
Niech będzie zbiorem wszystkich rozkładów normalnych. Jak podano, nie jest to rodzina parametryczna: to tylko rodzina. Aby być parametrycznym, musimy wybrać parametryzację. Jednym ze sposobów jest wybór Θ = { ( μ , σ ) ∈ R 2 ∣ σ > 0 } i odwzorowanie ( μ , σ ) na rozkład normalny ze średnią μ i wariancją σ 2 .CY Θ={(μ,σ)∈R2∣σ>0} (μ,σ) μ σ2
Zbiór rozkładów Poissona(λ) jest rodziną parametryczną o .λ∈Θ=(0,∞)⊂R1
Zestaw rozkładów Uniform (który jest wyraźnie widoczny w wielu ćwiczeniach podręcznikowych) jest rodziną parametryczną z θ ∈ R 1 . W tym przypadku F θ ( x ) = max ( 0 , min ( 1 , x - θ ) ) jest różnicowalne w θ, z wyjątkiem θ ∈ { x , x - 1 } .(θ,θ+1) θ∈R1 Fθ(x)=max(0,min(1,x−θ)) θ θ∈{x,x−1}
Niech i G będą dowolnymi dwoma rozkładami. Zatem F ( x , θ ) = ( 1 - θ ) F ( x ) + θ G ( x ) jest rodziną parametryczną dla θ ∈ [ 0 , 1 ] . (Dowód: obraz F jest zbiorem rozkładów i jego pochodną cząstkową w θ równa się - F ( x ) + G (F G F(x,θ)=(1−θ)F(x)+θG(x) θ∈[0,1] F θ który jest zdefiniowany wszędzie.)−F(x)+G(x)
Rodzina Pearson jest czterowymiarowa rodzina, , który obejmuje (między innymi) normalnego rozkładu, rozkład beta i rozkładów Inverse gamma. To ilustruje fakt, że dowolna dana dystrybucja może należeć do wielu różnych rodzin dystrybucji . Jest to całkowicie analogiczne do obserwowania, że dowolny punkt w (wystarczająco dużej) przestrzeni może należeć do wielu przecinających się tam ścieżek. To, wraz z poprzednią konstrukcją, pokazuje nam, że brak dystrybucji jednoznacznie określa rodzinę, do której należy.Θ⊂R4
Rodzina wszystkich absolutnie ciągłych rozkładów wariancji skończonych nie jest parametryczna. Dowód wymaga głębokiej twierdzenie topologii: jeśli nadają C Y z dowolnej topologii (czy statystycznie przydatne lub nie) i p : Θ → C Y jest ciągła i lokalnie ma ciągłą odwrotność, a następnie lokalnie C Y muszą mieć ten sam wymiar jak że z Θ . Jednak we wszystkich statystycznie znaczących topologiach C Y ma nieskończony wymiar.CY CY p:Θ→CY CY Θ CY
źródło
To address a specific point brought up in the question: "exponential family" does not denote a set of distributions. (The standard, say, exponential distribution is a member of the family of exponential distributions, an exponential family; of the family of gamma distributions, also an exponential family; of the family of Weibull distributions, not an exponential family; & of any number of other families you might dream up.) Rather, "exponential" here refers to a property possessed by a family of distributions. So we shouldn't talk of "distributions in the exponential family" but of "exponential families of distributions"—the former is an abuse of terminology, as @JuhoKokkala points out. For some reason no-one commits this abuse when talking of location–scale families.
źródło
Thanks to @whuber there is enough information to summarize in what I hope is a simpler form relating to the question from which this post arose. "Another name for a family [Sic, statistical family] is [a] statistical model."
From that Wikipedia entry: A statistical model consists of all distributions that we suppose govern our observations, but we do not otherwise know which distribution is the actual one. What distinguishes a statistical model from other mathematical models is that a statistical model is non-deterministic. Thus, in a statistical model specified via mathematical equations, some of the variables do not have specific values, but instead have probability distributions; i.e., some of the variables are stochastic. A statistical model is usually thought of as a pair(S,P) , where S is the set of possible observations, i.e., the sample space, and P is a set of probability distributions on S .
Suppose that we have a statistical model(S,P) with P={Pθ:θ∈Θ} . The model is said to be a Parametric model if Θ has a finite dimension. In notation, we write that Θ⊆Rd where d is a positive integer (R denotes the real numbers; other sets can be used, in principle). Here, d is called the dimension of the model.
As an example, if we assume that data arise from a univariate Gaussian distribution, then we are assuming that
Thus, if we reduce the dimensionality by assigning, for the example above,μ=0 , we can show a family of curves by plotting σ=1,2,3,4,5 or whatever choices for σ .
źródło