Czy istnieje jakiś „standard” dla zapisu modelu statystycznego?

10

Na przykład w podręczniku BUGS lub nadchodzącej książce Lee i Wagenmakers ( pdf ) oraz w wielu innych miejscach stosowany jest rodzaj zapisu, który wydaje mi się bardzo elastyczny, ponieważ można go użyć do zwięzłego opisu większości modeli statystycznych. Przykładem tego zapisu jest:

yiBinomial(pi,ni)log(pi1pi)=bibiNormal(μp,σp)

który opisałby hierarchiczny model logistyczny bez predyktorów, ale z grupami. Ten sposób opisywania modele wydają się działać równie dobrze opisujący częstościowym i modeli Bayesa, na przykład, aby ten model opis pełni Bayesa byłoby po prostu trzeba dodać prawdopodobieństwa a priori na temat i .i=1nμpσp

Czy ten typ notacji modelowej / formalizmu jest szczegółowo opisany w jakimś artykule lub książce?

Jeśli chcesz użyć tej notacji do pisania modeli, istnieje wiele różnych sposobów robienia rzeczy i byłoby to bardzo przydatne z obszernym przewodnikiem zarówno do naśladowania, jak i do odniesienia się do innych. Znalazłem pewne różnice w sposobie, w jaki ludzie używają tego rodzaju notacji:

  • Jak nazywacie dystrybucje? Np. Widziałem itp.N,N,Norm,Normal
  • Jak radzisz sobie z indeksami? Np. Widziałem , , itp.yijyi[j]yj|i
  • Które symbole parametrów są zwykle używane do parametrów. Na przykład często używa się jako średniej dla rozkładu normalnego, ale co z innymi rozkładami? (W tym celu zwykle sprawdzam dystrybucje Wikipedii )μ

Dalsze pytanie: czy ta notacja ma nazwę? (Z powodu braku lepszej nazwy nazwałam ją konwencją centryczną rozkładu prawdopodobieństwa w poście na blogu, który napisałem ...)

Rasmus Bååth
źródło

Odpowiedzi:

2

Niektóre zalecane standardy notacji statystycznej przedstawiono w Halperin, Hartley i Hoel (1965) oraz Sanders and Pugh (1972) . Większość obecnych zapisów pochodzi z konwencji, które zostały ustanowione przez statystyków biometrycznych na przełomie XIX i XX wieku (większość zrobili Pearson i Fisher i ich współpracownicy). Przydatna lista wczesnych zastosowań notacji jest utrzymywana przez ekonomistę Johna Aldrich tutaj , a historyczny konto angielskiej szkoły biometrycznego jest opublikowany w Aldrich (2003) . (Jeśli masz dodatkowe pytania na ten temat, Aldrich jest prawdopodobnie największym żyjącym ekspertem w historii notacji statystycznej).

Oprócz tej wyraźnej pracy, istnieje wiele książek, które przedstawiają wprowadzenie w tę dziedzinę, i starają się zdefiniować notację zgodną z powszechnymi konwencjami, definiując notację w miarę upływu czasu. Istnieje wiele dobrze znanych konwencji w tej dziedzinie, które biegną konsekwentnie w literaturze, a statystycy dobrze je znają poprzez praktykę, nawet bez zapoznania się z zaleceniami tych badaczy.

Niejednoznaczność notacji zorientowanej na dystrybucję: Zastosowanie notacji „zorientowanej na dystrybucję” jest standardową konwencją stosowaną w całej literaturze statystycznej. Jednak jedną ciekawą rzeczą, na którą należy zwrócić uwagę w tym zapisie, jest to, że istnieje trochę wahania, co to właściwie oznacza. Standardową konwencją jest odczytanie obiektu po prawej stronie tych instrukcji jako pewnego rodzaju opisu miary prawdopodobieństwa (np. Funkcja rozkładu, funkcja gęstości itp.), A następnie odczytaniezwiązek ze znaczeniem „... ma rozkład ...” lub „... ma miarę prawdopodobieństwa ...” itd. Zgodnie z tą interpretacją relacja porównuje dwa odrębne zestawy rzeczy; obiekt po lewej stronie jest zmienną losową, a obiekt po prawej stronie jest opisem miary prawdopodobieństwa.

Jednak równie ważna jest interpretacja prawej strony jako odniesienia do zmiennej losowej (w przeciwieństwie do rozkładu) i odczytanie relacji jako oznaczającej, że „... ma taki sam rozkład jak ...” . Zgodnie z tą interpretacją relacja jest relacją równoważności porównującą zmienne losowe; obiekty po lewej i prawej stronie są zmiennymi losowymi, a relacja jest zwrotna, symetryczna i przechodnia.

Daje to dwie możliwe (i równie ważne) interpretacje wyrażenia, takie jak:

XN(μ,σ2).
  • Interpretacja dystrybucyjna: „ ma rozkład prawdopodobieństwa ”. Ta interpretacja przyjmuje ten drugi przedmiot jako pewien opis normalnej miary prawdopodobieństwa (np. Jego funkcji gęstości, funkcji rozkładu itp.).XN(μ,σ2)

  • Interpretacja zmiennych losowych: „ ma taki sam rozkład prawdopodobieństwa jak ”. Ta interpretacja przyjmuje ten ostatni obiekt jako normalną zmienną losową.XN(μ,σ2)

Każda interpretacja ma zalety i wady. Zaletą interpretacji zmiennych losowych jest to, że używa standardowego symbolu w odniesieniu do relacji równoważności , ale jej wadą jest to, że wymaga odwołania do zmiennych losowych o podobnej notacji do ich funkcji rozkładu. Zaletą interpretacji dystrybucyjnej jest to, że używa podobnej notacji dla rozkładów jako całości i ich form funkcjonalnych z określoną wartością argumentu; wadą jest to, że używa symbolu w sposób, który nie jest relacją równoważności.


Aldrich, J. (2003) The Language of English Biometric School International Statistics Review 71 (1) , s. 109–131.

Halperin, M., Hartley, HO and Hoel, PG (1965) Zalecane standardy symboli i notacji statystycznych . The American Statistician 19 (3) , s. 12-14.

Sanders, JR i Pugh, RC (1972) Zalecenie dotyczące standardowego zestawu symboli statystycznych i oznaczeń . Edukacyjny badacz 1 (11) , s. 15–16.

Ben - Przywróć Monikę
źródło