Znaczenie oznaczeń prawdopodobieństwa

27

Jaka jest różnica w znaczeniu między zapisem i które są powszechnie używane w wielu książkach i artykułach?P ( z | d , w )P(z;d,w)P(z|d,w)

Uczeń
źródło
13
f (x; θ) jest takie samo jak f (x | θ), co oznacza po prostu, że θ jest stałym parametrem, a funkcja f jest funkcją x. f (x, Θ), OTOH, jest elementem rodziny (zestawu) funkcji, w którym elementy są indeksowane przez Θ. Może subtelne rozróżnienie, ale ważne, zwłaszcza. kiedy przychodzi czas na oszacowanie nieznanego parametru θ na podstawie znanych danych x; w tym czasie θ zmienia się, a x jest ustalone, co powoduje „funkcję prawdopodobieństwa”. Użycie „|” występuje częściej wśród statystyk, „;” wśród matematyków.
jbowman
Tak, łucznik ma rację. Czasami nazywamy to gęstością X podaną Θ.
Michael R. Chernick,
@jbowman, dlaczego nie opublikować tego jako odpowiedzi? Moje jedyne pytanie brzmi - dlaczego mieliby używać obu, ale zakładam, że ma to coś wspólnego z kontekstem („|” jest używane z „P” i „;” z „ f ”).
Abe
Dobre myślenie, Abe; to chyba to. Przypuszczam, że f jest bardziej ogólny.
łucznik

Odpowiedzi:

12

Wierzę, że źródłem tego jest paradygmat prawdopodobieństwa (chociaż nie sprawdziłem faktycznej poprawności historycznej poniżej, jest to rozsądny sposób zrozumienia, jak powstało iot).

Powiedzmy, że w ustawieniu regresji miałbyś rozkład: p (Y | x, beta) Co oznacza: rozkład Y, jeśli znasz (warunkowo) wartości x i beta.

Jeśli chcesz oszacować bety, chcesz zmaksymalizować prawdopodobieństwo: L (beta; y, x) = p (Y | x, beta) Zasadniczo patrzysz teraz na wyrażenie p (Y | x, beta) jako funkcja beta, ale poza tym nie ma różnicy (w przypadku poprawnych wyrażeń matematycznych, które można poprawnie wyprowadzić, jest to konieczność --- chociaż w praktyce nikt nie przeszkadza).

Następnie, w ustawieniach bayesowskich, różnica między parametrami i innymi zmiennymi wkrótce zanika, więc jeden zaczął używać obu notacji z domieszkami.

Zasadniczo: nie ma rzeczywistej różnicy: oba wskazują warunkową dystrybucję rzeczy po lewej stronie, zależną od rzeczy po prawej stronie.

Nick Sabbe
źródło
23

to gęstość zmiennej losowej X w punkcie x , przyczym θ jest parametrem rozkładu. f ( x , θ ) to łączna gęstość X i Θ w punkcie ( x , θ ) i ma sens tylko wtedy, gdy Θ jest zmienną losową. f ( x | θ ) jest rozkładem warunkowym X podanym Θ i znowu ma sens tylko wtedy, gdyf(x;θ)Xxθf(x,θ)XΘ(x,θ)Θf(x|θ)XΘ jest zmienną losową. Stanie się to znacznie wyraźniejsze, gdy zagłębisz się w książkę i przyjrzysz się analizie bayesowskiej.Θ

PeterR
źródło
Uhhhh ... jest rozkładem warunkowym x podanym θ ma idealny sens, nawet jeśli θ nie jest zmienną losową. Jest to prawie standardowa notacja w klasycznej statystyce, gdzie θ nie jest zmienną losową. f(x|θ)xθθθ
jbowman
Uhhhh ... jeśli interpretujesz to jako P [Θ = θ] = 1 (lewy Θ jest zmienną losową, prawy θ jest stałą), to zgadzam się. W przeciwnym razie nie ... bo cóż zatem oznaczałoby P [Θ = θ] w mianowniku definicji rozkładu warunkowego?
PeterR
Mianownik? Potrafię napisać gdzie f jest rozkładem normalnym bez odniesienia do reguły Bayesa. μ i σ są stałe. Inni też to robią, na przykład ll.mit.edu/mission/communications/ist/publications/… . xf(x|μ,σ)fμσ
jbowman
jbowman, więc jaka jest definicja twojego f (x | μ, σ) jako gęstości warunkowej, gdy μ i σ są liczbami stałymi (tj. nie zmiennymi losowymi)?
PeterR
1
Słowo „warunkowe”, powiązane z notacją f (X | Y), jest zdefiniowane jako „warunkowe po wystąpieniu pewnego zdarzenia losowego”. Jeśli używasz go do oznaczania czegoś innego, na przykład po prostu „dane”, jak w „f (x) danym (konkretne wartości) μ i σ”, to właśnie to jest zapis f (x; μ, σ) jest dla. Ponieważ PO pytał o to, co oznacza notacja, powinniśmy sprecyzować notację w odpowiedzi.
PeterR
18

f(x;θ) jest takie samo jakf(x|θ) , co oznacza po prostu, żeθ jest stałym parametrem, a funkcjaf jest funkcjąx . f(x,Θ) , OTOH, jest elementem rodziny (lub zestawu) funkcji, w którym elementy są indeksowane przezΘ . Może subtelne rozróżnienie, ale ważne, zwłaszcza. kiedy przychodzi czas na oszacowanie nieznanego parametruθ na podstawie znanych danychx ; w tym czasieθ zmienia, axjest naprawiony, co powoduje „funkcję wiarygodności”. Użycie jest bardziej powszechne wśród statystyk, natomiast ;wśród matematyków.

łucznik
źródło
1
Jak werbalnie? Czy mówisz „f z x dany θ”? f(x;θ)
stackoverflowuser2010
@ stackoverflowuser2010 - tak, dokładnie tak.
jbowman
2
W niektórych filmach Coursera znalazłem, że profesor Stanford, Andrew Ng, określa średnik jako „sparametryzowany przez”. Zobacz: class.coursera.org/ml-005/lecture/34 . Zatem przykład byłby wymawiany jako „f z x sparametryzowany przez theta”.
stackoverflowuser2010
5
Powiedzenie „dany” lub „warunkowy” różni się (ogólnie) od „sparametryzowanego”. Nienawidzę, jeśli ktoś to zobaczy i pomyśli, że oba są równoważne. Powiedzenie „sparametryzowane” jest właściwe tylko wtedy, gdy uwarunkowana ilość jest parametrem indeksującym pdf zmiennej w pierwszym terminie. W przypadku dwóch zmiennych (np. F (x; y)) użycie tego terminu byłoby błędne.
ATJ,
2
@MikeWilliamson - Jasne, wybierz notację, w której wiesz, co wszystko znaczy, i trzymaj się tego! W ten sposób, kiedy wracasz do czegoś, co zrobiłeś wcześniej, jak 4 godziny wcześniej z mojego doświadczenia, nie musisz zastanawiać się, co miałeś na myśli, kiedy używałeś tego „|”. Zgadzam się, to irytujące, ale po chwili po prostu obserwujesz pierwsze użycie notacji i zapamiętujesz ją do końca artykułu / książki; w każdym razie rozróżnienia zwykle nie są ważne.
jbowman
9

Chociaż nie zawsze tak było, obecnie jest zwykle używane, gdy d , w nie są zmiennymi losowymi (co nie znaczy, że są one koniecznie znane). P ( z | d , w ) oznacza warunkowanie na wartościach d , w . Uwarunkowanie jest operacją na zmiennych losowych i jako takie użycie tej notacji, gdy d , w nie są zmiennymi losowymi, jest mylące (i tragicznie powszechne).P(z;d,w)d,wP(z|d,w)d,wd,w

p(y|X,Θ)yΘ

JMS
źródło
2
X