Jaka jest różnica między „prawdopodobieństwem” a „prawdopodobieństwem”?

474

Strona wikipedia twierdzi, że prawdopodobieństwo i prawdopodobieństwo to odrębne pojęcia.

W języku nietechnicznym „prawdopodobieństwo” jest zwykle synonimem „prawdopodobieństwa”, ale w zastosowaniu statystycznym istnieje wyraźne rozróżnienie w perspektywie: liczba, która jest prawdopodobieństwem niektórych zaobserwowanych wyników przy danym zestawie wartości parametrów, jest uważana za prawdopodobieństwo zbioru wartości parametrów z uwzględnieniem zaobserwowanych wyników.

Czy ktoś może podać bardziej konkretny opis tego, co to oznacza? Ponadto niektóre przykłady tego, jak „prawdopodobieństwo” i „prawdopodobieństwo” się nie zgadzają, byłyby przydatne.

Douglas S. Kamienie
źródło
9
Świetne pytanie. Dodałbym tam również „szanse” i „szansę” :)
Neil McGuigan
5
Myślę, że powinieneś rzucić okiem na to pytanie stats.stackexchange.com/questions/665/…, ponieważ prawdopodobieństwo jest dla celów statystycznych, a prawdopodobieństwo dla prawdopodobieństwa.
robin girard
3
Wow, to są naprawdę dobre odpowiedzi. Wielkie dzięki za to! W pewnym momencie wybiorę jedną, która szczególnie mi się podoba, jako „zaakceptowaną” odpowiedź (chociaż jest kilka, które moim zdaniem są równie zasłużone).
Douglas S. Stones
1
Należy również zauważyć, że „współczynnik prawdopodobieństwa” jest w rzeczywistości „współczynnikiem prawdopodobieństwa”, ponieważ jest funkcją obserwacji.
JohnRos,

Odpowiedzi:

320

Odpowiedź zależy od tego, czy mamy do czynienia z dyskretnymi, czy ciągłymi zmiennymi losowymi. Tak więc podzielę odpowiednio swoją odpowiedź. Zakładam, że potrzebujesz pewnych szczegółów technicznych i niekoniecznie wyjaśnienia w prostym języku angielskim.

Dyskretne zmienne losowe

Załóżmy, że masz proces stochastyczny, który przyjmuje dyskretne wartości (np. Wyniki rzutu monetą 10 razy, liczbę klientów, którzy przybywają do sklepu w 10 minut itp.). W takich przypadkach możemy obliczyć prawdopodobieństwo zaobserwowania określonego zestawu wyników, przyjmując odpowiednie założenia dotyczące leżącego u podstaw procesu stochastycznego (np. Prawdopodobieństwo głowic do lądowania monet wynosi a rzuty monetą są niezależne).p

Oznacz obserwowane wyniki przez i zestaw parametrów opisujących proces stochastyczny jako . Kiedy więc mówimy o prawdopodobieństwie, chcemy obliczyć . Innymi słowy, biorąc pod uwagę konkretne wartości dla , jest prawdopodobieństwo, że będziemy obserwować rezultaty przedstawione .OθP(O|θ)θP(O|θ)O

Kiedy jednak modelujemy proces stochastyczny z prawdziwego życia, często nie wiemy . Po prostu obserwować , a następnie celem jest osiągnięcie oszacowania dla , które byłyby wiarygodne wybór biorąc pod uwagę obserwowane efekty . Wiemy, że przy wartości prawdopodobieństwo zaobserwowania wynosi . W ten sposób „naturalny” proces szacowania jest, aby wybrać tę wartość , które zmaksymalizować prawdopodobieństwo, że właśnie obserwujemy . Innymi słowy, znajdujemy wartości parametrów które maksymalizują następującą funkcję:θOθOθOP(O|θ)θOθ

L(θ|O)=P(O|θ)

L(θ|O)O θ nazywa się funkcją prawdopodobieństwa. Zauważ, że z definicji funkcja prawdopodobieństwa jest zależna od obserwowanego i że jest funkcją nieznanych parametrów .Oθ

Ciągłe zmienne losowe

W przypadku ciągłym sytuacja jest podobna z jedną ważną różnicą. Nie możemy już mówić o prawdopodobieństwie zaobserwowania danej ponieważ w ciągłym przypadku . Bez wchodzenia w szczegóły techniczne podstawowa idea jest następująca:OθP(O|θ)=0

Oznacz funkcję gęstości prawdopodobieństwa (pdf) związaną z wynikami jako: . Zatem w przypadku ciągłym szacujemy dane obserwowane wyniki poprzez maksymalizację następującej funkcji:Of(O|θ)θO

L(θ|O)=f(O|θ)

W tej sytuacji, nie możemy twierdzić, że technicznie jesteśmy znalezienia wartości parametru, który maksymalizuje prawdopodobieństwo, że możemy obserwować jak zmaksymalizować PDF związane z obserwowanym efektach .OO

nbro
źródło
35
Rozróżnienie między zmiennymi dyskretnymi i ciągłymi zanika z punktu widzenia teorii miary.
whuber
24
@ whuber tak, ale odpowiedź wykorzystująca teorię miar nie jest dostępna dla wszystkich.
16
@Sikikant: Zgoda. Ten komentarz był z korzyścią dla PO, który jest matematykiem (ale być może nie statystykiem), aby uniknąć wprowadzenia w błąd, by myśleć, że w tym rozróżnieniu jest coś fundamentalnego.
whuber
6
Możesz interpretować ciągłą gęstość tak samo jak przypadek dyskretny, jeśli jest zastąpione przez , w tym sensie, że jeśli poprosimy o (tzn. Prawdopodobieństwo, że dane są zawarte w nieskończonym obszarze wokół ), a odpowiedź brzmi ( wyjaśnia, że ​​obliczamy pole nieskończenie cienkiego „bin” histogramu ). d O P r ( O ( O , O + d O ) | θ ) O O f ( O | θ ) d O d O OdOPr(O(O,O+dO)|θ)OOf(O|θ)dOdO
Prawdopodobieństwo
9
Jestem spóźniony na imprezę o ponad 5 lat, ale myślę, że bardzo istotną kontynuacją tej odpowiedzi byłyby stats.stackexchange.com/questions/31238/..., która podkreśla fakt, że funkcja prawdopodobieństwa jest nie pdf w odniesieniu do . ) jest rzeczywiście pdf danych, biorąc pod uwagę wartość parametru, ale skoro jest funkcją samego (z danymi przechowywanymi jako stałe), nie ma znaczenia, że jest pdf dane podane . θ L ( θ L θ L ( θ ) θL(θ)θL(θLθL(θ)θ
Shobhit
135

Jest to pytanie, na które odpowie prawie każdy i spodziewałbym się, że wszystkie odpowiedzi będą dobre. Ale jesteś matematykiem, Douglas, więc pozwól, że dam matematyczną odpowiedź.

Model statystyczny musi łączyć dwa odrębne byty pojęciowe: dane , które są elementami pewnego zbioru (np. Przestrzeni wektorowej), oraz możliwy model ilościowy zachowania danych. Modele są zwykle reprezentowane przez punkty na kolektorze o skończonych wymiarach, kolektorze z granicą lub przestrzeni funkcji (ta ostatnia jest określana jako problem „nieparametryczny”).xθ

Dane są połączone z możliwymi modelami za pomocą funkcji . Dla każdego , ma być prawdopodobieństwem (lub gęstością prawdopodobieństwa) . Z drugiej strony, dla dowolnego , może być postrzegane jako funkcja i zwykle przyjmuje się, że ma pewne ładne właściwości, takie jak ciągłe drugie rozróżnianie. Zamiar widzenia w ten sposób i powołania się na te założenia ogłasza się, nazywając „prawdopodobieństwem”.xθΛ(x,θ)θΛ(x,θ)xxΛ(x,θ)θΛΛ

Przypomina to rozróżnienie między zmiennymi a parametrami w równaniu różniczkowym: czasami chcemy zbadać rozwiązanie (tj. Skupiamy się na zmiennych jako argumentie), a czasem chcemy zbadać, w jaki sposób rozwiązanie zmienia się w zależności od parametrów. Główne rozróżnienie polega na tym, że w statystykach rzadko musimy badać jednoczesną zmienność obu zestawów argumentów; nie ma obiektu statystycznego, który naturalnie odpowiadałby zmianie zarówno danych i parametrów modelu . Dlatego słyszysz więcej o tej dychotomii niż w analogicznych ustawieniach matematycznych.xθ

Whuber
źródło
6
+1, co za fajna odpowiedź. Analogia z równaniami różniczkowymi wydaje się bardzo odpowiednia.
mpiktas
3
Jako ekonomista, chociaż odpowiedź ta nie odnosi się tak ściśle jak poprzednio do pojęć, których się nauczyłam, była najbardziej pouczająca w sensie intuicyjnym. Wielkie dzięki.
Robson,
1
W rzeczywistości to stwierdzenie nie jest naprawdę prawdziwe „nie ma obiektu statystycznego, który naturalnie odpowiadałby zmianie zarówno danych x, jak i parametrów modelu θ.”. Jest tak zwane „wygładzanie, filtrowanie i przewidywanie”, w modelach liniowych jest to filtr Kalmana, w modelach nieliniowych mają pełne filtry nieliniowe, en.wikipedia.org/wiki/Kushner_equation itp.
crow
1
Tak, świetna odpowiedź! Choć brzmi to kiepsko, wybierając zamiast standardowej notacji P ( x , θ ) , łatwiej mi było zauważyć, że zaczynamy od wspólnego prawdopodobieństwa, które można zdefiniować jako prawdopodobieństwo lub prawdopodobieństwo warunkowe. Dodatkowo pomógł komentarz „pewne miłe właściwości”. Dzięki! Λ(x,θ)P(x,θ)
Mike Williamson,
2
@ whuber Tak, wiem nie jest zwykłym zapisem. Właśnie dlatego to pomogło! Przestałem myśleć, że to musi mieć szczególne znaczenie i zamiast tego po prostu podążyłem za logiką. ;-pΛ
Mike Williamson
110

Spróbuję zminimalizować matematykę w moim objaśnieniu, ponieważ istnieją już pewne dobre matematyczne wyjaśnienia.

Jak zauważa Robin Girand, różnica między prawdopodobieństwem a prawdopodobieństwem jest ściśle związana z różnicą między prawdopodobieństwem a statystykami . W pewnym sensie prawdopodobieństwo i statystyki dotyczą problemów, które są przeciwne lub odwrotne.

Rozważ rzut monetą. (Moja odpowiedź będzie podobna do przykładu 1 na Wikipedii .) Jeśli wiemy, że moneta jest uczciwa ( ), typowe pytanie prawdopodobieństwa brzmi: jakie jest prawdopodobieństwo uzyskania dwóch głów z rzędu. Odpowiedź brzmi: P ( H H ) = P ( H ) × P ( H ) = 0,5 × 0,5 = 0,25 .p=0.5P(HH)=P(H)×P(H)=0.5×0.5=0.25

Typowe pytanie statystyczne brzmi: czy monety są uczciwe? Aby odpowiedzieć na to pytanie, musimy zapytać: w jakim stopniu nasza próbka potwierdza naszą hipotezę, że ?P(H)=P(T)=0.5

Pierwszą kwestią, na którą należy zwrócić uwagę, jest odwrócenie kierunku pytania. Prawdopodobnie zaczynamy od przyjętego parametru ( ) i szacujemy prawdopodobieństwo danej próbki (dwie głowy z rzędu). W statystykach zaczynamy od obserwacji (dwie głowy z rzędu) i wnioskujemy o naszym parametrze ( ).P(head)p=P(H)=1P(T)=1q

Przykład 1 na Wikipedii pokazuje nam, że maksymalne prawdopodobieństwo po 2 głowach z rzędu wynosi . Ale dane w żaden sposób nie wykluczają prawdziwej wartości parametru (nie zajmujmy się obecnie szczegółami). Rzeczywiście tylko bardzo małe wartości a zwłaszcza można rozsądnie wyeliminować po (dwa rzuty monetą). Po wyrzuceniu trzeciego rzutu możemy teraz wyeliminować możliwość, że (tj. Nie jest to moneta dwugłowa), ale większość wartości pomiędzy nimi może być w uzasadniony sposób poparta danymip M L E = 1 p ( H ) = 0,5 p ( H ) p ( H ) = 0 n = 2 P ( H ) = 1,0P(H)pMLE=1p(H)=0.5p(H)p(H)=0n=2P(H)=1.0. (Dokładny dwumianowy 95% przedział ufności dla wynosi od 0,094 do 0,992.p(H)

Po 100 rzutach monetą i (powiedzmy) 70 głowach mamy uzasadnioną podstawę do podejrzeń, że moneta nie jest uczciwa. Dokładne 95% CI na wynosi teraz 0,600 do 0,787, a prawdopodobieństwo zaobserwowania wyniku tak ekstremalnego jak 70 lub więcej głów (lub ogonów) ze 100 rzutów przy p ( H ) = 0,5 wynosi 0,0000785.p(H)p(H)=0.5

Chociaż nie użyłem jawnie obliczeń prawdopodobieństwa, w tym przykładzie ujęto pojęcie prawdopodobieństwa: Prawdopodobieństwo jest miarą stopnia, w jakim próbka zapewnia obsługę określonych wartości parametru w modelu parametrycznym .

Thylacoleo
źródło
3
Świetna odpowiedź! Szczególnie trzy ostatnie akapity są bardzo przydatne. Jak rozszerzyłbyś to, aby opisać ciągły przypadek?
Demetris,
8
Dla mnie najlepsza odpowiedź. W ogóle nie mam nic przeciwko matematyce, ale dla mnie matematyka jest narzędziem rządzonym przez to, czego chcę (nie lubię matematyki dla samej korzyści, ale dla tego, co mi pomaga). Tylko z tą odpowiedzią znam to drugie.
Środa
73

Dam ci perspektywę z punktu widzenia teorii wiarygodności, która pochodzi od Fishera - i jest podstawą definicji statystycznej w cytowanym artykule w Wikipedii.

Załóżmy, że masz losowy zmiennymi , które wynikają z parametryzowanego dystrybucji F ( X ; θ ) , gdzie θ jest parametrem charakteryzującym F . Wtedy prawdopodobieństwo X = x byłoby: P ( X = x ) = F ( x ; θ ) , ze znanym θ . XF(X;θ)θFX=xP(X=x)=F(x;θ)θ

Częściej masz dane a θ jest nieznane. Ze względu na przyjęty model F , prawdopodobieństwo jest zdefiniowana jako prawdopodobieństwo obserwowanych danych w funkcji θ : L ( θ ) = P ( θ ; X = x ) . Zauważ, że X jest znany, ale θ jest nieznany; w rzeczywistości motywacją do zdefiniowania prawdopodobieństwa jest określenie parametru rozkładu.XθFθL(θ)=P(θ;X=x)Xθ

Chociaż wydaje się, że po prostu przepisaliśmy funkcję prawdopodobieństwa, kluczową konsekwencją tego jest to, że funkcja prawdopodobieństwa nie przestrzega praw prawdopodobieństwa (na przykład nie jest związana z przedziałem [0, 1]). Jednak funkcja prawdopodobieństwa jest proporcjonalna do prawdopodobieństwa zaobserwowanych danych.

Ta koncepcja prawdopodobieństwa faktycznie prowadzi do innej szkoły myślenia, „likelializmu” (w odróżnieniu od częstokroć i bayesowskiego) i możesz wyszukiwać w różnych historycznych debatach. Podstawą jest zasada prawdopodobieństwa, która zasadniczo mówi, że możemy dokonywać wnioskowania bezpośrednio z funkcji prawdopodobieństwa (ani Bayesianie, ani częstokroć nie akceptują tego, ponieważ nie jest to wnioskowanie oparte na prawdopodobieństwie). W dzisiejszych czasach wiele tego, co uczy się w szkołach jako „częstych” jest w rzeczywistości połączeniem myślenia częstego i prawdopodobieństwa.

Dla głębszego wglądu dobrym początkiem i historycznym odniesieniem jest prawdopodobieństwo Edwardsa . Do współczesnego ujęcia polecam wspaniałą monografię Richarda Royalla, „ Dowody statystyczne: paradygmat wiarygodności” .

ars
źródło
3
Interesująca odpowiedź, tak naprawdę myślałem, że „szkoła prawdopodobieństwa” to w zasadzie „częstokroć, którzy nie projektują szkoły próbek”, podczas gdy „szkoła projektowania” była resztą częstych. Właściwie sam trudno mi powiedzieć, którą „szkołą” jestem, ponieważ mam trochę wiedzy z każdej szkoły. Szkoła „Prawdopodobieństwo jako rozszerzona logika” jest moją ulubioną (duh), ale nie mam wystarczającego doświadczenia praktycznego w stosowaniu jej do prawdziwych problemów, aby być dogmatycznym.
probabilityislogic
5
+1 dla „funkcja prawdopodobieństwa nie przestrzega praw prawdopodobieństwa (na przykład nie jest związana z przedziałem [0, 1]). Jednak funkcja prawdopodobieństwa jest proporcjonalna do prawdopodobieństwa zaobserwowanych danych”.
Walrus the Cat
10
„funkcja prawdopodobieństwa nie jest zgodna z prawami prawdopodobieństwa” mogłaby posłużyć dalszymi wyjaśnieniami, zwłaszcza, że ​​została napisana jako θ: L (θ) = P (θ; X = x), tzn. zrównana z prawdopodobieństwem!
redcalx,
Dzięki za odpowiedź. Czy możesz odnieść się do komentarza @locster?
Vivek Subramanian
2
Dla mnie, jako nie matematyka, brzmi to jak matematyka religijna, z różnymi przekonaniami prowadzącymi do różnych wartości prawdopodobieństwa wystąpienia zdarzeń. Czy możesz to sformułować, aby łatwiej zrozumieć, jakie są różne przekonania i dlaczego wszystkie one mają sens, zamiast jednego po prostu niepoprawnego, a drugiej szkoły / przekonania poprawnego? (założenie, że istnieje jeden prawidłowy sposób obliczania szans na wystąpienie zdarzeń)
Zelphir Kaltstahl
55

Biorąc pod uwagę wszystkie powyższe dokładne odpowiedzi techniczne, powrócę do języka: prawdopodobieństwo określa ilościowo oczekiwanie (wyniku), prawdopodobieństwo określa zaufanie (w modelu).

Załóżmy, że ktoś rzuci nam wyzwanie na „dochodową grę hazardową”. Następnie prawdopodobieństwa pomogą nam obliczyć rzeczy takie jak oczekiwany profil twoich zysków i strat (średnia, tryb, mediana, wariancja, współczynnik informacji, wartość zagrożona, ruiny graczy itp.). Natomiast prawdopodobieństwo posłuży nam do oszacowania, czy ufamy tym prawdopodobieństwom; lub czy „wąchamy szczura”.


Nawiasem mówiąc - skoro ktoś wyżej wspomniał o religiach statystyki - uważam, że wskaźnik prawdopodobieństwa jest integralną częścią świata Bayesa, jak również tego, który jest częsty: w świecie Bayesa formuła Bayesa łączy się po prostu z prawdopodobieństwem wyprodukowania późniejszego.

cygański
źródło
Ta odpowiedź jest dla mnie podsumowaniem. Musiałem przemyśleć, co to znaczy, kiedy przeczytałem, że prawdopodobieństwo nie jest prawdopodobne, ale przyszła mi do głowy następująca sprawa. Jakie jest prawdopodobieństwo, że moneta jest sprawiedliwa, biorąc pod uwagę, że widzimy cztery głowy z rzędu? Tak naprawdę nie możemy powiedzieć nic o prawdopodobieństwie, ale słowo „zaufanie” wydaje się trafne. Czy czujemy, że możemy ufać monecie?
dnuttle
Początkowo może to być historycznie zamierzony cel prawdopodobieństwa, ale obecnie prawdopodobieństwa są każdą kalkulacją bayesowską i wiadomo, że prawdopodobieństwa mogą pogodzić przekonania i wiarygodność, dlatego stworzono teorię Dempstera-Shafera, aby ujednoznacznić obie interpretacje.
ponury
50

Załóżmy, że masz monetę z prawdopodobieństwem p do lądowania głów i (1p) do lądowania ogonów. Niech x=1 oznacza głowy, a x=0 oznacza ogony. Zdefiniuj f w następujący sposób

f(x,p)=px(1p)1x

f(x,2/3) jest prawdopodobieństwo X, zakładając,p=2/3 ,f(1,p) to prawdopodobieństwop podanex=1 . Zasadniczo prawdopodobieństwo vs. prawdopodobieństwo mówi ci, który parametr gęstości jest uważany za zmienną

Jarosław Bułatow
źródło
Ładne uzupełnienie teoretycznych definicji użytych powyżej!
Frank Meulenaar,
Widzę, że daje prawdopodobieństwo posiadania n głów w próbach k . Twoje p x ( 1 - p ) 1 - x wygląda jak k -ty pierwiastek tego: x = n / k . Co to znaczy? Cknpn(1p)knnkpx(1p)1xkx=n/k
Little Alien
40

Jeśli mam uczciwą monetę (wartość parametru), prawdopodobieństwo, że się pojawi, wynosi 0,5. Jeśli przerzucę monetę 100 razy i pojawi się ona 52 razy, to ma duże prawdopodobieństwo bycia uczciwym (wartość liczbowa prawdopodobieństwa potencjalnie przybiera różne formy).

Jan
źródło
3
To i odpowiedź Cyganka powinny być na górze! Intuicja i przejrzystość ponad suchym rygorem matematycznym, nie mówiąc już o bardziej uwłaczającym.
Nemanja Radojković
24

można zobaczyć z dwóch punktów widzenia:P(x|θ)

  • W funkcji traktowanie θ w sposób znany / obserwowany. xθJeśli nie jest zmienną losową, wówczas P ( x | θ ) nazywa się ( sparametryzowanym ) prawdopodobieństwem x, biorąc pod uwagę parametry modelu θ , które czasami są również zapisywane jako P ( x ; θ ) lub P θ ( x ) . Jeśli θ jest zmienną losową, jak w statystyce bayesowskiej, to P ( x | θ ) jest aθP(x|θ)xθP(x;θ)Pθ(x)θP(x|θ)prawdopodobieństwo warunkowe , zdefiniowane jako .P(xθ)/P(θ)
  • W funkcji traktowanie x jak zaobserwowano. θxNa przykład podczas próby znalezienia pewnego przypisania θ dla θ który maksymalizuje P ( x | θ ) , a następnie P ( x | θ ) nazywamy maksimum prawdopodobieństwa od θ podanymi danymi x , czasami pisany jako L ( θ | x ) . Tak więc termin prawdopodobieństwo jest po prostu skrótem odnoszącym się do prawdopodobieństwa P (θ^θP(x|θ)P(x|θ^)θxL(θ^|x) dla niektórych danych x, które wynikają z przypisania różnych wartości do θ (np. gdy ktoś przeszukuje przestrzeń wyszukiwania θ, aby uzyskać dobre rozwiązanie). Jest więc często używany jako funkcja celu, ale także jako miara wydajności do porównania dwóch modeli, tak jak w przypadkuporównania modelu Bayesa.P(x|θ)xθθ

Często to wyrażenie jest nadal funkcją obu jego argumentów, więc jest raczej kwestią nacisku.

Lenar Hoyt
źródło
W drugim przypadku myślałem, że ludzie zwykle piszą P (theta | x).
yuqian
Początkowo intuicyjnie myślałem, że oba słowa są takie same z różną perspektywą lub sformułowaniem w języku naturalnym, więc mam wrażenie, że „co? Miałem rację przez cały czas ?!” Ale jeśli tak jest, dlaczego wyróżnienie ich jest tak ważne? Angielski nie jest moim językiem ojczystym, dorastałem z jednym słowem dla pozornie obu terminów (czy po prostu nigdy nie miałem problemu z tym, że potrzebowałem rozróżnić terminy?) I nigdy nie wiedziałem, że jest jakaś różnica. Dopiero teraz, gdy znam dwa angielskie terminy, zaczynam wątpić w moje rozumienie tych rzeczy.
Zelphir Kaltstahl
3
Twoja odpowiedź wydaje się bardzo wyczerpująca i łatwa do zrozumienia. Zastanawiam się, dlaczego otrzymało tak mało głosów poparcia.
Julian
4
Zauważ, że P (x | ) jest warunkowym prawdopodobieństwem tylko wtedy, gdy θ jest zmienną losową, jeśli θ jest parametrem, jest to po prostu prawdopodobieństwo x sparametryzowane przez θ . θθθθ
Mircea Mironenco
myślę, że to najlepsza odpowiedź ze wszystkich
Aaron,
4

Moim zdaniem najważniejsze jest to, że prawdopodobieństwo nie jest prawdopodobieństwem ( ).θ

W problemie z estymacją podano X, a prawdopodobieństwo opisuje rozkład X zamiast θ . Oznacza to, że P ( X | θ ) d θ jest bez znaczenia, ponieważ prawdopodobieństwo nie jest pdf z θ , chociaż do pewnego stopnia charakteryzuje θ .P(X|θ)θP(X|θ)dθθθ

Odpowiedź777
źródło
1
Jak wskazuje odpowiedź @ Lenena Hoyta, jeśli theta jest zmienną losową (którą może być), prawdopodobieństwo jest prawdopodobieństwem. Tak więc prawdziwa odpowiedź wydaje się być taka, że ​​prawdopodobieństwo może być prawdopodobieństwem, ale czasem tak nie jest.
Mike Wise,
@MikeWise, myślę, że theta zawsze może być postrzegana jako zmienna „losowa”, podczas gdy istnieje prawdopodobieństwo, że nie jest tak „losowa” ...
Response777,
4

Czy znasz pilota serialu telewizyjnego „Num3ers”, w którym FBI próbuje zlokalizować bazę domową seryjnego przestępcy, który zdaje się wybierać swoje ofiary losowo?

doradca matematyczny FBI i brat odpowiedzialnego agenta rozwiązuje problem z podejściem z maksymalnym prawdopodobieństwem. po pierwsze zakłada pewne prawdopodobieństwo p(x|θ) kształcie „gugelhupfa”, że przestępstwa mają miejsce w miejscach x jeśli przestępca mieszka w miejscu θ . (założenie gugelhupfa jest takie, że przestępca nie popełni przestępstwa w swoim bezpośrednim sąsiedztwie ani nie pojedzie bardzo daleko, aby wybrać następną losową ofiarę.) model ten opisuje prawdopodobieństwo dla różnych x przy ustalonym θ . innymi słowy, pθ(x)=p(x|θ) jest funkcjąx ze stałym parametremθ .

oczywiście FBI nie zna miejsca zamieszkania przestępcy ani nie chce przewidzieć następnego miejsca przestępstwa. (mają nadzieję, że najpierw znajdą przestępcę!) Odwrotnie, FBI już zna miejsca zbrodni x i chce zlokalizować miejsce zamieszkania przestępcy θ .

θθp(x|θ)xlx(θ)=p(x|θ)θxxθ^

lx(θ)θpθ(x)xp(x|θ)xθ

schotti
źródło