Strona wikipedia twierdzi, że prawdopodobieństwo i prawdopodobieństwo to odrębne pojęcia.
W języku nietechnicznym „prawdopodobieństwo” jest zwykle synonimem „prawdopodobieństwa”, ale w zastosowaniu statystycznym istnieje wyraźne rozróżnienie w perspektywie: liczba, która jest prawdopodobieństwem niektórych zaobserwowanych wyników przy danym zestawie wartości parametrów, jest uważana za prawdopodobieństwo zbioru wartości parametrów z uwzględnieniem zaobserwowanych wyników.
Czy ktoś może podać bardziej konkretny opis tego, co to oznacza? Ponadto niektóre przykłady tego, jak „prawdopodobieństwo” i „prawdopodobieństwo” się nie zgadzają, byłyby przydatne.
probability
likelihood
Douglas S. Kamienie
źródło
źródło
Odpowiedzi:
Odpowiedź zależy od tego, czy mamy do czynienia z dyskretnymi, czy ciągłymi zmiennymi losowymi. Tak więc podzielę odpowiednio swoją odpowiedź. Zakładam, że potrzebujesz pewnych szczegółów technicznych i niekoniecznie wyjaśnienia w prostym języku angielskim.
Dyskretne zmienne losowe
Załóżmy, że masz proces stochastyczny, który przyjmuje dyskretne wartości (np. Wyniki rzutu monetą 10 razy, liczbę klientów, którzy przybywają do sklepu w 10 minut itp.). W takich przypadkach możemy obliczyć prawdopodobieństwo zaobserwowania określonego zestawu wyników, przyjmując odpowiednie założenia dotyczące leżącego u podstaw procesu stochastycznego (np. Prawdopodobieństwo głowic do lądowania monet wynosi a rzuty monetą są niezależne).p
Oznacz obserwowane wyniki przez i zestaw parametrów opisujących proces stochastyczny jako . Kiedy więc mówimy o prawdopodobieństwie, chcemy obliczyć . Innymi słowy, biorąc pod uwagę konkretne wartości dla , jest prawdopodobieństwo, że będziemy obserwować rezultaty przedstawione .O θ P(O|θ) θ P(O|θ) O
Kiedy jednak modelujemy proces stochastyczny z prawdziwego życia, często nie wiemy . Po prostu obserwować , a następnie celem jest osiągnięcie oszacowania dla , które byłyby wiarygodne wybór biorąc pod uwagę obserwowane efekty . Wiemy, że przy wartości prawdopodobieństwo zaobserwowania wynosi . W ten sposób „naturalny” proces szacowania jest, aby wybrać tę wartość , które zmaksymalizować prawdopodobieństwo, że właśnie obserwujemy . Innymi słowy, znajdujemy wartości parametrów które maksymalizują następującą funkcję:θ O θ O θ O P(O|θ) θ O θ
Ciągłe zmienne losowe
W przypadku ciągłym sytuacja jest podobna z jedną ważną różnicą. Nie możemy już mówić o prawdopodobieństwie zaobserwowania danej ponieważ w ciągłym przypadku . Bez wchodzenia w szczegóły techniczne podstawowa idea jest następująca:O θ P(O|θ)=0
Oznacz funkcję gęstości prawdopodobieństwa (pdf) związaną z wynikami jako: . Zatem w przypadku ciągłym szacujemy dane obserwowane wyniki poprzez maksymalizację następującej funkcji:O f(O|θ) θ O
W tej sytuacji, nie możemy twierdzić, że technicznie jesteśmy znalezienia wartości parametru, który maksymalizuje prawdopodobieństwo, że możemy obserwować jak zmaksymalizować PDF związane z obserwowanym efektach .O O
źródło
Jest to pytanie, na które odpowie prawie każdy i spodziewałbym się, że wszystkie odpowiedzi będą dobre. Ale jesteś matematykiem, Douglas, więc pozwól, że dam matematyczną odpowiedź.
Model statystyczny musi łączyć dwa odrębne byty pojęciowe: dane , które są elementami pewnego zbioru (np. Przestrzeni wektorowej), oraz możliwy model ilościowy zachowania danych. Modele są zwykle reprezentowane przez punkty na kolektorze o skończonych wymiarach, kolektorze z granicą lub przestrzeni funkcji (ta ostatnia jest określana jako problem „nieparametryczny”).x θ
Dane są połączone z możliwymi modelami za pomocą funkcji . Dla każdego , ma być prawdopodobieństwem (lub gęstością prawdopodobieństwa) . Z drugiej strony, dla dowolnego , może być postrzegane jako funkcja i zwykle przyjmuje się, że ma pewne ładne właściwości, takie jak ciągłe drugie rozróżnianie. Zamiar widzenia w ten sposób i powołania się na te założenia ogłasza się, nazywając „prawdopodobieństwem”.x θ Λ(x,θ) θ Λ(x,θ) x x Λ ( x , θ ) θ Λ Λ
Przypomina to rozróżnienie między zmiennymi a parametrami w równaniu różniczkowym: czasami chcemy zbadać rozwiązanie (tj. Skupiamy się na zmiennych jako argumentie), a czasem chcemy zbadać, w jaki sposób rozwiązanie zmienia się w zależności od parametrów. Główne rozróżnienie polega na tym, że w statystykach rzadko musimy badać jednoczesną zmienność obu zestawów argumentów; nie ma obiektu statystycznego, który naturalnie odpowiadałby zmianie zarówno danych i parametrów modelu . Dlatego słyszysz więcej o tej dychotomii niż w analogicznych ustawieniach matematycznych.x θ
źródło
Spróbuję zminimalizować matematykę w moim objaśnieniu, ponieważ istnieją już pewne dobre matematyczne wyjaśnienia.
Jak zauważa Robin Girand, różnica między prawdopodobieństwem a prawdopodobieństwem jest ściśle związana z różnicą między prawdopodobieństwem a statystykami . W pewnym sensie prawdopodobieństwo i statystyki dotyczą problemów, które są przeciwne lub odwrotne.
Rozważ rzut monetą. (Moja odpowiedź będzie podobna do przykładu 1 na Wikipedii .) Jeśli wiemy, że moneta jest uczciwa ( ), typowe pytanie prawdopodobieństwa brzmi: jakie jest prawdopodobieństwo uzyskania dwóch głów z rzędu. Odpowiedź brzmi: P ( H H ) = P ( H ) × P ( H ) = 0,5 × 0,5 = 0,25 .p=0.5 P(HH)=P(H)×P(H)=0.5×0.5=0.25
Typowe pytanie statystyczne brzmi: czy monety są uczciwe? Aby odpowiedzieć na to pytanie, musimy zapytać: w jakim stopniu nasza próbka potwierdza naszą hipotezę, że ?P(H)=P(T)=0.5
Pierwszą kwestią, na którą należy zwrócić uwagę, jest odwrócenie kierunku pytania. Prawdopodobnie zaczynamy od przyjętego parametru ( ) i szacujemy prawdopodobieństwo danej próbki (dwie głowy z rzędu). W statystykach zaczynamy od obserwacji (dwie głowy z rzędu) i wnioskujemy o naszym parametrze ( ).P(head) p=P(H)=1−P(T)=1−q
Przykład 1 na Wikipedii pokazuje nam, że maksymalne prawdopodobieństwo po 2 głowach z rzędu wynosi . Ale dane w żaden sposób nie wykluczają prawdziwej wartości parametru (nie zajmujmy się obecnie szczegółami). Rzeczywiście tylko bardzo małe wartości a zwłaszcza można rozsądnie wyeliminować po (dwa rzuty monetą). Po wyrzuceniu trzeciego rzutu możemy teraz wyeliminować możliwość, że (tj. Nie jest to moneta dwugłowa), ale większość wartości pomiędzy nimi może być w uzasadniony sposób poparta danymip M L E = 1 p ( H ) = 0,5 p ( H ) p ( H ) = 0 n = 2 P ( H ) = 1,0P(H) pMLE=1 p(H)=0.5 p(H) p(H)=0 n=2 P(H)=1.0 . (Dokładny dwumianowy 95% przedział ufności dla wynosi od 0,094 do 0,992.p(H)
Po 100 rzutach monetą i (powiedzmy) 70 głowach mamy uzasadnioną podstawę do podejrzeń, że moneta nie jest uczciwa. Dokładne 95% CI na wynosi teraz 0,600 do 0,787, a prawdopodobieństwo zaobserwowania wyniku tak ekstremalnego jak 70 lub więcej głów (lub ogonów) ze 100 rzutów przy p ( H ) = 0,5 wynosi 0,0000785.p(H) p(H)=0.5
Chociaż nie użyłem jawnie obliczeń prawdopodobieństwa, w tym przykładzie ujęto pojęcie prawdopodobieństwa: Prawdopodobieństwo jest miarą stopnia, w jakim próbka zapewnia obsługę określonych wartości parametru w modelu parametrycznym .
źródło
Dam ci perspektywę z punktu widzenia teorii wiarygodności, która pochodzi od Fishera - i jest podstawą definicji statystycznej w cytowanym artykule w Wikipedii.
Załóżmy, że masz losowy zmiennymi , które wynikają z parametryzowanego dystrybucji F ( X ; θ ) , gdzie θ jest parametrem charakteryzującym F . Wtedy prawdopodobieństwo X = x byłoby: P ( X = x ) = F ( x ; θ ) , ze znanym θ .X F(X;θ) θ F X=x P(X=x)=F(x;θ) θ
Częściej masz dane a θ jest nieznane. Ze względu na przyjęty model F , prawdopodobieństwo jest zdefiniowana jako prawdopodobieństwo obserwowanych danych w funkcji θ : L ( θ ) = P ( θ ; X = x ) . Zauważ, że X jest znany, ale θ jest nieznany; w rzeczywistości motywacją do zdefiniowania prawdopodobieństwa jest określenie parametru rozkładu.X θ F θ L(θ)=P(θ;X=x) X θ
Chociaż wydaje się, że po prostu przepisaliśmy funkcję prawdopodobieństwa, kluczową konsekwencją tego jest to, że funkcja prawdopodobieństwa nie przestrzega praw prawdopodobieństwa (na przykład nie jest związana z przedziałem [0, 1]). Jednak funkcja prawdopodobieństwa jest proporcjonalna do prawdopodobieństwa zaobserwowanych danych.
Ta koncepcja prawdopodobieństwa faktycznie prowadzi do innej szkoły myślenia, „likelializmu” (w odróżnieniu od częstokroć i bayesowskiego) i możesz wyszukiwać w różnych historycznych debatach. Podstawą jest zasada prawdopodobieństwa, która zasadniczo mówi, że możemy dokonywać wnioskowania bezpośrednio z funkcji prawdopodobieństwa (ani Bayesianie, ani częstokroć nie akceptują tego, ponieważ nie jest to wnioskowanie oparte na prawdopodobieństwie). W dzisiejszych czasach wiele tego, co uczy się w szkołach jako „częstych” jest w rzeczywistości połączeniem myślenia częstego i prawdopodobieństwa.
Dla głębszego wglądu dobrym początkiem i historycznym odniesieniem jest prawdopodobieństwo Edwardsa . Do współczesnego ujęcia polecam wspaniałą monografię Richarda Royalla, „ Dowody statystyczne: paradygmat wiarygodności” .
źródło
Biorąc pod uwagę wszystkie powyższe dokładne odpowiedzi techniczne, powrócę do języka: prawdopodobieństwo określa ilościowo oczekiwanie (wyniku), prawdopodobieństwo określa zaufanie (w modelu).
Załóżmy, że ktoś rzuci nam wyzwanie na „dochodową grę hazardową”. Następnie prawdopodobieństwa pomogą nam obliczyć rzeczy takie jak oczekiwany profil twoich zysków i strat (średnia, tryb, mediana, wariancja, współczynnik informacji, wartość zagrożona, ruiny graczy itp.). Natomiast prawdopodobieństwo posłuży nam do oszacowania, czy ufamy tym prawdopodobieństwom; lub czy „wąchamy szczura”.
Nawiasem mówiąc - skoro ktoś wyżej wspomniał o religiach statystyki - uważam, że wskaźnik prawdopodobieństwa jest integralną częścią świata Bayesa, jak również tego, który jest częsty: w świecie Bayesa formuła Bayesa łączy się po prostu z prawdopodobieństwem wyprodukowania późniejszego.
źródło
Załóżmy, że masz monetę z prawdopodobieństwemp do lądowania głów i (1−p) do lądowania ogonów. Niech x=1 oznacza głowy, a x=0 oznacza ogony. Zdefiniuj f w następujący sposób
źródło
Jeśli mam uczciwą monetę (wartość parametru), prawdopodobieństwo, że się pojawi, wynosi 0,5. Jeśli przerzucę monetę 100 razy i pojawi się ona 52 razy, to ma duże prawdopodobieństwo bycia uczciwym (wartość liczbowa prawdopodobieństwa potencjalnie przybiera różne formy).
źródło
można zobaczyć z dwóch punktów widzenia:P(x|θ)
Często to wyrażenie jest nadal funkcją obu jego argumentów, więc jest raczej kwestią nacisku.
źródło
Moim zdaniem najważniejsze jest to, że prawdopodobieństwo nie jest prawdopodobieństwem ( ).θ
W problemie z estymacją podano X, a prawdopodobieństwo opisuje rozkład X zamiast θ . Oznacza to, że ∫ P ( X | θ ) d θ jest bez znaczenia, ponieważ prawdopodobieństwo nie jest pdf z θ , chociaż do pewnego stopnia charakteryzuje θ .P(X|θ) θ ∫P(X|θ)dθ θ θ
źródło
Czy znasz pilota serialu telewizyjnego „Num3ers”, w którym FBI próbuje zlokalizować bazę domową seryjnego przestępcy, który zdaje się wybierać swoje ofiary losowo?
doradca matematyczny FBI i brat odpowiedzialnego agenta rozwiązuje problem z podejściem z maksymalnym prawdopodobieństwem. po pierwsze zakłada pewne prawdopodobieństwop(x|θ) kształcie „gugelhupfa”, że przestępstwa mają miejsce w miejscach x jeśli przestępca mieszka w miejscu θ . (założenie gugelhupfa jest takie, że przestępca nie popełni przestępstwa w swoim bezpośrednim sąsiedztwie ani nie pojedzie bardzo daleko, aby wybrać następną losową ofiarę.) model ten opisuje prawdopodobieństwo dla różnych x przy ustalonym θ . innymi słowy, pθ(x)=p(x|θ) jest funkcjąx ze stałym parametremθ .
oczywiście FBI nie zna miejsca zamieszkania przestępcy ani nie chce przewidzieć następnego miejsca przestępstwa. (mają nadzieję, że najpierw znajdą przestępcę!) Odwrotnie, FBI już zna miejsca zbrodnix i chce zlokalizować miejsce zamieszkania przestępcy θ .
źródło