Dlaczego ludzie używają wartości p zamiast obliczać prawdopodobieństwo modelu na podstawie danych?

43

Z grubsza mówiąc, wartość p daje prawdopodobieństwo zaobserwowanego wyniku eksperymentu, biorąc pod uwagę hipotezę (model). Mając to prawdopodobieństwo (wartość p), chcemy ocenić naszą hipotezę (jak prawdopodobne jest). Ale czy nie byłoby bardziej naturalne obliczanie prawdopodobieństwa hipotezy na podstawie obserwowanego wyniku?

Więcej szczegółów Mamy monetę. Odwracamy go 20 razy i otrzymujemy 14 głów (14 na 20 to coś, co nazywam „wynikiem eksperymentu”). Nasza hipoteza jest taka, że moneta jest sprawiedliwa (prawdopodobieństwo głowy i ogona są sobie równe). Teraz obliczamy wartość p, która jest równa prawdopodobieństwu zdobycia 14 lub więcej głów w 20 rzutach monetą. OK, teraz mamy to prawdopodobieństwo (0,058) i chcemy wykorzystać to prawdopodobieństwo do oceny naszego modelu (jak prawdopodobne jest, że mamy uczciwą monetę).

Ale jeśli chcemy oszacować prawdopodobieństwo modelu, dlaczego nie obliczamy prawdopodobieństwa modelu na podstawie eksperymentu? Dlaczego obliczamy prawdopodobieństwo eksperymentu na podstawie modelu (wartość p)?

likelihood p-value rzymski
źródło

Nadal będziesz musiał w jakiś sposób wymodelować eksperyment, aby móc obliczyć funkcję prawdopodobieństwa.

Raskolnikov,

11

Pete Dixon napisał w 1998 roku artykuł zatytułowany „Dlaczego naukowcy cenią wartości p” ( psychonomic.org/backissues/1631/R382.pdf ), który może być lekturą informacyjną. Dobrym uzupełnieniem byłby artykuł Glovera i Dixona z 2004 r. Na temat wskaźnika wiarygodności jako miernika zastępczego ( pbr.psychonomic-journals.org/content/11/5/791.full.pdf ).

Mike Lawrence,

2

Mike, to wygląda dla mnie podejrzanie na dobrą odpowiedź. Co robi w komentarzach?

Matt Parker,

John D Kucharz pisał doskonałą odpowiedź na pytanie z kopalni, które myślę, że będzie można znaleźć ciekawe: stats.stackexchange.com/questions/1164/...

Doug

Statystyki nie używają wartości p, statystycy. (Nie mogłem się oprzeć zwięzłemu stwierdzeniu, które jest również prawdą. Oczywiście, gdy zaczniesz właściwie kwalifikować każdy rzeczownik, traci on swoją zwięzłość.)

Wayne

31

Obliczanie prawdopodobieństwa, że hipoteza jest poprawna, nie pasuje dobrze do częstej definicji prawdopodobieństwa (częstotliwości długofalowej), która została przyjęta w celu uniknięcia rzekomej subiektywności bayesowskiej definicji prawdopodobieństwa. Prawda konkretnej hipotezy nie jest zmienną losową, albo jest prawdą, albo nie jest i nie ma częstotliwości długofalowej. Bardziej naturalne jest zainteresowanie prawdopodobieństwem prawdziwości hipotezy, dlatego IMHO jest zdania, że wartości p są często błędnie interpretowane jako prawdopodobieństwo, że hipoteza zerowa jest prawdziwa. Część trudności polega na tym, że z reguły Bayesa wiemy, że aby obliczyć prawdopodobieństwo tylne, że hipoteza jest prawdziwa, należy zacząć od wcześniejszego prawdopodobieństwa, że hipoteza jest prawdziwa.

Bayesa by obliczyć prawdopodobieństwo, że hipoteza jest prawdziwa, biorąc pod uwagę dane (i jego / jej przed wiara).

Zasadniczo przy podejmowaniu decyzji między podejściem częstokrzyskim a bayesowskim jest wybór, czy domniemana subiektywność podejścia bayesowskiego jest bardziej odrażająca niż fakt, że podejście częstokroć ogólnie nie daje bezpośredniej odpowiedzi na pytanie, które naprawdę chcesz zadać - ale jest miejsce na obie.

W przypadku pytania, czy moneta jest uczciwa, tj. Prawdopodobieństwo głowy jest równe prawdopodobieństwu ogona, mamy również przykład hipotezy, którą wiemy, że w prawdziwym świecie jest prawie na pewno fałszywa od samego początku. Dwie strony monety są niesymetryczne, więc należy spodziewać się niewielkiej asymetrii prawdopodobieństwa głów i reszków, więc jeśli moneta „przejdzie” test, oznacza to po prostu, że nie mamy wystarczającej liczby obserwacji, aby móc wnioskujmy z tego, co już wiemy, że jest prawdą - że moneta jest bardzo nieznacznie tendencyjna!

Dikran Torbacz
źródło

4

W rzeczywistości większość monet jest bardzo zbliżona do uczciwej i trudno jest znaleźć fizycznie wiarygodny sposób, aby je bardzo mocno obciążać

Ben Bolker

8

Bycie bardzo blisko fair nie jest tym samym, co bycie dokładnie fair, co jest hipotezą zerową. Wskazywałem jedną z osobliwości testowania hipotez, mianowicie to, że często wiemy, że hipoteza zerowa jest fałszywa, ale i tak ją wykorzystaj. Bardziej praktyczny test miałby na celu wykrycie, czy istnieją dowody na to, że moneta jest stronnicza, a nie znaczący dowód na to, że moneta jest stronnicza.

Dikran Torbacz

1

Cześć, może się mylę, ale myślałem w nauce, że nigdy nie można powiedzieć, że hipoteza alternatywna jest prawdziwa, można jedynie powiedzieć, że hipoteza zerowa została odrzucona i akceptujesz hipotezę alternatywną. Według mnie wartość p odzwierciedla prawdopodobieństwo popełnienia błędu typu 1, tzn. Odrzucenia alternatywnej hipotezy i zaakceptowania hipotezy zerowej (powiedzmy p = 0,05 lub 5% czasu. Ważne jest, aby odróżnić typ 1 błąd i błąd typu 2 oraz rola, jaką władza odgrywa w modelowaniu zdarzeń

user2238

3

W przypadku testów częstych użyłbym jeszcze słabszego stwierdzenia, że „odrzucasz hipotezę zerową” lub „odrzucasz hipotezę zerową” i niczego nie akceptujesz. Kluczową kwestią jest to, że (tak jak w przypadku monet tendencyjnych) czasami wiesz a priori, że hipoteza zerowa nie jest prawdziwa, po prostu nie masz wystarczających danych, aby wykazać, że to nieprawda; w takim przypadku byłoby dziwne „zaakceptować” to. Testy przeprowadzane przez częstych specjalistów mają wskaźniki błędów typu I i typu II, ale nie oznacza to, że mogą mówić o prawdopodobieństwie spełnienia określonej hipotezy, tak jak w OP.

Dikran Torbacz

2

@ user2238 Wartość p jest szansą na błąd typu I tylko wtedy, gdy hipoteza zerowa jest „prosta” (nie złożona) i okazuje się, że jest prawdziwa. Na przykład w jednostronnym teście, czy moneta jest nastawiona na ogony ( ), użycie monety dwugłowej gwarantuje, że ryzyko błędu typu I wynosi zero, mimo że wartość p z każda skończona próbka będzie niezerowa.

H_{0} : p < 0.5

$H_0: p\lt 0.5$

whuber

18

Nie ma to jak odpowiedzenie na naprawdę stare pytanie, ale oto idzie ...

Wartości p są prawie prawidłowymi testami hipotez. Jest to nieco zaadaptowane ćwiczenie zaczerpnięte z książki teorii prawdopodobieństwa Jaynesa z 2003 r. (Eksperymenty powtarzalne: prawdopodobieństwo i częstotliwość). Załóżmy, że mamy hipotezę zerową , którą chcemy przetestować. Mamy danych i wcześniejsza informacja . Załóżmy, że istnieje jakaś nieokreślona hipoteza , na której przetestujemy . iloraz szans dla względem jest następnie podawany przez: $H_0$ $D$ $I$ $H_A$ $H_0$ $H_A$ $H_0$

\frac{P (H_{A} | D I)}{P (H_{0} | D I)} = \frac{P (H_{A} | I)}{P (H_{0} | I)} \times \frac{P (D | H_{A} I)}{P (D | H_{0} I)}

$\frac{P(H_A|DI)}{P(H_0|DI)}=\frac{P(H_A|I)}{P(H_0|I)}\times\frac{P(D|H_AI)}{P(D|H_0I)}$

Teraz pierwszy termin po prawej stronie jest niezależny od danych, więc dane mogą wpływać na wynik tylko za pośrednictwem drugiego terminu. Teraz możemy zawsze wymyślić alternatywną hipotezę taką, że - hipoteza „idealnego dopasowania”. Dlatego możemy użyć jako miary tego, jak dobrze dane mogą wspierać każdą alternatywną hipotezę o wartości zerowej. Nie ma alternatywnej hipotezy, że dane mogłyby obsłużyć ponad o więcej niż . Możemy również ograniczyć klasę alternatyw, a zmiana polega na tym, że jest zastępowane przez zmaksymalizowane prawdopodobieństwo (w tym stałe normalizujące) w tej klasie. Jeżeli $H_A$ $P(D|H_AI)=1$ $\frac{1}{P(D|H_0I)}$ $H_0$ $\frac{1}{P(D|H_0I)}$ $1$ $P(D|H_0I)$ zaczyna być za mały, wtedy zaczynamy wątpić w zero, ponieważ liczba alternatyw między i rośnie (w tym niektóre z nieistotnymi wcześniejszymi prawdopodobieństwami). Jest to jednak prawie to, co dzieje się z wartościami p, ale z jednym wyjątkiem: nie obliczamy prawdopodobieństwa dla dla niektórych statystyk i jakiegoś „złego” obszaru statystyki. Obliczamy prawdopodobieństwo dla - informacje, które faktycznie mamy, a nie jakiś ich podzbiór, . $H_0$ $H_A$ $t(D)>t_0$ $t(D)$ $D$ $t(D)$

Innym powodem, dla którego ludzie używają wartości p, jest to, że często sprowadzają się one do „właściwego” testu hipotezy, ale mogą być łatwiejsze do obliczenia. Możemy to pokazać na bardzo prostym przykładzie testowania normalnej średniej ze znaną wariancją. Mamy dane z założonym modelem (część wcześniejszych informacji ). Chcemy przetestować . Następnie, po drobnych obliczeniach: $D\equiv\{x_1,\dots,x_N\}$ $x_i\sim Normal(\mu,\sigma^2)$ $I$ $H_0:\mu=\mu_0$

P (D | H_{0} I) = (2 π σ^{2})^{- \frac{N}{2}} \exp (- \frac{N [s^{2} + (\bar{x} - μ_{0})^{2}]}{2 σ^{2}})

$P(D|H_0I)=(2\pi\sigma^2)^{-\frac{N}{2}}\exp\left(-\frac{N\left[s^2+(\overline{x}-\mu_0)^2\right]}{2\sigma^2}\right)$

Gdzie i . To pokazuje, że maksymalna wartość zostanie osiągnięta, gdy . Maksymalna wartość to: $\overline{x}=\frac{1}{N}\sum_{i=1}^{N}x_i$ $s^2=\frac{1}{N}\sum_{i=1}^{N}(x_i-\overline{x})^2$ $P(D|H_0I)$ $\mu_0=\overline{x}$

P (D | H_{A} I) = (2 π σ^{2})^{- \frac{N}{2}} \exp (- \frac{N s^{2}}{2 σ^{2}})

$P(D|H_AI)=(2\pi\sigma^2)^{-\frac{N}{2}}\exp\left(-\frac{Ns^2}{2\sigma^2}\right)$

Przyjmujemy więc stosunek tych dwóch i otrzymujemy:

\frac{P (D | H_{A} I)}{P (D | H_{0} I)} = \frac{(2 π σ^{2})^{- \frac{N}{2}} \exp (- \frac{N s^{2}}{2 σ^{2}})}{(2 π σ^{2})^{- \frac{N}{2}} \exp (- \frac{N s^{2} + N (\bar{x} - μ_{0})^{2}}{2 σ^{2}})} = \exp (\frac{z^{2}}{2})

$\frac{P(D|H_AI)}{P(D|H_0I)}=\frac{(2\pi\sigma^2)^{-\frac{N}{2}}\exp\left(-\frac{Ns^2}{2\sigma^2}\right)}{(2\pi\sigma^2)^{-\frac{N}{2}}\exp\left(-\frac{Ns^2+N(\overline{x}-\mu_0)^2}{2\sigma^2}\right)}=\exp\left(\frac{z^2}{2}\right)$

Gdzie jest „statystyką Z”. Duże wartościpoddaje w wątpliwość hipotezę zerową w stosunku do hipotezy o normalnej średniej, która jest najmocniej poparta danymi. Widzimy również, że jest jedyną potrzebną częścią danych, a zatem jest wystarczającą statystyką do testu. $z=\sqrt{N}\frac{\overline{x}-\mu_0}{\sigma}$ $|z|$ $\overline{x}$

Podejście wartości p do tego problemu jest prawie takie samo, ale odwrotnie. Zaczynamy od wystarczającej statystyki i obliczamy jej rozkład próbkowania, który łatwo można pokazać jako - gdzie użyłem dużej litery do odróżnienia zmiennej losowej od wartości obserwowanej . Teraz musimy znaleźć region, który poddaje w wątpliwość hipotezę zerową: łatwo zauważyć, że są to regiony, w którychjest wielki. Możemy więc obliczyć prawdopodobieństwo, że $\overline{x}$ $\overline{X}\sim Normal\left(\mu,\frac{\sigma^2}{N}\right)$ $\overline{X}$ $\overline{x}$ $|\overline{X}-\mu_0|$ $|\overline{X}-\mu_0|\geq |\overline{x}-\mu_0|$ jako miarę oddalenia obserwowanych danych od hipotezy zerowej. Tak jak poprzednio, jest to proste obliczenie i otrzymujemy:

p-value = P (| \bar{X} - μ_{0} | \geq | \bar{x} - μ_{0} | | H_{0})

$\text{p-value}=P(|\overline{X}-\mu_0|\geq |\overline{x}-\mu_0||H_0)$

= 1 - P [- \sqrt{N} \frac{| \bar{x} - μ_{0} |}{σ} \leq \sqrt{N} \frac{\bar{X} - μ_{0}}{σ} \leq \sqrt{N} \frac{| \bar{x} - μ_{0} |}{σ} | H_{0}]

$=1-P\left[-\sqrt{N}\frac{|\overline{x}-\mu_0|}{\sigma}\leq\sqrt{N}\frac{\overline{X}-\mu_0}{\sigma}\leq \sqrt{N}\frac{|\overline{x}-\mu_0|}{\sigma}|H_0\right]$

= 1 - P (- | z | \leq Z \leq | z | | H_{0}) = 2 [1 - Φ (| z |)]

$=1-P(-|z|\leq Z\leq |z||H_0)=2\left[1-\Phi(|z|)\right]$

Teraz widzimy, że wartość p jest monotoniczną funkcją malejącą, co oznacza, że zasadniczo otrzymujemy tę samą odpowiedź, co „właściwy” test hipotez. Odrzucenie, gdy wartość p jest poniżej pewnego progu, jest tym samym, co odrzucenie, gdy szanse na później są powyżej pewnego progu. Zauważ jednak, że wykonując właściwy test, musieliśmy zdefiniować klasę alternatyw i musieliśmy zmaksymalizować prawdopodobieństwo w stosunku do tej klasy. Dla wartości p musimy znaleźć statystykę, obliczyć jej rozkład próbkowania i oszacować ją na podstawie obserwowanej wartości. W pewnym sensie wybór statystyki jest równoznaczny ze zdefiniowaniem alternatywnej hipotezy, którą rozważasz. $|z|$

Chociaż w tym przykładzie obie są łatwe do zrobienia, nie zawsze są tak łatwe w bardziej skomplikowanych przypadkach. W niektórych przypadkach może być łatwiej wybrać odpowiednią statystykę i obliczyć jej rozkład próbkowania. W innych może być łatwiej zdefiniować klasę alternatyw i zmaksymalizować w stosunku do tej klasy.

Ten prosty przykład uwzględnia dużą liczbę testów opartych na wartości p, po prostu dlatego, że tak wiele testów hipotez ma odmianę „w przybliżeniu normalną”. Zapewnia również przybliżoną odpowiedź na problem z monetami (przy użyciu normalnego przybliżenia do dwumianu). Pokazuje również, że wartości p w tym przypadku nie doprowadzą cię na manowce, przynajmniej w zakresie testowania pojedynczej hipotezy. W tym przypadku możemy powiedzieć, że wartość p jest miarą dowodów przeciwko hipotezie zerowej.

Jednak wartości p mają mniej interpretowalną skalę niż współczynnik Bayesa - związek między wartością p a „ilością” dowodów w odniesieniu do wartości zerowej jest złożony. Wartości p stają się zbyt małe zbyt szybko - co utrudnia ich prawidłowe użycie. Zazwyczaj przeceniają wsparcie w stosunku do wartości zerowej dostarczonej przez dane. Jeśli interpretujemy wartości p jako prawdopodobieństwa zerowe - w kursie wynosi , gdy faktyczny dowód wynosi , a w kursie wynosi gdy faktyczny dowód wynosi . Innymi słowy, użycie wartości p jako prawdopodobieństwa, że wartość null jest fałszywa, jest równoznaczne z ustawieniem wcześniejszych szans. Tak więc dla wartości p $0.1$ $9$ $3.87$ $0.05$ $19$ $6.83$ $0.1$ implikowane wcześniejsze szanse przeciw zeru wynoszą a dla wartości p implikowane wcześniejsze szanse przeciw zeru wynoszą . $2.33$ $0.05$ $2.78$

prawdopodobieństwo prawdopodobieństwa
źródło

4

+1. „... wybór statystyki jest równoznaczny ze zdefiniowaniem alternatywnej hipotezy, którą rozważasz”, uderza mnie głęboko.

whuber

Dobra odpowiedź. Warto zauważyć (choć oczywiste), że praca z klasą alternatyw, która jest większa niż dla niektórych małych może często być obliczeniowo zabroniona, nie mówiąc już o tym, jeśli trzeba pracować z nieskończoną lub niepoliczalną liczbą alternatyw, które mogą również wystąpić. w praktyce. Dużym plusem podejścia opartego na wartości p jest to, że często (zazwyczaj?) Obliczeniowo jest on prosty / możliwy do przełożenia.

k

$k$

k

$k$

Faheem Mitha

1

@ faheemmitha- masz rację co do eksplozji kombinatorycznej, jednak nie dzieje się tak w przypadku podejścia, które opisuję (w rzeczywistości możesz wykazać, że podejście Bayesa skutecznie definiuje pozostałości). Jest tak, ponieważ musimy tylko zdefiniować klasę, a następnie zmaksymalizować. Nie musimy oceniać każdej alternatywy, wystarczy znaleźć najlepszą.

probabilityislogic

Dlaczego jest to odpowiedź Community Wiki?

ameba mówi Przywróć Monikę

10

Jako były pracownik naukowy, który przeszedł do praktyki, postaram się strzelić. Ludzie używają wartości p, ponieważ są one przydatne. Nie widać tego w podręcznikowych przykładach rzutów monetą. Oczywiście nie są one tak naprawdę solidne, ale może nie jest to tak konieczne, jak lubimy myśleć, gdy myślimy naukowo. W świecie danych otacza nas dosłownie nieskończona liczba możliwych rzeczy do zbadania w następnej kolejności. Dzięki obliczeniom wartości p wystarczy wszystko, co jest nieciekawe, oraz heurystyka numeryczna dla tego, jakie dane mogą być interesujące (plus model prawdopodobieństwa dla nieciekawych). Następnie indywidualnie lub zbiorowo możemy skanować rzeczy dość prosto, odrzucając większość nieciekawych. Wartość p pozwala nam powiedzieć „Jeśli nie przywiązuję większej wagi do myślenia o tym inaczej,

Internet
źródło

10

Twoje pytanie jest doskonałym przykładem częstego rozumowania i jest w rzeczywistości całkiem naturalne. Użyłem tego przykładu w swoich klasach, aby zademonstrować naturę testów hipotez. Proszę wolontariusza, aby przewidział wyniki rzutu monetą. Bez względu na wynik zapisuję „prawidłowe” przypuszczenie. Robimy to wielokrotnie, aż klasa stanie się podejrzliwa.

Teraz mają w głowie model zerowy. Zakładają, że moneta jest uczciwa. Biorąc pod uwagę, że założenie 50% poprawności, kiedy wszystko jest uczciwe, każde kolejne prawidłowe przypuszczenie budzi większe podejrzenie, że model uczciwych monet jest nieprawidłowy. Kilka trafnych domysłów i akceptują rolę przypadku. Po 5 lub 10 trafnych domysłach klasa zawsze zaczyna podejrzewać, że szansa na uczciwą monetę jest niska. Tak też jest z naturą testowania hipotez w modelu częstym.

Jest to wyraźna i intuicyjna reprezentacja częstych przyjmujących test hipotez. Jest to prawdopodobieństwo zaobserwowanych danych, biorąc pod uwagę, że wartość null jest prawdziwa. Jest to w rzeczywistości całkiem naturalne, jak wykazano w tym łatwym eksperymencie. Przyjmujemy za pewnik, że model ma 50-50, ale wraz ze wzrostem dowodów odrzucam ten model i podejrzewam, że w grę wchodzi coś jeszcze.

Zatem jeśli prawdopodobieństwo tego, co obserwuję, jest niskie, biorąc pod uwagę model, który zakładam (wartość p), to mam pewne zaufanie do odrzucenia mojego założonego modelu. Zatem wartość p jest użyteczną miarą dowodów w stosunku do mojego założonego modelu, biorąc pod uwagę rolę przypadku.

Oświadczenie: wziąłem to ćwiczenie z dawno zapomnianego artykułu, w którym, jak pamiętam, był to jeden z czasopism ASA.

Brett
źródło

Brett, to ciekawy i świetny przykład. Wydaje mi się, że model tutaj polega na tym, że ludzie spodziewają się, że kolejność głów i ogonów będzie przypadkowa. Na przykład, jeśli widzę 5 głów z rzędu, wnioskuję, że jest to przykład procesu nieprzypadkowego. W rzeczywistości, i mogę się tutaj mylić, prawdopodobieństwo, że toin coss (przy założeniu losowości) wynosi 50% głów i 50% ogonów, i jest to całkowicie niezależne od poprzedniego wyniku. Chodzi o to, że jeśli rzucilibyśmy monetą 50000 razy, a pierwsze 25000 były głowami, pod warunkiem, że pozostałe 25000 były ogonami, nadal oznacza to brak uprzedzeń

2238

@ user2238: Twoje ostatnie stwierdzenie jest prawdziwe, ale byłoby wyjątkowo rzadkie. W rzeczywistości oglądanie 5 głów w 5 rzutach zdarzyłoby się tylko w 3% przypadków, jeśli moneta jest uczciwa. Zawsze jest możliwe, że zero jest prawdziwe i byliśmy świadkami rzadkiego zdarzenia.

Brett,

6

„Z grubsza mówiąc wartość p daje prawdopodobieństwo zaobserwowanego wyniku eksperymentu, biorąc pod uwagę hipotezę (model)”.

ale tak nie jest. Nawet z grubsza - zachowuje to zasadnicze rozróżnienie.

Model nie jest określony, jak wskazuje Raskolnikow, ale załóżmy, że masz na myśli model dwumianowy (niezależne podrzucanie monet, naprawione nieznane odchylenie monet). Hipotezą jest twierdzenie, że odpowiedni parametr w tym modelu, odchylenie lub prawdopodobieństwo głów, wynosi 0,5.

„Mając to prawdopodobieństwo (wartość p) chcemy ocenić naszą hipotezę (jak prawdopodobne jest)”

Możemy rzeczywiście chcieć dokonać takiego osądu, ale wartość p nie pomoże (i nie została zaprojektowana), aby nam to pomóc.

„Ale czy nie byłoby bardziej naturalne obliczanie prawdopodobieństwa hipotezy na podstawie obserwowanego wyniku?”

Być może tak. Zobacz całą dyskusję Bayes powyżej.

„[...] Teraz obliczamy wartość p, która jest równa prawdopodobieństwu zdobycia 14 lub więcej głów w 20 rzutach monetą. OK, teraz mamy to prawdopodobieństwo (0,058) i chcemy użyć tego prawdopodobieństwa, aby oceń nasz model (jak prawdopodobne jest, że mamy uczciwą monetę). ”

„naszej hipotezy, zakładając, że nasz model jest prawdziwy”, ale zasadniczo: tak. Duże wartości p wskazują, że zachowanie monety jest zgodne z hipotezą, że jest uczciwa. (Zazwyczaj są one również zgodne z hipotezą, która jest fałszywa, ale tak blisko do prawdziwości, że nie mamy wystarczających danych, aby powiedzieć; patrz „moc statystyczna”).

„Ale jeśli chcemy oszacować prawdopodobieństwo modelu, dlaczego nie obliczamy prawdopodobieństwa modelu na podstawie eksperymentu? Dlaczego obliczamy prawdopodobieństwo eksperymentu na podstawie modelu (wartość p)?”

W rzeczywistości nie obliczamy prawdopodobieństwa wyników eksperymentalnych, biorąc pod uwagę hipotezę w tym układzie. W końcu prawdopodobieństwo, że hipoteza jest prawdziwa, wynosi tylko około 0,176, gdy zobaczy się dokładnie 10 głów, a to jest najbardziej prawdopodobna wartość. To wcale nie jest zainteresowanie.

Ważne jest również to, że zwykle nie szacujemy również prawdopodobieństwa modelu. Zarówno częste, jak i bayesowskie odpowiedzi zwykle zakładają, że model jest prawdziwy i wyciągają wnioski na temat jego parametrów. Rzeczywiście, nie wszystkie Bayesians byłoby nawet w zasadzie być zainteresowany prawdopodobieństwem modelu, czyli: prawdopodobieństwo, że cała sytuacja była dobrze modelowane za pomocą rozkładu dwumianowego. Mogą przeprowadzać wiele sprawdzania modelu, ale nigdy nie pytają, jak prawdopodobne jest, że dwumian był w przestrzeni innych możliwych modeli. Bayesianie, którym zależy na czynnikach Bayesa, są zainteresowani, inni nie tak bardzo.

sprzężonyprior
źródło

2

Hmm, dwa głosy w dół. Jeśli odpowiedź jest tak zła, dobrze byłoby mieć komentarz.

conjugateprior

Podobała mi się ta odpowiedź. Czasami ludzie głosują na odpowiedzi, ponieważ nie są podobne do podręcznika i próbują pozbyć się wszystkich stron dyskusji zawierających nutę zdrowego rozsądku lub opisy podobne do laików.

Vass,

Nie głosowałem negatywnie, ale myślę, że problem polega na tym, że twój punkt nie jest jasny.

Elvis

6

Uwaga dodatkowa do innych doskonałych odpowiedzi: czasami zdarza się, że nie. Na przykład do niedawna byli całkowicie zakazani w czasopiśmie Epidemiology - teraz są po prostu „mocno zniechęceni”, a redakcja poświęciła ogromną ilość miejsca na ich dyskusję tutaj: http: //journals.lww. com / epidem / pages / collectiondetails.aspx? TopicalCollectionId = 4

Fomite
źródło

3

Dodam tylko kilka uwag; Zgadzam się z tobą, że nadużywanie wartości jest szkodliwe. $p$

Niektóre osoby w zastosowanych statystykach źle interpretują wartości, w szczególności rozumiejąc je jako prawdopodobieństwo, że hipotezy zerowe są prawdziwe; Por. następujące dokumenty: P Wartości nie są prawdopodobieństwami błędu i dlaczego tak naprawdę nie wiemy, co oznacza „znaczenie statystyczne”: poważna porażka edukacyjna . $p$
Innym powszechnym nieporozumieniem jest to, że wartości odzwierciedlają wielkość wykrytego efektu lub ich potencjał do klasyfikacji, gdy odzwierciedlają zarówno wielkość próbki, jak i wielkość efektów. To powoduje, że niektórzy piszą artykuły wyjaśniające, dlaczego zmienne, które zostały pokazane jako „silnie powiązane” ze znakiem (tj. Z bardzo małymi wartościami p), są słabymi klasyfikatorami, jak ten ... $p$
Podsumowując, moja opinia jest taka, że wartości są tak szeroko stosowane ze względu na standardy publikacji. W zastosowanych obszarach (biostaty ...) ich wielkość jest czasem wyłączną troską niektórych recenzentów. $p$

Elvis
źródło

2

Określ prawdopodobieństwo . Mam na myśli to. Zanim przejdziemy dalej, musimy uzgodnić warunki.

Intuicyjna definicja prawdopodobieństwa jest miarą niepewności. Nie jesteśmy pewni, czy kolejne rzuty monetą wypadną z głów. Że niepewność w danych z . Nie jesteśmy również pewni, czy moneta jest uczciwa, czy nie. To jest niepewność dotycząca modelu ... lub można nazwać niepewność dotyczącą stanu świata. $D$ $M$

Aby dojść do warunkowego rozkładu , musisz mieć wspólny rozkład - tj. Znajomość całej populacji monet w obiegu, ile z nich jest sfałszowanych i jak kute monety zachowują się (co może zależeć od sposobu wirowania monet i chwytania ich w powietrze). $P(M|D)$ $P(M,D)$

W szczególnym przykładzie monet jest to co najmniej koncepcyjnie możliwe - dane rządowe są dostępne na monetach, które powinny być uczciwe (28 10 ⁹ rocznie) lub przynajmniej te o stabilnych cechach. Jeśli chodzi o sfałszowane monety, o skali produkcji mniejszej niż milion prawdopodobnie nie warto mówić, więc może być prawdopodobieństwem, że moneta, którą otrzymałeś z kasy jest niesprawiedliwa. Następnie musisz wymyślić model, w jaki sposób działa nieuczciwa moneta ... i uzyskać wspólny rozkład i warunek na danych. $\cdot$ $10^6/28\cdot10^9$

W praktycznym świecie problemy z powiedzmy schorzeniami i sposobem, w jaki one działają, możesz nie być w stanie wymyślić żadnego z tych składników wspólnego rozkładu i nie możesz warować.

Modelowanie Bayesa przewiduje się drogę do uproszczenia modeli i pochodzą z tych stawów . Ale diabeł tkwi w szczegółach. Jeśli powiesz, że uczciwa moneta to , a następnie idź dalej i określ tradycyjną wcześniejszą wersję Beta i zdobądź koniugat Beta z tyłu, to ... niespodzianka, niespodzianka! dla jednego z tych ciągłych rozkładów, bez względu na to, czy twój poprzednik to czy . Musisz więc uwzględnić masę punktową na , nadać jej wcześniejszą masę ( $P(M,D)$ $p=0.5$ $P(p=0.5)=0$ $B(0.5,0.5)$ $B(1000,1000)$ $0.5$ $28\cdot10^9/(28\cdot10^9 + 10^6)$ , powiedzmy) i sprawdź, czy dane odsuwają a posteriorę od tej masy punktowej. Jest to bardziej skomplikowane obliczenie, które obejmuje próbkowanie Metropolis-Hastingsa, a nie bardziej tradycyjne próbkowanie Gibbsa.

Oprócz trudności w mówieniu o tym, jakie dokładnie są właściwe modele, metody bayesowskie mają ograniczone sposoby radzenia sobie z błędną specyfikacją modelu. Jeśli nie lubisz błędów gaussowskich lub nie wierzysz w niezależność rzutów monetą (twoja ręka męczy się po pierwszych 10 000 rzutów, więc nie podrzucaj jej tak wysoko jak pierwsze 1000 razy, co może wpływać na prawdopodobieństwa), wszystko, co możesz zrobić w świecie bayesowskim, to zbudowanie bardziej skomplikowanego modelu - przełamywanie priorytetów dla normalnych mieszanin, splajny prawdopodobieństw w czasie, cokolwiek. Ale nie ma bezpośrednich błędów analogicznych do standardowych błędów Hubera, które jednoznacznie potwierdzają, że model może być źle określony, i są przygotowani na to.

Wracając do mojego pierwszego akapitu - ponownie określ prawdopodobieństwo. Formalna definicja to trio . to przestrzeń możliwych wyników (kombinacje modeli i danych). to -algebra tego, co można zmierzyć w tej przestrzeni. jest miarą prawdopodobieństwa / gęstością przypisaną do podzbiorów , - które muszą być mierzone, aby matematyka prawdopodobieństwa zadziałała. W skończonych wymiarach najbardziej rozsądne zestawy są mierzalne - patrz zestawy Borela $<\Omega,{\mathcal F},P>$ $\Omega$ $\mathcal F$ $\sigma$ $P$ $A\subset \Omega$ $A\in\mathcal F$ Nie zanudzę cię szczegółami. Dzięki bardziej interesującym nieskończonym przestrzeniom (na przykład krzywym i trajektorii), rzeczy stają się bardzo szybko owłosione. Jeśli masz losowy proces w jednostkowym przedziale czasu, to zestaw nie jest mierzalny, pomimo jego pozornej prostoty . (Zestawy takie jak są mierzalne dla skończonego i faktycznie generują wymaganą -algebra. Ale najwyraźniej to nie wystarczy .) Tak więc prawdopodobieństwa w dużych wymiarach mogą być trudne nawet na poziomie definicji, nie mówiąc już o obliczeniach. $X_t, t\in[0,1]$ $\{ X_t > 0, t\in[0,0.5]\}$ $\{ X_t > 0, t\in\{t_1, t_2, \ldots, t_k\}\}$ $k$ $\sigma$

StasK
źródło

1

Ale jeśli chcemy oszacować prawdopodobieństwo modelu, dlaczego nie obliczamy prawdopodobieństwa modelu na podstawie eksperymentu?

Ponieważ nie wiemy jak. Możliwa jest nieskończona liczba modeli, a ich przestrzeń prawdopodobieństwa nie jest zdefiniowana.

Oto praktyczny przykład. Powiedzmy, że chcę prognozować PKB w USA. Dostaję szeregi czasowe i pasuję do modelu. Jakie jest prawdopodobieństwo, że ten model jest prawdziwy?

Tak więc model losowego spaceru do serii PKB: gdzie jest tempem wzrostu, a jest błędem losowym. Mój poniższy kod właśnie to robi, a także generuje prognozę (czerwony) i porównuje dane historyczne (niebieski).

Δ \ln y_{t} = μ + e_{t}

$\Delta\ln y_t=\mu+e_t$

μ

$\mu$

e_{t}

$e_t$

Jednak kto powiedział , że PKB jest proces losowy spacer? Co to był proces trendu? więc trend: gdzie jest nachyleniem trendu czasowego. Prognoza z wykorzystaniem modelu trendu jest pokazana na tym samym wykresie (żółty).

\ln y_{t} = c t + e_{t}

$\ln y_t = c t+ e_t$

c

$c$

Jak obliczysz prawdopodobieństwo, że mój model chodzenia losowego jest prawdziwy? W obrębie MLE moglibyśmy obliczyć prawdopodobieństwo dryftu biorąc pod uwagę zestaw danych, ale to nie jest prawdopodobieństwo. Po drugie, i co ważniejsze, jak obliczyłbyś prawdopodobieństwo, że model będzie chodził losowo z tym dryfem, wiedząc, że może to być również model trendu? Może to być dowolna liczba modeli, które wytwarzają tego rodzaju dynamikę. $\mu$

Aksakal
źródło

Dlaczego ludzie używają wartości p zamiast obliczać prawdopodobieństwo modelu na podstawie danych?

Odpowiedzi: