Zrozumienie wartości p

33

Wiem, że istnieje wiele materiałów wyjaśniających wartość p. Jednak koncepcja nie jest łatwa do zrozumienia bez dalszego wyjaśnienia.

Oto definicja wartości p z Wikipedii:

Wartość p jest prawdopodobieństwem uzyskania statystyki testowej co najmniej tak ekstremalnej jak ta, którą rzeczywiście zaobserwowano, przy założeniu, że hipoteza zerowa jest prawdziwa. ( http://en.wikipedia.org/wiki/P-value )

min[P(X<x),P(x<X)], jeżeli PDF statystyki jest jednomodalny, gdzie jest statystyką testową, a jest wartością uzyskaną z obserwacji. Czy to jest poprawne? Jeśli ma rację, czy nadal można stosować dwumodalny plik PDF statystyki? Jeśli dwa piki pliku PDF są dobrze rozdzielone, a zaobserwowana wartość znajduje się gdzieś w obszarze niskiej gęstości prawdopodobieństwa między dwoma pikami, to w jakim przedziale wartość p daje prawdopodobieństwo?Xx

Drugie pytanie jest o innej definicji wartości p od Wolfram MathWorld:

Prawdopodobieństwo, że wariator przyjąłby wartość większą lub równą wartości obserwowanej ściśle przypadkowo. ( http://mathworld.wolfram.com/P-Value.html )

Zrozumiałem, że wyrażenie „ściśle przez przypadek” należy interpretować jako „zakładając zerową hipotezę”. Czy to prawda?

Trzecie pytanie odniesieniu do korzystania z „hipotezy zerowej”. Załóżmy, że ktoś chce nalegać, aby moneta była sprawiedliwa. Wyraża hipotezę, ponieważ ta względna częstotliwość głów wynosi 0,5. Zatem hipotezą zerową jest „względna częstotliwość głów nie wynosi 0,5”. W tym przypadku, podczas gdy obliczenie wartości p hipotezy zerowej jest trudne, obliczenie jest łatwe dla alternatywnej hipotezy. Oczywiście problem można rozwiązać, zamieniając rolę dwóch hipotez. Moje pytanie brzmi: odrzucenie lub akceptacja oparta bezpośrednio na wartości p oryginalnej alternatywnej hipotezy (bez wprowadzenia hipotezy zerowej) brzmi, czy jest w porządku, czy nie. Jeśli nie jest OK, jakie jest zwykle obejście takich trudności przy obliczaniu wartości p hipotezy zerowej?




Opublikowałem nowe pytanie, które jest bardziej wyjaśnione na podstawie dyskusji w tym wątku.


JDL
źródło
14
Złapałeś subtelność, która często pozostaje nierozpoznana: „bardziej ekstremalna” musi być mierzona raczej w kategoriach względnego prawdopodobieństwa alternatywnej hipotezy niż w oczywistym (ale nie ogólnie poprawnym) sensie bycia dalej na końcu próby zerowej dystrybucja. Jest to wyraźnie sformułowane w sformułowaniu Lemmy Neymana-Pearsona , który służy do uzasadnienia wielu testów hipotez i do określenia ich krytycznych regionów (i skąd ich wartości p). Przemyślenie tego pomoże odpowiedzieć na twoje pierwsze pytanie.
whuber
1
O ile pamiętam, Lemma Neymana-Pearsona jest optymalna do prostych i prostych testów hipotez (Ho: mu = mu_0, Ha: mu = mu_a). Dla testów złożonych (Ho: mu = mu_0, Ha: mu> mu_a) istnieje test alternatywny.
RobertF,

Odpowiedzi:

17

Pierwsza odpowiedź

Trzeba pomyśleć o koncepcji ekstremalnej pod względem prawdopodobieństwa statystyki testowej, a nie pod względem jej wartości lub wartości badanej zmiennej losowej. Podaję następujący przykład z Christensen, R. (2005). Testowanie Fishera, Neymana, Pearsona i Bayesa . The American Statistician , 59 (2), 121–126

(r|θ=0r|1234p(r|θ=0)|0.9800.0050.0050.010pvalue|1.00.010.010.02

Tutaj są obserwacje, druga linia jest prawdopodobieństwo, aby obserwować daną obserwację pod hipotezy zerowej θ = 0 , które jest używane tutaj jako statystyk testowych, trzecia linia jest p wartość. Jesteśmy tutaj w ramach testu Fisheriana: istnieje jedna hipoteza ( H 0 , w tym przypadku θ = 0 ), zgodnie z którą chcemy sprawdzić, czy dane są dziwne, czy nie. Obserwacje z najmniejszym prawdopodobieństwem to 2 i 3 z 0,5% każda. Jeśli uzyskasz 2, na przykład prawdopodobieństwo zaobserwowania czegoś jako prawdopodobnego lub mniej prawdopodobnego ( r = 2 i r = 3rθ=0pH0θ=0r=2r=3) wynosi 1%. Obserwacja nie przyczynia się do wartości p , chociaż jest dalej (jeśli istnieje relacja rzędu), ponieważ ma większe prawdopodobieństwo, że zostanie zaobserwowana.r=4p

Ta definicja działa ogólnie, ponieważ uwzględnia zarówno zmienne kategorialne, jak i wielowymiarowe, w których relacja porządku nie jest zdefiniowana. W przypadku zmiennej zmiennej ilościowej, w której zaobserwujesz pewne odchylenie od najbardziej prawdopodobnego wyniku, sensowne może być obliczenie wartości p pojedynczego ogona i rozważenie tylko obserwacji, które są po jednej stronie rozkładu statystyki testu.p

Druga odpowiedź

Nie zgadzam się całkowicie z tą definicją z Mathworld.

Trzecia odpowiedź

Muszę powiedzieć, że nie jestem do końca pewien, czy zrozumiałem twoje pytanie, ale postaram się przedstawić kilka uwag, które mogą ci pomóc.

W najprostszym kontekście testowania rybiego, gdzie masz tylko hipotezę zerową, powinno to być status quo . Wynika to z faktu, że testy rybackie działają zasadniczo na zasadzie sprzeczności. Tak więc, w przypadku monety, chyba że masz powody, by myśleć inaczej, zakładasz, że jest sprawiedliwa, . Następnie obliczasz wartość p dla swoich danych pod H 0, a jeśli twoja wartość p jest poniżej z góry określonego progu, odrzucasz hipotezę (dowód sprzeczności). Nigdy nie obliczasz prawdopodobieństwa hipotezy zerowej.H0:θ=0.5pH0p

W testach Neymana-Pearsona określasz dwie alternatywne hipotezy, a na podstawie ich względnego prawdopodobieństwa i wymiarów wektorów parametrów preferujesz jedną lub drugą. Można to zaobserwować na przykład w testowaniu hipotezy monet tendencyjnych i obiektywnych. Pakietów środki mocujące parametr do (wymiarowości tej przestrzeni parametr ma wartość zero), podczas gdy dociskany może mieć dowolną wartość θ 0,5 (wymiarowości równy jeden). To rozwiązuje problem próby sprzeczności z hipotezą uprzedzenia poprzez sprzeczność, co byłoby niemożliwe, jak wyjaśnił inny użytkownik. Fisher i NP dają podobne wyniki, gdy próbka jest duża, ale nie są dokładnie równoważne. Poniżej prosty kod w R dla monety o tendencyjnym charakterze.θ=0.5θ0.5

n <- 100  # trials
p_bias <- 0.45  # the coin is biased
k <- as.integer(p_bias * n)  # successes

# value obtained by plugging in the MLE of p, i.e. k/n = p_bias
lambda <- 2 * n * log(2) + 2 * k * log(p_bias) + 2 * (n-k) * log(1. - p_bias)

p_value_F <- 2 * pbinom(k, size=n, prob=0.5)  # p-value under Fisher test
p_value_NP <- 1 - pchisq(q=lambda, df=1)  # p-value under Neyman-Pearson
binom.test(c(k, n-k))  # equivalent to Fisher
Zag
źródło
2
+1 for pointing out a great article I didn't know about. (Also for some much needed skepticism about the utility of Mathworld's view of statistics).
conjugateprior
Thank you very much! So the p-value is \int_{x : f(x) <= k} f, where f is the PDF of a test statistic and k is the observed value of the statistic. Thank you again.
JDL
Regarding the third answer, what is proved in your answer is unfairness of the coin because fairness assumption is rejected. On the contrary, to prove fairness of the coin by contradiction, I have to assume unfairness \theta \neq 0.5 and calculate p-value of my data. How can I do it? My point is the difficulty originated from the \neq sign of the unfairness assumption. Do I have to introduce some tolerance level for fairness, say 0.4 < \theta < 0.6, and calculate p-value in terms of \theta and integrate it over 0 < \theta < 0.4 and 0.6 < \theta < 1 ?
JDL
One more question. This link explains "one-sided" p-value. It says one-sided p-value answers questions like "null hypothesis, that two populations really are the same ... what is the chance that randomly selected samples would have means as far apart as (or further than) observed in this experiment with the specified group having the larger mean?" Is it an appropriate use of one-sided p-value? I think the null hypothesis itself should be expressed as an inequality in this case (instead of equality and one-sided test).
JDL
1
@Zag, I disagree rather with this answer: you don't have to think of the concept of extreme in terms of probability. Better to say that in this example the probability under the null is being used as the test statistic - but that's not mandatory. For example, if the likelihood ratio, as mentioned by whuber, is used as a test statistic, it will not in general put possible samples in the same order as will probability under the null. Other statistics are chosen for maximum power against a specified alternative, or all alternatives, or for high power against a vaguely defined set.
Scortchi - Reinstate Monica
8

(1) A statistic is a number you can calculate from a sample. It's used to put into order all the samples you might have got (under an assumed model, where coins don't land on their edges & what have you). If t is what you calculate from the sample you actually got, & T is the corresponding random variable, then the p-value is given by Pr(Tt) under the null hypothesis, H0. 'Greater than' vs 'more extreme' is unimportant in principle. For a two-sided test on a Normal mean we could use Pr(|Z||z|) but it's convenient to use 2min[Pr(Zz),Pr(Zz)] because we have the appropriate tables. (Note the doubling.)

There's no requirement for the test statistic to put the samples in order of their probability under the null hypothesis. There are situations (like Zag's example) where any other way would seem perverse (without more information about what r measures, what kinds of discrepancies with H0 are of most interest, &c.), but often other criteria are used. So you could have a bimodal PDF for the test statistic & still test H0 using the formula above.

(2) Yes, they mean under H0.

(3) A null hypothesis like "The frequency of heads is not 0.5" is no use because you would never be able to reject it. It's a composite null including "the frequency of heads is 0.49999999", or as close as you like. Whether you think beforehand the coin's fair or not, you pick a useful null hypothesis that bears on the problem. Perhaps more useful after the experiment is to calculate a confidence interval for the frequency of heads that shows you either it's clearly not a fair coin, or it's close enough to fair, or you need to do more trials to find out.

An illustration for (1):

Suppose you're testing the fairness of a coin with 10 tosses. There are 210 possible results. Here are three of them:

HHHHHHHHHHHTHTHTHTHTHHTHHHTTTH

You'll probably agree with me that the first two look a bit suspicious. Yet the probabilities under the null are equal:

Pr(HHHHHHHHHH)=11024Pr(HTHTHTHTHT)=11024Pr(HHTHHHTTTH)=11024

To get anywhere you need to consider what types of alternative to the null you want to test. If you're prepared to assume independence of each toss under both null & alternative (& in real situations this often means working very hard to ensure experimental trials are independent), you can use the total count of heads as a test statistic without losing information. (Partitioning the sample space in this way is another important job that statistics do.)

So you have a count between 0 and 10

t<-c(0:10)

Its distribution under the null is

p.null<-dbinom(t,10,0.5)

Under the version of the alternative that best fits the data, if you see (say) 3 out of 10 heads the probability of heads is 310, so

p.alt<-dbinom(t,10,t/10)

Take the ratio of the probability under the null to the probability under the alternative (called the likelihood ratio):

lr<-p.alt/p.null

Compare with

plot(log(lr),p.null)

So for this null, the two statistics order samples the same way. If you repeat with a null of 0.85 (i.e. testing that the long-run frequency of heads is 85%), they don't.

p.null<-dbinom(t,10,0.85)
plot(log(lr),p.null)

lrt gof test

To see why

plot(t,p.alt)

Some values of t are less probable under the alternative, & the likelihood ratio test statistic takes this into account. NB this test statistic will not be extreme for

HTHTHTHTHT

And that's fine - every sample can be considered extreme from some point of view. You choose the test statistic according to what kind of discrepancy to the null you want to be able to detect.

... Continuing this train of thought, you can define a statistic that partitions the sample space differently to test the same null against the alternative that one coin toss influences the next one. Call the number of runs r, so that

HHTHHHTTTH

has r=6:

HH T HHH TTT H

The suspicious sequence

HTHTHTHTHT

has r=10. So does

THTHTHTHTH

while at the other extreme

HHHHHHHHHHTTTTTTTTTT

have r=1. Using probability under the null as the test statistic (the way you like) you can say that the p-value of the sample

HTHTHTHTHT

is therefore 41024=1256. What's worthy of note, comparing this test to the previous, is that even if you stick strictly to the ordering given by probability under the null, the way in which you define your test statistic to partition the sample space is dependent on consideration of alternatives.

Scortchi - Reinstate Monica
źródło
You say that the definition Pr(T \ge t; H_0) can be applicable to any multimodal (of course, including bimodal) PDF of a test statistic. Then, you and Zag give different p-values for multimodal PDF of a test statistic. IMHO, Zag's definition is more resonable because the role of p-value is to quantify how likely (or weird) the observation is under the null hypothesis, as he pointed. What is your rationale for the definition Pr(T \ge t; H_0) ?
JDL
@JDL, that just is the definition of a p-value. The question then becomes how to find a 'good' test statistic (& how to define 'good'). Sometimes the probability under the null (or any function of the data that gives the same ordering) is used as the test statistic. Sometimes there are good reasons to choose others, which fill up a lot of space in books on theoretical statistics. I think it's fair to say they involve explicit or implicit consideration of alternatives. ...
Scortchi - Reinstate Monica
@JDL, ... And if a particular observation has low probability under both null & alternative it seems reasonable not to regard it as extreme.
Scortchi - Reinstate Monica
Thank you for your answers, @Scortchi. I posted a new question and have seen your comments just now after the posting. Anyway, I'm still not clear about the definition. Thank you again for your kindly answers.
JDL
I added an illustration
Scortchi - Reinstate Monica