Wiem, że istnieje wiele materiałów wyjaśniających wartość p. Jednak koncepcja nie jest łatwa do zrozumienia bez dalszego wyjaśnienia.
Oto definicja wartości p z Wikipedii:
Wartość p jest prawdopodobieństwem uzyskania statystyki testowej co najmniej tak ekstremalnej jak ta, którą rzeczywiście zaobserwowano, przy założeniu, że hipoteza zerowa jest prawdziwa. ( http://en.wikipedia.org/wiki/P-value )
, jeżeli PDF statystyki jest jednomodalny, gdzie jest statystyką testową, a jest wartością uzyskaną z obserwacji. Czy to jest poprawne? Jeśli ma rację, czy nadal można stosować dwumodalny plik PDF statystyki? Jeśli dwa piki pliku PDF są dobrze rozdzielone, a zaobserwowana wartość znajduje się gdzieś w obszarze niskiej gęstości prawdopodobieństwa między dwoma pikami, to w jakim przedziale wartość p daje prawdopodobieństwo?
Drugie pytanie jest o innej definicji wartości p od Wolfram MathWorld:
Prawdopodobieństwo, że wariator przyjąłby wartość większą lub równą wartości obserwowanej ściśle przypadkowo. ( http://mathworld.wolfram.com/P-Value.html )
Zrozumiałem, że wyrażenie „ściśle przez przypadek” należy interpretować jako „zakładając zerową hipotezę”. Czy to prawda?
Trzecie pytanie odniesieniu do korzystania z „hipotezy zerowej”. Załóżmy, że ktoś chce nalegać, aby moneta była sprawiedliwa. Wyraża hipotezę, ponieważ ta względna częstotliwość głów wynosi 0,5. Zatem hipotezą zerową jest „względna częstotliwość głów nie wynosi 0,5”. W tym przypadku, podczas gdy obliczenie wartości p hipotezy zerowej jest trudne, obliczenie jest łatwe dla alternatywnej hipotezy. Oczywiście problem można rozwiązać, zamieniając rolę dwóch hipotez. Moje pytanie brzmi: odrzucenie lub akceptacja oparta bezpośrednio na wartości p oryginalnej alternatywnej hipotezy (bez wprowadzenia hipotezy zerowej) brzmi, czy jest w porządku, czy nie. Jeśli nie jest OK, jakie jest zwykle obejście takich trudności przy obliczaniu wartości p hipotezy zerowej?
Opublikowałem nowe pytanie, które jest bardziej wyjaśnione na podstawie dyskusji w tym wątku.
Odpowiedzi:
Pierwsza odpowiedź
Trzeba pomyśleć o koncepcji ekstremalnej pod względem prawdopodobieństwa statystyki testowej, a nie pod względem jej wartości lub wartości badanej zmiennej losowej. Podaję następujący przykład z Christensen, R. (2005). Testowanie Fishera, Neymana, Pearsona i Bayesa . The American Statistician , 59 (2), 121–126
Tutaj są obserwacje, druga linia jest prawdopodobieństwo, aby obserwować daną obserwację pod hipotezy zerowej θ = 0 , które jest używane tutaj jako statystyk testowych, trzecia linia jest p wartość. Jesteśmy tutaj w ramach testu Fisheriana: istnieje jedna hipoteza ( H 0 , w tym przypadku θ = 0 ), zgodnie z którą chcemy sprawdzić, czy dane są dziwne, czy nie. Obserwacje z najmniejszym prawdopodobieństwem to 2 i 3 z 0,5% każda. Jeśli uzyskasz 2, na przykład prawdopodobieństwo zaobserwowania czegoś jako prawdopodobnego lub mniej prawdopodobnego ( r = 2 i r = 3r θ=0 p H0 θ=0 r=2 r=3 ) wynosi 1%. Obserwacja nie przyczynia się do wartości p , chociaż jest dalej (jeśli istnieje relacja rzędu), ponieważ ma większe prawdopodobieństwo, że zostanie zaobserwowana.r=4 p
Ta definicja działa ogólnie, ponieważ uwzględnia zarówno zmienne kategorialne, jak i wielowymiarowe, w których relacja porządku nie jest zdefiniowana. W przypadku zmiennej zmiennej ilościowej, w której zaobserwujesz pewne odchylenie od najbardziej prawdopodobnego wyniku, sensowne może być obliczenie wartości p pojedynczego ogona i rozważenie tylko obserwacji, które są po jednej stronie rozkładu statystyki testu.p
Druga odpowiedź
Nie zgadzam się całkowicie z tą definicją z Mathworld.
Trzecia odpowiedź
Muszę powiedzieć, że nie jestem do końca pewien, czy zrozumiałem twoje pytanie, ale postaram się przedstawić kilka uwag, które mogą ci pomóc.
W najprostszym kontekście testowania rybiego, gdzie masz tylko hipotezę zerową, powinno to być status quo . Wynika to z faktu, że testy rybackie działają zasadniczo na zasadzie sprzeczności. Tak więc, w przypadku monety, chyba że masz powody, by myśleć inaczej, zakładasz, że jest sprawiedliwa, . Następnie obliczasz wartość p dla swoich danych pod H 0, a jeśli twoja wartość p jest poniżej z góry określonego progu, odrzucasz hipotezę (dowód sprzeczności). Nigdy nie obliczasz prawdopodobieństwa hipotezy zerowej.H0:θ=0.5 p H0 p
W testach Neymana-Pearsona określasz dwie alternatywne hipotezy, a na podstawie ich względnego prawdopodobieństwa i wymiarów wektorów parametrów preferujesz jedną lub drugą. Można to zaobserwować na przykład w testowaniu hipotezy monet tendencyjnych i obiektywnych. Pakietów środki mocujące parametr do (wymiarowości tej przestrzeni parametr ma wartość zero), podczas gdy dociskany może mieć dowolną wartość θ ≠ 0,5 (wymiarowości równy jeden). To rozwiązuje problem próby sprzeczności z hipotezą uprzedzenia poprzez sprzeczność, co byłoby niemożliwe, jak wyjaśnił inny użytkownik. Fisher i NP dają podobne wyniki, gdy próbka jest duża, ale nie są dokładnie równoważne. Poniżej prosty kod w R dla monety o tendencyjnym charakterze.θ=0.5 θ≠0.5
źródło
(1) A statistic is a number you can calculate from a sample. It's used to put into order all the samples you might have got (under an assumed model, where coins don't land on their edges & what have you). Ift is what you calculate from the sample you actually got, & T is the corresponding random variable, then the p-value is given by
Pr(T≥t) under the null hypothesis, H0 .
'Greater than' vs 'more extreme' is unimportant in principle. For a two-sided test on a Normal mean we could use
Pr(|Z|≥|z|) but it's convenient to use
2min[Pr(Z≥z),Pr(Z≤z)]
because we have the appropriate tables. (Note the doubling.)
There's no requirement for the test statistic to put the samples in order of their probability under the null hypothesis. There are situations (like Zag's example) where any other way would seem perverse (without more information about whatr measures, what kinds of discrepancies with H0 are of most interest, &c.), but often other criteria are used. So you could have a bimodal PDF for the test statistic & still test H0 using the formula above.
(2) Yes, they mean underH0 .
(3) A null hypothesis like "The frequency of heads is not 0.5" is no use because you would never be able to reject it. It's a composite null including "the frequency of heads is 0.49999999", or as close as you like. Whether you think beforehand the coin's fair or not, you pick a useful null hypothesis that bears on the problem. Perhaps more useful after the experiment is to calculate a confidence interval for the frequency of heads that shows you either it's clearly not a fair coin, or it's close enough to fair, or you need to do more trials to find out.
An illustration for (1):
Suppose you're testing the fairness of a coin with 10 tosses. There are210 possible results. Here are three of them:
You'll probably agree with me that the first two look a bit suspicious. Yet the probabilities under the null are equal:
To get anywhere you need to consider what types of alternative to the null you want to test. If you're prepared to assume independence of each toss under both null & alternative (& in real situations this often means working very hard to ensure experimental trials are independent), you can use the total count of heads as a test statistic without losing information. (Partitioning the sample space in this way is another important job that statistics do.)
So you have a count between 0 and 10
Its distribution under the null is
Under the version of the alternative that best fits the data, if you see (say) 3 out of 10 heads the probability of heads is310 , so
Take the ratio of the probability under the null to the probability under the alternative (called the likelihood ratio):
Compare with
So for this null, the two statistics order samples the same way. If you repeat with a null of 0.85 (i.e. testing that the long-run frequency of heads is 85%), they don't.
To see why
Some values oft are less probable under the alternative, & the likelihood ratio test statistic takes this into account. NB this test statistic will not be extreme for
And that's fine - every sample can be considered extreme from some point of view. You choose the test statistic according to what kind of discrepancy to the null you want to be able to detect.
... Continuing this train of thought, you can define a statistic that partitions the sample space differently to test the same null against the alternative that one coin toss influences the next one. Call the number of runsr , so that
hasr=6 :
The suspicious sequence
hasr=10 . So does
while at the other extreme
haver=1 . Using probability under the null as the test statistic (the way you like) you can say that the p-value of the sample
is therefore41024=1256 . What's worthy of note, comparing this test to the previous, is that even if you stick strictly to the ordering given by probability under the null, the way in which you define your test statistic to partition the sample space is dependent on consideration of alternatives.
źródło