Przykład, w którym zasada prawdopodobieństwa * naprawdę * ma znaczenie?

20

Czy istnieje przykład, w którym dwa różne testy dające się obronić z proporcjonalnymi prawdopodobieństwami prowadziłyby do wyraźnie odmiennych (i równie dających się obronić) wniosków, na przykład, gdzie wartości p są daleko od siebie rzędu wielkości, ale siła alternatyw jest podobna?

Wszystkie przykłady, które widzę, są bardzo głupie, porównując dwumianowy z ujemnym dwumianowym, gdzie wartość p pierwszego wynosi 7%, a drugiego 3%, które są „różne” tylko w zakresie, w jakim jeden podejmuje binarne decyzje na dowolnych progach. znaczenie takie jak 5% (które, nawiasem mówiąc, jest dość niskim standardem wnioskowania) i nawet nie zawracają sobie głowy spojrzeniem na moc. Jeśli na przykład zmienię próg o 1%, oba prowadzą do tego samego wniosku.

Nigdy nie widziałem przykładu, w którym doprowadziłoby to do wyraźnie odmiennych i dających się obronić wniosków. Czy jest taki przykład?

Pytam, ponieważ widziałem tyle atramentu wydanego na ten temat, jakby zasada prawdopodobieństwa była czymś fundamentalnym w podstawach wnioskowania statystycznego. Ale jeśli najlepszym przykładem są głupie przykłady takie jak powyższy, zasada wydaje się zupełnie nieistotna.

Dlatego szukam bardzo przekonującego przykładu, w którym jeśli ktoś nie zastosuje się do LP, ciężar dowodu w przeważającej mierze wskazywałby w jednym kierunku przy jednym teście, ale w innym teście z proporcjonalnym prawdopodobieństwem ciężar dowodu byłby być w przeważającej mierze wskazywanym w przeciwnym kierunku, a oba wnioski wydają się rozsądne.

Idealnie można wykazać, że możemy mieć dowolnie dalekie, ale rozsądne odpowiedzi, takie jak testy z p=0.1 porównaniu z p=1010 z proporcjonalnymi prawdopodobieństwami i równoważną mocą do wykrycia tej samej alternatywy.

PS: Odpowiedź Bruce'a w ogóle nie odnosi się do pytania.

statslearner2
źródło
5
Podczas przeprowadzania testu istotności zawsze można zmienić decyzję, zmieniając próg. Czy możesz zatem wyjaśnić, co rozumiesz przez „wyraźnie”, „głupie” lub „przekonujące”? BTW, wydaje się, że czytasz artykuł z Wikipedii .
whuber
2
Witamy w CV, @statslearner. Czy możesz podać przykład jednego lub kilku konkretnych podejść do wnioskowania, które nie wykorzystują zasady prawdopodobieństwa, którą chciałbyś zobaczyć w kontraście?
Alexis,
1
@ Whuber idealnie chciałbym zobaczyć, że możesz konstruować dowolnie różne odpowiedzi, takie jak, jeśli chcesz użyć wartości p, coś w rodzaju kontra p = 10 - 5 , a oba obliczenia nadal wydają się możliwe do obrony. p=0,5p=10-5
statslearner2
3
I nie może obserwować tego komentarza, ponieważ nie ma sensu. Niezależnie od tego, czy zastanawiałeś się nad zmianą liczb podanych w przykładzie z Wikipedii? p=105
whuber
6
Istotną różnicą z praktycznymi implikacjami jest przetwarzanie zasad zatrzymania: w LP nie mają one znaczenia, poza LP mają. Szczegóły w Berger & Wolpert (1987).
Xi'an

Odpowiedzi:

7

Pomyśl o hipotetycznej sytuacji, gdy hipoteza zerowa jest prawdą, ale próbkuje się aż do p<0.05 ( zawsze nastąpi to wcześniej lub później, tj. Z prawdopodobieństwem 1), a następnie postanawia przerwać próbę i odrzucić zero. Jest to wprawdzie zasada skrajnego zatrzymania, ale rozważ ją ze względu na argument.

Ta kretyńska procedura będzie miała współczynnik błędu 100% typu I, ale nie ma w tym nic złego zgodnie z zasadą prawdopodobieństwa.

Powiedziałbym, że to się liczy jako „naprawdę” ważne. Możesz oczywiście wybrać dowolne α w tym argumencie. Bayesianie mogą zastosować stałą wartość graniczną współczynnika Bayesa, jeśli chcą. Obowiązuje ta sama logika. Główną lekcją tutaj jest to, że nie możesz przestrzegać LP i mieć gwarancję poziomu błędu. Nie ma darmowego lunchu.

ameba mówi Przywróć Monikę
źródło
4
Myślałem również o tym przykładzie. Ale nie wspomniałem o tym, ponieważ jest to naprawdę kretyńskie. Ale tak naprawdę dzieje się to w praktyce pośrednio i nieformalnie.
Sextus Empiricus
1
Jakie są 2 statystyki i ich prawdopodobieństwo w twoim przykładzie? W neg. przypadek dwumianowy vs przypadek dwumianowy mamy: 1) statystyki 1, liczbę prób do 3 głów, prawdopodobieństwo ujemne dwumianowe; 2) statystyki 2, liczba głów w n próbach, binomail podobny. W twoim przykładzie nie widzę, jakie są te dwie statystyki i czy mają proporcjonalne prawdopodobieństwa.
statslearner2
1
W twoim przykładzie prawdopodobnie byłaby to „liczba prób do p <0,05”, co nie wątpię, że jest proporcjonalna do dwumianu, więc nie jestem pewien, czy twój przykład jest poprawny, Amoeba.
statslearner2
1
Nie sądzę, aby zasada prawdopodobieństwa mówiła „nie ma w tym nic złego”. Zasada prawdopodobieństwa odfiltrowuje złe procedury. Fakt, że procedura nie jest zgodna z zasadą prawdopodobieństwa, nie jest tym samym, co zatwierdzona przez zasadę prawdopodobieństwa. Bayesowska analiza tego problemu sekwencyjnego testowania, który oczywiście przestrzega zasady prawdopodobieństwa, ma doskonale doskonałe właściwości, ponieważ nie wdroży opisanej przez ciebie „kretyńskiej” procedury.
facet
3
@amoeba rozważa pod alternatywą lub θ = 0 pod zerą, zθN.(0,τ1)θ=0 . Łatwo wykazać, że logarytm współczynnika Bayesa wynosi około 1YiN(θ,1)gdzieZnjest zwykłąstatystyką testowąZ. Odrzucenie, gdy współczynnik Bayesa jest większy niż1,jest równoważne odrzuceniu, gdy| Zn| >O(12[log(τ/n)+Zn2]ZnZ1. Pod wartością zerową nie ma gwarancji, że tak się stanie w ustawieniach testowania sekwencyjnego (por. Prawo logarytmu iterowanego); dlatego procedura bayesowska nie padnie ofiarą opisanego problemu. |Zn|>O(logn)
facet
4

Zastrzeżenie: Uważam, że ta odpowiedź jest rdzeniem całego argumentu, więc warto ją omówić, ale nie w pełni zbadałem ten problem. Dlatego z zadowoleniem przyjmuję poprawki, udoskonalenia i komentarze.

Najważniejszy aspekt dotyczy danych zbieranych sekwencyjnie. Załóżmy na przykład, że zaobserwowałeś wyniki binarne i widziałeś 10 sukcesów i 5 porażek. Zasada prawdopodobieństwa mówi, że powinieneś dojść do tego samego wniosku na temat prawdopodobieństwa sukcesu, niezależnie od tego, czy zbierałeś dane, dopóki nie osiągnąłeś 10 sukcesów (ujemny dwumianowy) lub przeprowadziłeś 15 prób, z których 10 było sukcesami (dwumianowy) .

Dlaczego to ma takie znaczenie?

Ponieważ zgodnie z zasadą prawdopodobieństwa (a przynajmniej pewną jego interpretacją), jest całkowicie w porządku pozwolić, aby dane wpływały, kiedy zamierzasz przestać zbierać dane, bez konieczności zmiany narzędzi wnioskowania.

Konflikt z metodami sekwencyjnymi

Pomysł, że wykorzystanie danych do podjęcia decyzji o tym, kiedy przestać gromadzić dane bez zmiany narzędzi wnioskowania, jest całkowicie sprzeczny z tradycyjnymi metodami analizy sekwencyjnej. Klasycznym tego przykładem są metody stosowane w badaniach klinicznych. Aby ograniczyć potencjalne narażenie na szkodliwe leczenie, dane są często analizowane w pośrednich momentach przed przeprowadzeniem analizy. Jeśli badanie jeszcze się nie zakończyło, ale naukowcy mają już wystarczające dane, aby stwierdzić, że leczenie działa lub jest szkodliwe, etyka medyczna mówi nam, że powinniśmy przerwać badanie; jeśli leczenie działa, etyczne jest przerwanie badania i rozpoczęcie udostępniania leczenia pacjentom niebędącym badaniem. Jeśli jest to szkodliwe, bardziej etyczne jest zaprzestanie, aby przestać narażać badanych pacjentów na szkodliwe leczenie.

Problem polega na tym, że zaczęliśmy przeprowadzać wiele porównań, więc zwiększyliśmy wskaźnik błędów typu I, jeśli nie dostosujemy naszych metod do uwzględnienia wielu porównań. Nie jest to dokładnie to samo, co tradycyjne problemy z wielokrotnymi porównaniami, ponieważ są to naprawdę wielokrotne porównania częściowe (tj. Jeśli przeanalizujemy dane raz przy 50% zebranych danych i raz przy 100%, te dwie próbki najwyraźniej nie są niezależne!) , ale ogólnie rzecz biorąc, im więcej wykonujemy porównań, tym bardziej musimy zmienić nasze kryteria odrzucania hipotezy zerowej, aby zachować poziom błędu typu I, przy planowaniu większej liczby porównań wymagających więcej dowodów, aby odrzucić zerową.

To stawia badaczy klinicznych przed dylematem; czy chcesz często sprawdzać swoje dane, ale następnie powiększać wymagane dowody, aby odrzucić wartość zerową, czy też chcesz rzadko sprawdzać swoje dane, zwiększając swoją moc, ale potencjalnie nie działając w optymalny sposób w odniesieniu do etyki medycznej (tj. opóźniać wprowadzanie produktu na rynek lub niepotrzebnie narażać pacjentów na szkodliwe leczenie).

Z mojego (być może błędnego) rozumiem, że zasada prawdopodobieństwa wydaje się mówić nam, że nie ma znaczenia, ile razy sprawdzamy dane, powinniśmy wyciągać takie same wnioski. Mówi to w zasadzie, że wszystkie podejścia do sekwencyjnego projektowania prób są całkowicie niepotrzebne; po prostu zastosuj zasadę prawdopodobieństwa i przestań, gdy zgromadzisz wystarczającą ilość danych, aby wyciągnąć wniosek. Ponieważ nie trzeba zmieniać metod wnioskowania, aby dostosować się do liczby przygotowanych analiz, nie ma dylematu między liczbą sprawdzeń a mocą. Bam, rozwiązano całe pole sekwencyjnej analizy (zgodnie z tą interpretacją).

Osobiście bardzo dezorientuje mnie to, że fakt dobrze znany w dziedzinie projektowania sekwencyjnego, ale dość subtelny, to prawdopodobieństwo końcowej statystyki testu jest w dużej mierze zmienione przez regułę zatrzymania; w zasadzie reguły zatrzymywania zwiększają prawdopodobieństwo w sposób nieciągły w punktach zatrzymania. Oto fabuła takiego zniekształcenia; linia przerywana jest plikiem PDF ostatecznej statystyki testu pod wartością zerową, jeśli dane są analizowane dopiero po zebraniu wszystkich danych, natomiast linia ciągła daje rozkład pod wartością zerową statystyki testu, jeśli dane są sprawdzane 4 razy przy danym reguła.

Biorąc to pod uwagę, rozumiem, że zasada prawdopodobieństwa wydaje się sugerować, że możemy wyrzucić wszystko, co wiemy o sekwencyjnym projektowaniu Frequentist i zapomnieć o tym, ile razy analizujemy nasze dane. Oczywiście implikacje tego, szczególnie w dziedzinie projektów klinicznych, są ogromne. Nie zastanawiałem się jednak, w jaki sposób uzasadniają ignorowanie, w jaki sposób reguły zatrzymania zmieniają prawdopodobieństwo ostatecznej statystyki.

Lekką dyskusję można znaleźć tutaj , głównie na końcowych slajdach.

Cliff AB
źródło
2
+1. Uważam, że koncepcyjnie łatwiej jest myśleć o hipotetycznej sytuacji, gdy hipoteza zerowa jest prawdziwa, ale próbkuje się aż do (ta ściana zawsze pojawia się prędzej czy później, tzn. Stanie się to z prawdopodobieństwem 1), a następnie postanawia przerwać próbę. Ta kretyńska procedura będzie miała współczynnik błędu 100% typu I, nawet jeśli będzie zgodny z LP. p<0.05
ameba mówi Przywróć Monikę
@amoeba: Zgadzam się, że twój przykład jest dość prosty (+1). Celem mojej odpowiedzi jest podkreślenie, dlaczego w ogóle jest dyskusja. Myślę, że odpowiedź brzmi: jeśli implikacje i interpretacje LP byłyby prawidłowe, oznaczałoby to, że badania kliniczne nie musiałyby już wybierać między maksymalną mocą a niepotrzebną ekspozycją, co byłoby absolutnie ogromnym zyskiem. Ogólnie rzecz biorąc, uwolniłoby to także naukowców od konieczności wcześniejszego odgadywania odpowiedniej wielkości próby, co znacznie poprawia użyteczność testów statystycznych.
Cliff AB,
Cóż, myślę, że cała struktura częstych testów jest niespójna z LP i tak właśnie jest. Korzysta się z testów częstych, jeśli chce się zagwarantować poziom błędów. Okazuje się, że jest to niespójne z LP. Zobacz także paradoks Lindleya i tak dalej. Cóż, trudne. Kiedyś byłem podekscytowany tymi sprawami, ale teraz już nie jestem. Nie ma darmowego lunchu; trzeba dokonać pewnych wyborów. Zauważ, że wiele procedur bayesowskich również narusza LP .
ameba mówi Przywróć Monikę
„Prawdopodobieństwo ostatecznej statystyki testu jest w dużej mierze zmienione przez regułę zatrzymania” Plik pdf został zmieniony, a także prawdopodobieństwo (ale tylko stała), ale nadal możesz uzyskać funkcje prawdopodobieństwa, które są takie same, aż do stała proporcjonalności. Np. Rozkład dwumianowy i ujemny rozkład dwumianowy dla sukcesów i prób n mają zarówno prawdopodobieństwo L ( p | n ,kn które jest proporcjonalne dop k p n - kL(p|n,k)pkpnk
Sextus Empiricus
3

Zarys testów LR dla danych wykładniczych.

Niech X1,X2,,Xn będzie losową próbką z Exp(rate=λ), tak aby E(Xi)=μ=1/λ. Dla x>0, funkcja gęstości f(x)=λeλx i CDF jest F(x)=1eλx.

1. Statystyka testu to minimum próbki.

Niech V=X(1)=minn(Xi).Następnie VExp(nλ).Jako zarys dowodu

P(V>v)=P(X1>v,,Xn>v)=[eλv]n=enλv,
tak żeP(Vv)=1enλv,dlav>0.

Aby przetestować H9:μμ0 względem Ha:μ>μ0, na poziomie α=5%, uważamy V za pojedynczą obserwację z jego rozkładu wykładniczego. Stwierdzamy, że iloraz prawdopodobieństwa log wskazuje na odrzucenie, gdy V>c, gdzie P(V>c|μ=μ0)=0.05.

For the specific case in which n=100 and μ0=10,λ0=0.1, we have exponential rate 10=n/μ0=100/10=10, so that c=0.2295 from R, where the exponential distribution is parameterized by the rate.

 qexp(.95, 10)
 [1] 0.2995732
 1 - pexp(0.2996, 10)
 [1] 0.04998662

Accordingly, the power against the alternative μa=100 (rate n/μa=1) is about 74%.

1 - pexp(0.2996, 1)
[1] 0.7411146

2. Test statistic is the sample mean.

Oxford U. class notes (second page) show that the likelihood ratio test of H0:μμ0 against H0:μ>μ0 at the 5% level of significance rejects for X¯>c, where P(X¯>c|μ=μ0)=0.5. Furthermore, one can show using moment generating functions that X¯Gamma(n,nλ).

For the specific case in which n=100 and μ0=10,λ0=0.1, we have X¯Gamma(100,10), so that c=11.7.

qgamma(.95, 100, 10)
[1] 11.69971
1 - pgamma(11.7, 100, 10)
[1] 0.04997338

Accordingly, power against the alternative μa=14 is about 95.6%.

1 - pgamma(11.7, 100, 100/14)
[1] 0.9562513

Clearly, for purposes of testing hypotheses about the exponential mean μ, the information in the sufficient statistic X¯ is much greater than the information in the sample minimum.

BruceET
źródło
I don't think this address the question at all.Are the two likelihoods proportional? You first need to show the likelihood of the two experiments are proportional, otherwise the likelihood principle does not apply. Second, in this example the two tests lead to the same conclusion, so it's even more underwhelming than the example of the binomial versus negative binomial.
statslearner2
I just checked the document, the likelihoods are not proportional, since the first likelihood has v in the exponent and the other has xi, thus the likelihood principle should not apply here, it's fine for the two tests to lead to different conclusions according to the likelihood principle.
statslearner2
2
Bruce, just to clarify what the liklihood principle states: it says that if you have two experiments where the likelihoods differ only by a constant, then you should derive the same conclusion from them. This happens in the binomial versus negative binomial case, where they differ only in the binomial coefficient part (constant). Your example shows two tests where their likelihoods do not differ only by a constant, so the LP does not apply.
statslearner2
@statslearner2 the likelihood function for observing a sample x1,...,xn is:
f(x1,...,xn)=i=1nλeλxi
This is the same whether you select the minimum or the mean as a criteria to perform the test. The violation that occurs here can be seen as the type in which the definition of 'extreme cases' is different and the integration to compute the p-value is done differently.
Sextus Empiricus
3

Violation by different pdf functions f(x,θ) and g(x,θ)

This case will be an example of 'violation' because the probability distribution functions f(x,θ) g(x,θ) are intrinsically different. Even when f and g, differ, they may relate to the likelihood principle because at fixed measurement x they give the same functions of θ up to scaling. The difference, opens up a possibility for "violations".


The coin flip with or without optional stopping rule

The coin flip with or without optional stopping rule is a typical example, the pdf is binomial or negative binomial which are different pdf functions and lead to different calculation of p-values, and confidence intervals, but they lead to the same likelihood functions for fixed sample/measurement (up to scaling).

fNegative Binomial(n|k,p)=(n1k1)pk(1p)nkfBinomial(k|n,p)=(nk)pk(1p)nk


More extreme example

Consider some measurement of X which is distributed as

L(θ|x)=f(x|θ)={0 if x<0a if 0x<1(1a)θexp(θ(x1)) if x1

where a is some known parameter that depends on the type of experiment, and θ is some parameter that may be unknown and could be inferred from the measurement x.

For any given x and a the likelihood function is proportional to the same function that is independent from a:

  • If x<1 then L(θ|x)1
  • If x1 then L(θ|x)θexp(θ(x1))

But, albeit the same likelihood function, the p-value can vary widely depending on the experiment (ie the value of a). For instance when you measure x=2 and test H0:θ=1 against H0:θ<1 then the p-value is

P(X>2|θ=1)=(1a)exp(1)


Intuition: The reason for violation in these cases is that p-values and hypothesis tests are not solely based on the likelihood function for the particular observed value x.

The p-value is not calculated from the likelihood f(θ|x) with x fixed, but with the pdf f(x|θ) with θ fixed which is a different slice. Confidence intervals, p-value, and hypothesis tests, are different things than the information from likelihood ratios.

p-values are not really evidence: The p-value relates to type I error which is a measure that relates to an ensemble of measurements rather than to a single measurement. This type I error or p-value is not the same as 'evidential meaning' from Birnbaums 'foundations of statistical evidence'. This relates a lot to the problems with p-values and scientist searching for outcomes solely with statistical significance rather than important effects.

Do we need examples where inferences are markedly different? The extreme case is a contrived example. Such a case, or anything with a similar extreme difference, is of course not occurring easily in practice. It is more often the case that the difference will be small such as in the cases that you refer to as silly.

To ask for examples where the likelihood principle 'really matters', or where two different inferences lead to extremely different results, is a bit of a loaded question. At least when the intention for this question relates to some philosophical argument. It is a loaded question because it presupposes that principles that matter should lead to extremely varying results. In many practical cases the results are however small (in terms of different p-values less than an order). I believe that this is not a strange for two different, but both plausible, methods to result in more or less similar results. I would consider the likelihood principle not to be 'less violated' when the differences are only small.

Sextus Empiricus
źródło
Regarding Case 1: I think choosing a different test statistic can (should?) be seen as changing the likelihood function.
amoeba says Reinstate Monica
2
@MartijnWeterings yes it is choosing a different test statistics, what matters is the likelihood of the statistics, not of the data. Otherwise I can take a sequence of 100 flips and compute several statsistics: number of runs of heads, number of alternations of heads and tails. None of this violates the LP.
statslearner2
You need to pick two statistics that will have proportional likelihoods, such as the number of trials until 3 success or the number of successes in n trials etc.
statslearner2
1

Here is an example adapted from Statistical decision theory and Bayesian analysis by James O. Berger (Second edition page 29).

Say that two species of wasps can be distinguished by the number of notches on the wings (call this x) and by the number of black rings around the abdomen (call this y). The distribution of the characters in the two species (labelled H0 and H1) are as follows:

Table adapted from Statistical decision theory and Bayesian analysis by James O. Berger.

Say that we find a specimen with 1 notch on the wings and 1 ring around the abdomen. The weight of evidence if 100 times bigger in favor of H1 against H0 for both characters.

Now if someone wanted to set up a test for H0 at 5% level, the decision rule would be for the first character “accept H0 if there is 1 notch on the wing, otherwise reject it”, and for the second character “accept H0 if there are 3 rings around the abdomen, otherwise reject it”. There are many other possibilities, but these ones are most powerful tests at this level. Yet, they lead to different conclusions for both characters.


Note: one could of course set up a test with the rule “accept H0 if there are 1 or 3 rings around the abdomen, otherwise reject it”. The question is whether we prefer a test at 5% level with type II risk 0, or a test at 4.9% level with type II risk 0.00001. The difference is so small that we would probably not care, but as I understand it, this is the core of the argument for the likelihood principle: it is not a good idea to make the result depend on something that seems irrelevant.


The likelihood functions are proportional, and yet the p-value of x=1 is 0.95, and that of y=1 is 0.001 (assuming that we reject H0 with events of the form yα). It is obvious from the structure of the table that I could have chosen any number smaller than 0.001. Also, the type II risk of the rejection is 0, so it looks like there is nothing “wrong” here.

Still, I admit that this example is somewhat contrived and not completely honest because it plays with the difficulty of arranging tests with discrete data. One could find equivalent examples with continuous data but they would be even more contrived. I agree with the OP that the likelihood principle has almost no practical value; I interpret it as a principle to guarantee some consistency within the theory.

gui11aume
źródło