Czy istnieje przykład, w którym dwa różne testy dające się obronić z proporcjonalnymi prawdopodobieństwami prowadziłyby do wyraźnie odmiennych (i równie dających się obronić) wniosków, na przykład, gdzie wartości p są daleko od siebie rzędu wielkości, ale siła alternatyw jest podobna?
Wszystkie przykłady, które widzę, są bardzo głupie, porównując dwumianowy z ujemnym dwumianowym, gdzie wartość p pierwszego wynosi 7%, a drugiego 3%, które są „różne” tylko w zakresie, w jakim jeden podejmuje binarne decyzje na dowolnych progach. znaczenie takie jak 5% (które, nawiasem mówiąc, jest dość niskim standardem wnioskowania) i nawet nie zawracają sobie głowy spojrzeniem na moc. Jeśli na przykład zmienię próg o 1%, oba prowadzą do tego samego wniosku.
Nigdy nie widziałem przykładu, w którym doprowadziłoby to do wyraźnie odmiennych i dających się obronić wniosków. Czy jest taki przykład?
Pytam, ponieważ widziałem tyle atramentu wydanego na ten temat, jakby zasada prawdopodobieństwa była czymś fundamentalnym w podstawach wnioskowania statystycznego. Ale jeśli najlepszym przykładem są głupie przykłady takie jak powyższy, zasada wydaje się zupełnie nieistotna.
Dlatego szukam bardzo przekonującego przykładu, w którym jeśli ktoś nie zastosuje się do LP, ciężar dowodu w przeważającej mierze wskazywałby w jednym kierunku przy jednym teście, ale w innym teście z proporcjonalnym prawdopodobieństwem ciężar dowodu byłby być w przeważającej mierze wskazywanym w przeciwnym kierunku, a oba wnioski wydają się rozsądne.
Idealnie można wykazać, że możemy mieć dowolnie dalekie, ale rozsądne odpowiedzi, takie jak testy z porównaniu z z proporcjonalnymi prawdopodobieństwami i równoważną mocą do wykrycia tej samej alternatywy.
PS: Odpowiedź Bruce'a w ogóle nie odnosi się do pytania.
źródło
Odpowiedzi:
Pomyśl o hipotetycznej sytuacji, gdy hipoteza zerowa jest prawdą, ale próbkuje się aż dop<0.05 ( zawsze nastąpi to wcześniej lub później, tj. Z prawdopodobieństwem 1), a następnie postanawia przerwać próbę i odrzucić zero. Jest to wprawdzie zasada skrajnego zatrzymania, ale rozważ ją ze względu na argument.
Ta kretyńska procedura będzie miała współczynnik błędu 100% typu I, ale nie ma w tym nic złego zgodnie z zasadą prawdopodobieństwa.
Powiedziałbym, że to się liczy jako „naprawdę” ważne. Możesz oczywiście wybrać dowolneα w tym argumencie. Bayesianie mogą zastosować stałą wartość graniczną współczynnika Bayesa, jeśli chcą. Obowiązuje ta sama logika. Główną lekcją tutaj jest to, że nie możesz przestrzegać LP i mieć gwarancję poziomu błędu. Nie ma darmowego lunchu.
źródło
Zastrzeżenie: Uważam, że ta odpowiedź jest rdzeniem całego argumentu, więc warto ją omówić, ale nie w pełni zbadałem ten problem. Dlatego z zadowoleniem przyjmuję poprawki, udoskonalenia i komentarze.
Najważniejszy aspekt dotyczy danych zbieranych sekwencyjnie. Załóżmy na przykład, że zaobserwowałeś wyniki binarne i widziałeś 10 sukcesów i 5 porażek. Zasada prawdopodobieństwa mówi, że powinieneś dojść do tego samego wniosku na temat prawdopodobieństwa sukcesu, niezależnie od tego, czy zbierałeś dane, dopóki nie osiągnąłeś 10 sukcesów (ujemny dwumianowy) lub przeprowadziłeś 15 prób, z których 10 było sukcesami (dwumianowy) .
Dlaczego to ma takie znaczenie?
Ponieważ zgodnie z zasadą prawdopodobieństwa (a przynajmniej pewną jego interpretacją), jest całkowicie w porządku pozwolić, aby dane wpływały, kiedy zamierzasz przestać zbierać dane, bez konieczności zmiany narzędzi wnioskowania.
Konflikt z metodami sekwencyjnymi
Pomysł, że wykorzystanie danych do podjęcia decyzji o tym, kiedy przestać gromadzić dane bez zmiany narzędzi wnioskowania, jest całkowicie sprzeczny z tradycyjnymi metodami analizy sekwencyjnej. Klasycznym tego przykładem są metody stosowane w badaniach klinicznych. Aby ograniczyć potencjalne narażenie na szkodliwe leczenie, dane są często analizowane w pośrednich momentach przed przeprowadzeniem analizy. Jeśli badanie jeszcze się nie zakończyło, ale naukowcy mają już wystarczające dane, aby stwierdzić, że leczenie działa lub jest szkodliwe, etyka medyczna mówi nam, że powinniśmy przerwać badanie; jeśli leczenie działa, etyczne jest przerwanie badania i rozpoczęcie udostępniania leczenia pacjentom niebędącym badaniem. Jeśli jest to szkodliwe, bardziej etyczne jest zaprzestanie, aby przestać narażać badanych pacjentów na szkodliwe leczenie.
Problem polega na tym, że zaczęliśmy przeprowadzać wiele porównań, więc zwiększyliśmy wskaźnik błędów typu I, jeśli nie dostosujemy naszych metod do uwzględnienia wielu porównań. Nie jest to dokładnie to samo, co tradycyjne problemy z wielokrotnymi porównaniami, ponieważ są to naprawdę wielokrotne porównania częściowe (tj. Jeśli przeanalizujemy dane raz przy 50% zebranych danych i raz przy 100%, te dwie próbki najwyraźniej nie są niezależne!) , ale ogólnie rzecz biorąc, im więcej wykonujemy porównań, tym bardziej musimy zmienić nasze kryteria odrzucania hipotezy zerowej, aby zachować poziom błędu typu I, przy planowaniu większej liczby porównań wymagających więcej dowodów, aby odrzucić zerową.
To stawia badaczy klinicznych przed dylematem; czy chcesz często sprawdzać swoje dane, ale następnie powiększać wymagane dowody, aby odrzucić wartość zerową, czy też chcesz rzadko sprawdzać swoje dane, zwiększając swoją moc, ale potencjalnie nie działając w optymalny sposób w odniesieniu do etyki medycznej (tj. opóźniać wprowadzanie produktu na rynek lub niepotrzebnie narażać pacjentów na szkodliwe leczenie).
Z mojego (być może błędnego) rozumiem, że zasada prawdopodobieństwa wydaje się mówić nam, że nie ma znaczenia, ile razy sprawdzamy dane, powinniśmy wyciągać takie same wnioski. Mówi to w zasadzie, że wszystkie podejścia do sekwencyjnego projektowania prób są całkowicie niepotrzebne; po prostu zastosuj zasadę prawdopodobieństwa i przestań, gdy zgromadzisz wystarczającą ilość danych, aby wyciągnąć wniosek. Ponieważ nie trzeba zmieniać metod wnioskowania, aby dostosować się do liczby przygotowanych analiz, nie ma dylematu między liczbą sprawdzeń a mocą. Bam, rozwiązano całe pole sekwencyjnej analizy (zgodnie z tą interpretacją).
Osobiście bardzo dezorientuje mnie to, że fakt dobrze znany w dziedzinie projektowania sekwencyjnego, ale dość subtelny, to prawdopodobieństwo końcowej statystyki testu jest w dużej mierze zmienione przez regułę zatrzymania; w zasadzie reguły zatrzymywania zwiększają prawdopodobieństwo w sposób nieciągły w punktach zatrzymania. Oto fabuła takiego zniekształcenia; linia przerywana jest plikiem PDF ostatecznej statystyki testu pod wartością zerową, jeśli dane są analizowane dopiero po zebraniu wszystkich danych, natomiast linia ciągła daje rozkład pod wartością zerową statystyki testu, jeśli dane są sprawdzane 4 razy przy danym reguła.
Biorąc to pod uwagę, rozumiem, że zasada prawdopodobieństwa wydaje się sugerować, że możemy wyrzucić wszystko, co wiemy o sekwencyjnym projektowaniu Frequentist i zapomnieć o tym, ile razy analizujemy nasze dane. Oczywiście implikacje tego, szczególnie w dziedzinie projektów klinicznych, są ogromne. Nie zastanawiałem się jednak, w jaki sposób uzasadniają ignorowanie, w jaki sposób reguły zatrzymania zmieniają prawdopodobieństwo ostatecznej statystyki.
Lekką dyskusję można znaleźć tutaj , głównie na końcowych slajdach.
źródło
Zarys testów LR dla danych wykładniczych.
NiechX1,X2,…,Xn będzie losową próbką z
Exp(rate=λ), tak aby E(Xi)=μ=1/λ.
Dla x>0, funkcja gęstości f(x)=λe−λx i CDF jest F(x)=1−e−λx.
1. Statystyka testu to minimum próbki.
NiechV=X(1)=minn(Xi). Następnie
V∼Exp(nλ). Jako zarys dowodu
P(V>v)=P(X1>v,…,Xn>v)=[e−λv]n=e−nλv,
tak żeP(V≤v)=1−e−nλv, dlav>0.
Aby przetestowaćH9:μ≤μ0 względem Ha:μ>μ0, na poziomie α=5%, uważamy V za pojedynczą obserwację z jego rozkładu wykładniczego. Stwierdzamy, że iloraz prawdopodobieństwa log wskazuje na odrzucenie, gdy V>c, gdzie
P(V>c|μ=μ0)=0.05.
For the specific case in whichn=100 and μ0=10,λ0=0.1,
we have exponential rate 10=n/μ0=100/10=10, so that c=0.2295
from R, where the exponential distribution is parameterized by the rate.
Accordingly, the power against the alternativeμa=100 (rate n/μa=1) is about 74%.
2. Test statistic is the sample mean.
Oxford U. class notes (second page) show that the likelihood ratio test ofH0:μ≤μ0 against H0:μ>μ0
at the 5% level of significance rejects for X¯>c, where P(X¯>c|μ=μ0)=0.5.
Furthermore, one can show using moment generating functions that
X¯∼Gamma(n,nλ).
For the specific case in whichn=100 and μ0=10,λ0=0.1, we have X¯∼Gamma(100,10), so that c=11.7.
Accordingly, power against the alternativeμa=14 is about 95.6%.
Clearly, for purposes of testing hypotheses about the exponential meanμ, the information in the sufficient statistic X¯ is much greater than the
information in the sample minimum.
źródło
Violation by different pdf functionsf(x,θ) and g(x,θ)
This case will be an example of 'violation' because the probability distribution functionsf(x,θ) g(x,θ) are intrinsically different. Even when f and g , differ, they may relate to the likelihood principle because at fixed measurement x they give the same functions of θ up to scaling. The difference, opens up a possibility for "violations".
The coin flip with or without optional stopping rule
The coin flip with or without optional stopping rule is a typical example, the pdf is binomial or negative binomial which are different pdf functions and lead to different calculation of p-values, and confidence intervals, but they lead to the same likelihood functions for fixed sample/measurement (up to scaling).
More extreme example
Consider some measurement ofX which is distributed as
wherea is some known parameter that depends on the type of experiment, and θ is some parameter that may be unknown and could be inferred from the measurement x .
For any givenx and a the likelihood function is proportional to the same function that is independent from a :
But, albeit the same likelihood function, the p-value can vary widely depending on the experiment (ie the value ofa ). For instance when you measure x=2 and test H0:θ=1 against H0:θ<1 then the p-value is
Intuition: The reason for violation in these cases is that p-values and hypothesis tests are not solely based on the likelihood function for the particular observed valuex .
The p-value is not calculated from the likelihoodf(θ|x) with x fixed, but with the pdf f(x|θ) with θ fixed which is a different slice. Confidence intervals, p-value, and hypothesis tests, are different things than the information from likelihood ratios.
p-values are not really evidence: The p-value relates to type I error which is a measure that relates to an ensemble of measurements rather than to a single measurement. This type I error or p-value is not the same as 'evidential meaning' from Birnbaums 'foundations of statistical evidence'. This relates a lot to the problems with p-values and scientist searching for outcomes solely with statistical significance rather than important effects.
Do we need examples where inferences are markedly different? The extreme case is a contrived example. Such a case, or anything with a similar extreme difference, is of course not occurring easily in practice. It is more often the case that the difference will be small such as in the cases that you refer to as silly.
To ask for examples where the likelihood principle 'really matters', or where two different inferences lead to extremely different results, is a bit of a loaded question. At least when the intention for this question relates to some philosophical argument. It is a loaded question because it presupposes that principles that matter should lead to extremely varying results. In many practical cases the results are however small (in terms of different p-values less than an order). I believe that this is not a strange for two different, but both plausible, methods to result in more or less similar results. I would consider the likelihood principle not to be 'less violated' when the differences are only small.
źródło
Here is an example adapted from Statistical decision theory and Bayesian analysis by James O. Berger (Second edition page 29).
Say that two species of wasps can be distinguished by the number of notches on the wings (call thisx ) and by the number of black rings around the abdomen (call this y ). The distribution of the characters in the two species (labelled H0 and H1 ) are as follows:
Say that we find a specimen with 1 notch on the wings and 1 ring around the abdomen. The weight of evidence if 100 times bigger in favor ofH1 against H0 for both characters.
Now if someone wanted to set up a test forH0 at 5% level, the decision rule would be for the first character “accept H0 if there is 1 notch on the wing, otherwise reject it”, and for the second character “accept H0 if there are 3 rings around the abdomen, otherwise reject it”. There are many other possibilities, but these ones are most powerful tests at this level. Yet, they lead to different conclusions for both characters.
Note: one could of course set up a test with the rule “acceptH0 if there are 1 or 3 rings around the abdomen, otherwise reject it”. The question is whether we prefer a test at 5% level with type II risk 0, or a test at 4.9% level with type II risk 0.00001. The difference is so small that we would probably not care, but as I understand it, this is the core of the argument for the likelihood principle: it is not a good idea to make the result depend on something that seems irrelevant.
The likelihood functions are proportional, and yet the p-value ofx=1 is 0.95, and that of y=1 is 0.001 (assuming that we reject H0 with events of the form y≤α ). It is obvious from the structure of the table that I could have chosen any number smaller than 0.001. Also, the type II risk of the rejection is 0, so it looks like there is nothing “wrong” here.
Still, I admit that this example is somewhat contrived and not completely honest because it plays with the difficulty of arranging tests with discrete data. One could find equivalent examples with continuous data but they would be even more contrived. I agree with the OP that the likelihood principle has almost no practical value; I interpret it as a principle to guarantee some consistency within the theory.
źródło