Artykuł o niewłaściwym użyciu metody statystycznej w NYTimes

20

Mam na myśli ten artykuł: http://www.nytimes.com/2011/01/11/science/11esp.html

Rozważ następujący eksperyment. Załóżmy, że istnieje powód, by sądzić, że moneta była lekko obciążona w kierunku głów. W teście moneta pojawia się 527 razy na 1000 głów.

Czy to znaczący dowód na ważenie monety?

Klasyczna analiza mówi „tak”. Przy uczciwej monecie szanse na uzyskanie 527 lub więcej głów na 1000 rzutów to mniej niż 1 na 20, czyli 5 procent, konwencjonalnej wartości granicznej. Innymi słowy: eksperyment znajduje dowody na ważoną monetę „z 95-procentową pewnością”.

Jednak wielu statystyk nie kupuje tego. Jedna na 20 to prawdopodobieństwo zdobycia dowolnej liczby głów powyżej 526 na 1000 rzutów. Oznacza to, że jest to suma prawdopodobieństwa przewrócenia 527, prawdopodobieństwa przewrócenia 528, 529 i tak dalej.

Ale eksperyment nie znalazł wszystkich liczb w tym zakresie; znaleziono tylko jeden - 527. W ten sposób eksperci twierdzą, że obliczenie prawdopodobieństwa otrzymania tej jednej liczby - 527 - w przypadku ważenia monety jest bardziej dokładne i porównanie jej z prawdopodobieństwem uzyskania tej samej liczby, jeśli moneta jest targi.

Statystycy mogą wykazać, że stosunek ten nie może być wyższy niż około 4 do 1, jak podaje Paul Speckman, statystyk, który wraz z Jeff Rouder, psychologiem, podał przykład.

Pierwsze pytanie: to dla mnie nowe. Czy ktoś ma referencje, w których mogę znaleźć dokładne obliczenia i / lub czy TY możesz mi pomóc, podając mi dokładne obliczenia i / lub czy możesz wskazać mi materiał, w którym mogę znaleźć podobne przykłady?

Bayes opracował sposób aktualizacji prawdopodobieństwa hipotezy, gdy pojawiają się nowe dowody.

Tak więc, oceniając siłę danego odkrycia, analiza bayesowska (wyraźna BAYZ-ee-un) uwzględnia znane prawdopodobieństwa, jeśli są dostępne, spoza badania.

Można to nazwać efektem „Tak, dobrze”. Jeśli badanie wykazało, że kumkwaty zmniejszają ryzyko chorób serca o 90 procent, że leczenie leczy uzależnienie od alkoholu w ciągu tygodnia, że ​​wrażliwi rodzice dwa razy częściej rodzą dziewczynę niż chłopca, odpowiedź Bayesa odpowiada natywny sceptyk: Tak, racja. Wyniki badania są porównywane z tym, co można zaobserwować na świecie.

W co najmniej jednym obszarze medycyny - diagnostycznych badaniach przesiewowych - naukowcy wykorzystują znane prawdopodobieństwa do oceny nowych wyników. Na przykład nowy test wykrywający kłamstwa może być dokładny w 90 procentach, poprawnie oznaczając 9 na 10 kłamców. Ale jeśli zostanie podany populacji 100 osób, o których wiadomo, że zawierają 10 kłamców, test będzie znacznie mniej imponujący.

Prawidłowo identyfikuje 9 z 10 kłamców i tęskni za jednym; ale niepoprawnie identyfikuje 9 z pozostałych 90 jako leżące. Dzieląc tak zwane prawdziwe pozytywy (9) przez całkowitą liczbę osób oflagowanych test (18) daje wskaźnik dokładności 50 procent. „Fałszywe pozytywne” i „fałszywe negatywne” zależą od znanych wskaźników w populacji.

Drugie pytanie: Jak dokładnie oceniasz, czy nowe odkrycie jest „prawdziwe”, czy nie przy użyciu tej metody? I: Czy nie jest to tak arbitralne jak bariera 5% ze względu na zastosowanie wcześniej ustalonego prawdopodobieństwa?

vonjd
źródło
3
W przypadku monet uczciwych i niesprawiedliwych pomocne jest przeczytanie: stat.columbia.edu/~gelman/research/published/diceRev2.pdf
mpiktas

Odpowiedzi:

31

Odpowiem na pierwsze pytanie szczegółowo.

Przy uczciwej monecie szanse na uzyskanie 527 lub więcej głów na 1000 rzutów to mniej niż 1 na 20, czyli 5 procent, konwencjonalnej wartości granicznej.

n=1000p=1/2

P(B(1000,1/2)>=527)

Można to obliczyć za pomocą dowolnego pakietu oprogramowania statystycznego. R daje nam

> pbinom(526,1000,1/2,lower.tail=FALSE)
   0.04684365

Zatem prawdopodobieństwo, że przy uczciwej monecie dostaniemy więcej niż 526 głów, wynosi około 0,047, co jest bliskie 5% odcięciu wymienionemu w artykule.

Poniższe oświadczenie

Innymi słowy: eksperyment znajduje dowody na ważoną monetę „z 95-procentową pewnością”.

jest dyskusyjny. Nie chciałbym tego mówić, ponieważ 95% pewności można interpretować na kilka sposobów.

Następnie zwracamy się do

Ale eksperyment nie znalazł wszystkich liczb w tym zakresie; znaleziono tylko jeden - 527. W ten sposób eksperci twierdzą, że obliczenie prawdopodobieństwa otrzymania tej jednej liczby - 527 - w przypadku ważenia monety jest bardziej dokładne i porównanie jej z prawdopodobieństwem uzyskania tej samej liczby, jeśli moneta jest targi.

B(1000,1/2)=527B(1000,p)=527

P(B(1000,p)=527)P(B(1000,1/2)=527)=p527(1p)473(1/2)1000.

p

Statystycy mogą wykazać, że stosunek ten nie może być wyższy niż około 4 do 1, jak podaje Paul Speckman, statystyk, który wraz z Jeff Rouder, psychologiem, podał przykład.

p

p=5271000.

Możemy sprawdzić, czy jest to naprawdę maksimum, używając na przykład testu drugiej pochodnej . Zastępując go formułą, którą otrzymujemy

(527/1000)527(473/1000)473(1/2)10004.3

Tak więc stosunek wynosi 4,3 do 1, co zgadza się z artykułem.

mpiktas
źródło
„Teraz zmaksymalizuj tę ilość w odniesieniu do p”: myślę, że masz na myśli minimalizację.
Simon Byrne
@mpiktas (+1) Ładna (zaktualizowana) odpowiedź.
chl
1212p(12±ϵ)ϵ
@ Simon, dlaczego korektę należy zminimalizować? Czy znaleziona wartość P nie maksymalizuje stosunku?
@statnovice: Oryginalna wersja odpowiedzi miała włączony licznik i mianownik.
Simon Byrne,