„Intencja badacza” i progi / wartości p

Czytam slajdy „Doing Bayesian Data Analysis” Johna Kruschkego , ale tak naprawdę mam pytanie o jego interpretację testów t i / lub całą strukturę testowania znaczenia hipotezy zerowej. Twierdzi, że wartości p są źle zdefiniowane, ponieważ zależą od intencji badacza.

W szczególności podaje przykład (strony 3-6) dwóch laboratoriów, które zbierają identyczne zestawy danych porównujące dwa zabiegi. Jedno laboratorium zobowiązuje się do gromadzenia danych od 12 osobników (po 6 na każdy warunek), podczas gdy drugie zbiera dane przez określony czas, co zdarza się również, że daje 12 osobników. Według szkiełkami krytyczna -wartość dla , różni się między tymi dwoma systemami zbierania danych: dla tego pierwszego, ale dla tych ostatnich! $t$ $p<0.05$ $t_{\textrm{crit}}=2.33$ $t_{\textrm{crit}}=2.45$

Wpis na blogu - którego teraz nie mogę znaleźć - zasugerował, że scenariusz o ustalonym czasie trwania ma więcej stopni swobody, ponieważ mogli gromadzić dane z 11, 13 lub dowolnej innej liczby podmiotów, podczas gdy scenariusz o ustalonym czasie trwania - definicja ma . $N=12$

Czy ktoś mógłby mi wyjaśnić:

Dlaczego wartość krytyczna różni się między tymi warunkami?
(Zakładając, że to problem). Jak byś zajął się poprawianiem / porównywaniem efektów różnych kryteriów zatrzymania?

Wiem, że ustawienie kryteriów zatrzymania w oparciu o istotność (np. Próbka do ) może zwiększyć szanse na błąd typu I, ale wydaje się, że tak się nie dzieje, ponieważ żadna reguła zatrzymania nie zależy od wyniku analiza. $p<0.05$

hypothesis-testing Matt Krause
źródło

Odpowiedzi:

Oto kilka informacji: http://doingbayesiandataanalysis.blogspot.com/2012/07/sampling-distribution-of-t-when.html

Bardziej kompletna dyskusja znajduje się tutaj: http://www.indiana.edu/~kruschke/BEST/ Artykuł ten rozważa wartości p dla zatrzymania na progu N, zatrzymania na progu czasu trwania i zatrzymania na progu wartości t.

John K. Kruschke
źródło

Łał! Jakby prosto z pyska konia… To zdecydowanie interesujący pomysł, który nie przyszedł mi do głowy. Dzięki za dodatkowe info.

Matt Krause,

Chciałem dodać, że jest to szczegółowo omówione w książce dr Kruschke (w rozdziale 11).

Matt Krause,

W końcu wytropiłem artykuł związany ze slajdami: Kruschke (2010) , dostępny również bezpośrednio od autora (za pośrednictwem CiteSeerX) tutaj , ponieważ czasopismo nie jest szeroko rozpowszechniane. Wyjaśnienie jest nieco prozaiczne, ale nadal nie jestem pewien, czy je kupię.

W przypadku ustalonego N krytyczną wartość oblicza się w następujący sposób: losowo pobiera się próbek z (tej samej) populacji i oblicza się wartość . Proces ten powtarza się wiele razy, aby utworzyć rozkład zerowy. Wreszcie, jest ustawiony na 95. percentyl tego rozkładu. $t$ $2N$ $t$ $t_{crit}$

W przypadku o ustalonym czasie trwania zakłada, że pacjenci przybywają ze średnią szybkością . Rozkład zerowy jest konstruowany przez powtórzenie dwóch kroków. W pierwszym etapie liczbę osobników dla każdego warunku i oblicza się z rozkładu opcji z parametrem . Następnie losowe losowania i z populacji są wykorzystywane do obliczenia wartości . Jest to powtarzane wiele razy, a jest ustawiony na 95. percentyl tego rozkładu. $\lambda$ $N_1$ $N_2$ $\lambda$ $N_1$ $N_2$ $t$ $t_{crit}$

Wydaje mi się to trochę ... bezczelne ... Jak rozumiem, nie ma jednej dystrybucji ; zamiast tego jest to rodzina rozkładów, której kształt jest częściowo zdeterminowany parametrem stopni swobody. W przypadku warunku o stałym jest grupa na grupę, a odpowiednią wartością dla niesparowanego testu t jest ten o stopniach swobody, co prawdopodobnie jest tym, co reprodukuje jego symulacja. $t$ $N$ $N$ $t$ $2N-2$

W drugim przypadku wydaje się, że rozkład podobny do „ ” jest w rzeczywistości kombinacją próbek z wielu różnych rozkładów , w zależności od konkretnych losowań. Ustawiając , można uzyskać średni stopień swobody równy , ale to nie wystarczy. Na przykład, średnia rozkładów dla i nie wydaje się być rozkładem z 3 stopniami swobody. $t$ $t$ $\lambda=N$ $2N-N$ $t$ $\nu=1$ $\nu=5$ $t$

W podsumowaniu:

$t_{crit}$
$t$
Nie jestem przekonany, że to rzeczywiście problem, ale chętnie przeczytam / poprę / zaakceptuję odpowiedzi, jeśli ktoś pomyśli inaczej.

Matt Krause
źródło

Dlaczego potrafisz odpowiedzieć na swoje pytanie i dać mu znak wyboru? Nie wydaje się, że powinieneś być w stanie dać sobie rep pointe!

Michael R. Chernick

Nie ma nic złego w odpowiedzi na jego własne pytanie , Michael.

chl

@MichaelChernick, uważam, że nie dostaniesz żadnego przedstawiciela, jeśli zaakceptujesz własną odpowiedź. W tamtym czasie wydawało mi się to słuszne, ponieważ mniej więcej wytropiłem odpowiedź w ciągu dwóch tygodni, ale zmieniłem zdanie na odpowiedź Johna K. Kruschke, ponieważ on sam jest autorytetem slajdy :-)

Matt Krause,

Ciekawe dzięki. Ale nie rozumiem, dlaczego w każdej chwili należy sprawdzić własną odpowiedź, nawet jeśli wydaje się poprawna i najlepsza. Ustaliliśmy, że sprawdzenie własnej odpowiedzi nie daje punktów przedstawicielskich.

Michael R. Chernick

Ponieważ oznaczenie odpowiedzi jako zaakceptowanej nie ma innego celu niż wskazanie poprawnego rozwiązania (dla przyszłych gości), szczególnie tam, gdzie nie zaproponowano żadnego innego, nie widzę z tym problemu. Osobiście głosowałem tę odpowiedź dawno temu, ponieważ doceniam fakt, że PO pozwala nam korzystać z własnych badań. I naprawdę przepraszam, że nie mogłem dać dodatkowego głosu za prosty fakt śledzenia tego wątku i aktualizacji jego decyzji. PS „Ustaliliśmy ...” odnosi się do Dlaczego można zdobyć punkty reputacyjne? .

chl