Czytam slajdy „Doing Bayesian Data Analysis” Johna Kruschkego , ale tak naprawdę mam pytanie o jego interpretację testów t i / lub całą strukturę testowania znaczenia hipotezy zerowej. Twierdzi, że wartości p są źle zdefiniowane, ponieważ zależą od intencji badacza.
W szczególności podaje przykład (strony 3-6) dwóch laboratoriów, które zbierają identyczne zestawy danych porównujące dwa zabiegi. Jedno laboratorium zobowiązuje się do gromadzenia danych od 12 osobników (po 6 na każdy warunek), podczas gdy drugie zbiera dane przez określony czas, co zdarza się również, że daje 12 osobników. Według szkiełkami krytyczna -wartość dla p < 0,05 , różni się między tymi dwoma systemami zbierania danych: t Crit = 2,33 dla tego pierwszego, ale T Crit = 2,45 dla tych ostatnich!
Wpis na blogu - którego teraz nie mogę znaleźć - zasugerował, że scenariusz o ustalonym czasie trwania ma więcej stopni swobody, ponieważ mogli gromadzić dane z 11, 13 lub dowolnej innej liczby podmiotów, podczas gdy scenariusz o ustalonym czasie trwania - definicja ma .
Czy ktoś mógłby mi wyjaśnić:
Dlaczego wartość krytyczna różni się między tymi warunkami?
(Zakładając, że to problem). Jak byś zajął się poprawianiem / porównywaniem efektów różnych kryteriów zatrzymania?
Wiem, że ustawienie kryteriów zatrzymania w oparciu o istotność (np. Próbka do ) może zwiększyć szanse na błąd typu I, ale wydaje się, że tak się nie dzieje, ponieważ żadna reguła zatrzymania nie zależy od wyniku analiza.
źródło
W końcu wytropiłem artykuł związany ze slajdami: Kruschke (2010) , dostępny również bezpośrednio od autora (za pośrednictwem CiteSeerX) tutaj , ponieważ czasopismo nie jest szeroko rozpowszechniane. Wyjaśnienie jest nieco prozaiczne, ale nadal nie jestem pewien, czy je kupię.
W przypadku ustalonego N krytyczną wartość oblicza się w następujący sposób: losowo pobiera się 2 N próbek z (tej samej) populacji i oblicza się wartość t . Proces ten powtarza się wiele razy, aby utworzyć rozkład zerowy. Wreszcie, t c r i t jest ustawiony na 95. percentyl tego rozkładu.t 2N t tcrit
W przypadku o ustalonym czasie trwania zakłada, że pacjenci przybywają ze średnią szybkością . Rozkład zerowy jest konstruowany przez powtórzenie dwóch kroków. W pierwszym etapie liczbę osobników dla każdego warunku N 1 i N 2 oblicza się z rozkładu opcji z parametrem λ . Następnie losowe losowania N 1 i N 2 z populacji są wykorzystywane do obliczenia wartości t . Jest to powtarzane wiele razy, a t c r i t jest ustawiony na 95. percentyl tego rozkładu.λ N1 N2 λ N1 N2 t tcrit
Wydaje mi się to trochę ... bezczelne ... Jak rozumiem, nie ma jednej dystrybucji ; zamiast tego jest to rodzina rozkładów, której kształt jest częściowo zdeterminowany parametrem stopni swobody. W przypadku warunku o stałym N jest grupa N na grupę, a odpowiednią wartością t dla niesparowanego testu t jest ten o 2 N - 2 stopniach swobody, co prawdopodobnie jest tym, co reprodukuje jego symulacja.t N N t 2N−2
W drugim przypadku wydaje się, że rozkład podobny do „ ” jest w rzeczywistości kombinacją próbek z wielu różnych rozkładów t , w zależności od konkretnych losowań. Ustawiając λ = N , można uzyskać średni stopień swobody równy 2 N - N , ale to nie wystarczy. Na przykład, średnia rozkładów t dla ν = 1 i ν = 5 nie wydaje się być rozkładem t z 3 stopniami swobody.t t λ=N 2N−N t ν=1 ν=5 t
W podsumowaniu:
źródło