Czytałem o kontrowersjach dotyczących testowania hipotez z niektórymi komentatorami sugerującymi, że testowanie hipotez nie powinno być stosowane. Niektórzy komentatorzy sugerują stosowanie zamiast tego przedziałów ufności .
- Jaka jest różnica między przedziałami ufności a testowaniem hipotez? Docenione zostanie wyjaśnienie z odniesieniem i przykładami.
hypothesis-testing
confidence-interval
statystyki miłości
źródło
źródło
Odpowiedzi:
Możesz użyć przedziału ufności (CI) do testowania hipotez. W typowym przypadku, jeśli CI dla efektu nie obejmuje 0, możesz odrzucić hipotezę zerową. Ale CI można wykorzystać do większej liczby, podczas gdy raportowanie, czy został on zaliczony, jest granicą przydatności testu.
Na przykład zaleca się stosowanie CI zamiast tylko testu t, ponieważ można wtedy zrobić więcej niż tylko testować hipotezy. Możesz wypowiedzieć się na temat zakresu efektów, które uważasz za prawdopodobne (te w CI). Nie możesz tego zrobić za pomocą tylko testu t. Możesz go również użyć do wypowiedzenia wartości null, czego nie można zrobić za pomocą testu t. Jeśli test t nie odrzuci wartości null, to po prostu powiesz, że nie możesz odrzucić wartości null, co niewiele mówi. Ale jeśli masz wąski przedział ufności wokół wartości zerowej, możesz zasugerować, że wartość zerowa lub wartość zbliżona do niej jest prawdopodobnie prawdziwą wartością i sugerować, że efekt leczenia lub zmienna niezależna jest zbyt mały, aby był znaczący ( lub że twój eksperyment nie
Dodano później: Naprawdę powinienem to powiedzieć, chociaż możesz użyć CI jako testu, ale to nie jest jeden. Jest to oszacowanie zakresu, w którym według ciebie leżą wartości parametrów. Możesz dokonywać testów jak wnioskowania, ale o wiele lepiej, żeby nigdy o tym nie rozmawiać.
Który jest lepszy?
A) Efekt wynosi 0,6, t (29) = 2,8, p <0,05. Ten istotny statystycznie efekt jest ... (niektóre dyskusyjne Ensues o tej istotności statystycznej bez jakiejkolwiek wzmianki lub nawet silną zdolność do omówienia praktycznych implikacji wielkości stwierdzeniu ... pod ramach Neyman-Pearson Wielkość t i Wartości p są praktycznie bez znaczenia i wszystko, co możesz omówić, to, czy efekt jest obecny, czy nie jest obecny. Nigdy tak naprawdę nie można mówić o tym, że nie ma efektu na podstawie testu.)
lub
B) Korzystając z 95% przedziału ufności, szacuję, że efekt wynosi od 0,2 do 1,0. (pojawia się dyskusja na temat rzeczywistego efektu zainteresowania, niezależnie od tego, czy prawdopodobnymi wartościami są te, które mają jakieś szczególne znaczenie i każde użycie słowa znaczącego dla dokładnie tego, co powinno oznaczać. Ponadto szerokość elementu CI może przejść bezpośrednio do dyskusja na temat tego, czy jest to mocne odkrycie, czy też można dojść do bardziej wstępnych wniosków)
Jeśli wziąłeś podstawową klasę statystyki, możesz początkowo skłaniać się ku A. I mogą być przypadki, w których jest to lepszy sposób na raportowanie wyniku. Ale w przypadku większości prac B jest zdecydowanie lepszy. Oszacowanie zasięgu nie jest testem.
źródło
Istnieje równoważność między testami hipotez a przedziałami ufności. (patrz np. http://en.wikipedia.org/wiki/Confidence_interval#Statistic_hypothesis_testing ) Dam bardzo konkretny przykład. Załóżmy, że mamy próbkę z rozkładu normalnego ze średnią i wariancją 1, które napiszemy jako . Załóżmy, że uważamy, że , i chcemy przetestować hipotezę zerową , na poziomieTworzymy więc statystyki testowe, które w tym przypadku przyjmiemy za średnią próbną: . Załóżmy teraz, żex1,x2,…,xn μ N(μ,1) μ=m H0:μ=m 0.05. v=(x1+x2+⋯+xn)/n A(m) to „region akceptacji” dla dla tego testu. Oznacza to, że jest zbiorem możliwych wartości dla których hipoteza zerowa jest akceptowana na poziomie 0,05 (używam „zaakceptowano” jako skrót dla „nie odrzuconego” - nie sugeruję że można wywnioskować, że hipoteza zerowa jest prawdziwa). W tym przykładzie możemy spojrzeć na rozkład normalny i wybrać dowolny zestaw, który ma prawdopodobieństwo co najmniej 0,95 w ramach tego rozkładu. Teraz 95% obszar ufności dla jest zbiorem wszystkich dla których jest w . Innymi słowy, jest to zbiór wszystkichv A(m) v μ=m N(m,1) μ m v A(m) m dla którego hipoteza zerowa byłaby przyjęta dla obserwowanego . Właśnie dlatego John mówi: „Jeśli CI dla efektu nie obejmuje , możesz odrzucić hipotezę zerową”. (John odnosi się do przypadku testowania )v 0 μ=0
Powiązanym tematem jest wartość p. Wartość p jest najmniejszym poziomem dla testu, na którym odrzucilibyśmy hipotezę zerową. Aby powiązać to z omówieniem przedziałów ufności, załóżmy, że otrzymujemy określoną średnią próbną , z której budujemy przedziały ufności o różnych rozmiarach. Załóżmy, że 95% przedział ufności dla nie zawiera . Następnie możemy odrzucić hipotezę zerową na poziomie Załóżmy, że zwiększamy przedział ufności, dopóki nie dotknie (ale nie obejmuje) wartości , i załóżmy, że jest to przedział ufności 98%. Zatem wartość p dla hipotezy wynosi (z której otrzymujemyv μ m μ=m 0.05. m μ=m 0.02 1−0.98 ).
źródło
„Uczeń” argumentował za przedziałami ufności, uzasadniając, że mogą wykazać, które efekty były ważniejsze, a które bardziej znaczące.
Na przykład, jeśli znalazłeś dwa efekty, w których pierwszy miał przedział ufności dla jego wpływu finansowego od 5 do 6 funtów, podczas gdy drugi miał przedział ufności od 200 do 2800 funtów. Pierwszy jest bardziej istotny statystycznie, ale drugi jest prawdopodobnie ważniejszy.
źródło