Jaka jest różnica między przedziałami ufności a testowaniem hipotez?

28

Czytałem o kontrowersjach dotyczących testowania hipotez z niektórymi komentatorami sugerującymi, że testowanie hipotez nie powinno być stosowane. Niektórzy komentatorzy sugerują stosowanie zamiast tego przedziałów ufności .

  • Jaka jest różnica między przedziałami ufności a testowaniem hipotez? Docenione zostanie wyjaśnienie z odniesieniem i przykładami.
statystyki miłości
źródło
5
Myślę, że chciałeś zapytać, dlaczego raportowanie wyników testowania hipotezy poprzez wykazanie przedziału ufności jest lepsze niż zwykłe stwierdzenie, że coś jest potwierdzone lub odrzucone na pewnym poziomie wartości p.
3
Powinieneś rozważyć sprawdzenie niektórych innych pytań jako odpowiedzi.
Andy W

Odpowiedzi:

19

Możesz użyć przedziału ufności (CI) do testowania hipotez. W typowym przypadku, jeśli CI dla efektu nie obejmuje 0, możesz odrzucić hipotezę zerową. Ale CI można wykorzystać do większej liczby, podczas gdy raportowanie, czy został on zaliczony, jest granicą przydatności testu.

Na przykład zaleca się stosowanie CI zamiast tylko testu t, ponieważ można wtedy zrobić więcej niż tylko testować hipotezy. Możesz wypowiedzieć się na temat zakresu efektów, które uważasz za prawdopodobne (te w CI). Nie możesz tego zrobić za pomocą tylko testu t. Możesz go również użyć do wypowiedzenia wartości null, czego nie można zrobić za pomocą testu t. Jeśli test t nie odrzuci wartości null, to po prostu powiesz, że nie możesz odrzucić wartości null, co niewiele mówi. Ale jeśli masz wąski przedział ufności wokół wartości zerowej, możesz zasugerować, że wartość zerowa lub wartość zbliżona do niej jest prawdopodobnie prawdziwą wartością i sugerować, że efekt leczenia lub zmienna niezależna jest zbyt mały, aby był znaczący ( lub że twój eksperyment nie

Dodano później: Naprawdę powinienem to powiedzieć, chociaż możesz użyć CI jako testu, ale to nie jest jeden. Jest to oszacowanie zakresu, w którym według ciebie leżą wartości parametrów. Możesz dokonywać testów jak wnioskowania, ale o wiele lepiej, żeby nigdy o tym nie rozmawiać.

Który jest lepszy?

A) Efekt wynosi 0,6, t (29) = 2,8, p <0,05. Ten istotny statystycznie efekt jest ... (niektóre dyskusyjne Ensues o tej istotności statystycznej bez jakiejkolwiek wzmianki lub nawet silną zdolność do omówienia praktycznych implikacji wielkości stwierdzeniu ... pod ramach Neyman-Pearson Wielkość t i Wartości p są praktycznie bez znaczenia i wszystko, co możesz omówić, to, czy efekt jest obecny, czy nie jest obecny. Nigdy tak naprawdę nie można mówić o tym, że nie ma efektu na podstawie testu.)

lub

B) Korzystając z 95% przedziału ufności, szacuję, że efekt wynosi od 0,2 do 1,0. (pojawia się dyskusja na temat rzeczywistego efektu zainteresowania, niezależnie od tego, czy prawdopodobnymi wartościami są te, które mają jakieś szczególne znaczenie i każde użycie słowa znaczącego dla dokładnie tego, co powinno oznaczać. Ponadto szerokość elementu CI może przejść bezpośrednio do dyskusja na temat tego, czy jest to mocne odkrycie, czy też można dojść do bardziej wstępnych wniosków)

Jeśli wziąłeś podstawową klasę statystyki, możesz początkowo skłaniać się ku A. I mogą być przypadki, w których jest to lepszy sposób na raportowanie wyniku. Ale w przypadku większości prac B jest zdecydowanie lepszy. Oszacowanie zasięgu nie jest testem.

Jan
źródło
Jeden dodatek do komentarzy @john: Po pierwsze, czasami kluczowym pytaniem jest to, czy CI obejmuje 1, a nie 0 (np. Regresja logistyczna).
Peter Flom - Przywróć Monikę
Chłopaki, to jest 1 czy to 0? (Wydaje mi się to bardzo pouczające, więc chyba muszę się nauczyć właściwej wartości, na którą trzeba uważać!) @John
Adhesh Josh
Jaki jest związek między 95% CI a dwustronną hipotezą testową z alfa = 0,05? są takie same? Jeśli nie to jak?
love-stats
statystyki miłości, kiedy są używane tak samo, są takie same.
Jan
Adhesh Josh, hipoteza zerowa może być dowolną określoną wcześniej wartością. To kolejna cecha CI w porównaniu z prostym NHST. Jest bardzo łatwy w użyciu, gdy chcesz przetestować hipotetyczną wartość inną niż 0.
Jan
7

Istnieje równoważność między testami hipotez a przedziałami ufności. (patrz np. http://en.wikipedia.org/wiki/Confidence_interval#Statistic_hypothesis_testing ) Dam bardzo konkretny przykład. Załóżmy, że mamy próbkę z rozkładu normalnego ze średnią i wariancją 1, które napiszemy jako . Załóżmy, że uważamy, że , i chcemy przetestować hipotezę zerową , na poziomieTworzymy więc statystyki testowe, które w tym przypadku przyjmiemy za średnią próbną: . Załóżmy teraz, żex1,x2,,xnμN(μ,1)μ=mH0:μ=m0.05.v=(x1+x2++xn)/nA(m)to „region akceptacji” dla dla tego testu. Oznacza to, że jest zbiorem możliwych wartości dla których hipoteza zerowa jest akceptowana na poziomie 0,05 (używam „zaakceptowano” jako skrót dla „nie odrzuconego” - nie sugeruję że można wywnioskować, że hipoteza zerowa jest prawdziwa). W tym przykładzie możemy spojrzeć na rozkład normalny i wybrać dowolny zestaw, który ma prawdopodobieństwo co najmniej 0,95 w ramach tego rozkładu. Teraz 95% obszar ufności dla jest zbiorem wszystkich dla których jest w . Innymi słowy, jest to zbiór wszystkichvA(m)vμ=mN(m,1)μmvA(m)mdla którego hipoteza zerowa byłaby przyjęta dla obserwowanego . Właśnie dlatego John mówi: „Jeśli CI dla efektu nie obejmuje , możesz odrzucić hipotezę zerową”. (John odnosi się do przypadku testowania )v0μ=0

Powiązanym tematem jest wartość p. Wartość p jest najmniejszym poziomem dla testu, na którym odrzucilibyśmy hipotezę zerową. Aby powiązać to z omówieniem przedziałów ufności, załóżmy, że otrzymujemy określoną średnią próbną , z której budujemy przedziały ufności o różnych rozmiarach. Załóżmy, że 95% przedział ufności dla nie zawiera . Następnie możemy odrzucić hipotezę zerową na poziomie Załóżmy, że zwiększamy przedział ufności, dopóki nie dotknie (ale nie obejmuje) wartości , i załóżmy, że jest to przedział ufności 98%. Zatem wartość p dla hipotezy wynosi (z której otrzymujemyvμmμ=m0.05.mμ=m0.0210.98 ).

DavidR
źródło
Przeczytaj to, ponieważ wartości p nie można interpretować jako najmniejszego poziomu testu, aby odrzucić wartość null. „Wykazano już, że interpretacja wartości pw pojedynczych (lub trwających) eksperymentach jest niedopuszczalna w kontekście testowania hipotezy Neymana-Pearsona. Obliczenie wartości ap zależy tylko od prawdziwości hipotezy zerowej. Wartość p nie mierzy ilość dowodów potwierdzających HA; jest to miara dowodów indukcyjnych przeciwko H0. ” „Źródło: ftp.stat.duke.edu/WorkingPapers/03-26.pdf
sree22
@ sree22 czy możesz rozwinąć tę kwestię lub zaproponować przeredagowanie? W tym kontekście próbowałem podać definicję wartości p, a nie interpretację.
DavidR
3

„Uczeń” argumentował za przedziałami ufności, uzasadniając, że mogą wykazać, które efekty były ważniejsze, a które bardziej znaczące.

Na przykład, jeśli znalazłeś dwa efekty, w których pierwszy miał przedział ufności dla jego wpływu finansowego od 5 do 6 funtów, podczas gdy drugi miał przedział ufności od 200 do 2800 funtów. Pierwszy jest bardziej istotny statystycznie, ale drugi jest prawdopodobnie ważniejszy.

Henz
źródło