Oczywiście błędne jest założenie, że brak odrzucenia wartości null oznacza, że wartość null jest prawdziwa. Ale w przypadku, gdy wartość zerowa nie jest odrzucana, a odpowiadający jej przedział ufności (CI) jest wąski i wyśrodkowany wokół zera, czy nie dostarcza to dowodów na wartość zerową?
Mam dwa zdania: tak, w praktyce dostarczyłoby to dowodów na to, że efekt jest mniej więcej równy 0. Jednak w ścisłym kontekście testowania hipotez wydaje się, że efektów zerowych nie można po prostu wnioskować, podobnie jak odpowiadające im współczynniki CI. Jakie jest zatem znaczenie elementu CI, gdy jego oszacowanie punktowe jest nieistotne? Czy jest to również bezużyteczne do wnioskowania, czy może być użyte jak w poprzednim przykładzie do kwantyfikacji dowodów na wartość zerową?
Zachęcamy do udzielania odpowiedzi z referencjami naukowymi.
Odpowiedzi:
W skrócie: tak.
Jak napisał Andy W, stwierdzenie, że parametr jest równy określonej wartości (w twoim przypadku wielkość efektu wynosi zero), jest kwestią sprawdzenia równoważności.
W twoim przypadku ten wąski przedział ufności może faktycznie wskazywać, że efekt jest praktycznie zerowy, co oznacza, że hipoteza zerowa równoważności może zostać odrzucona. Znacząca równoważność w1−α -level jest zwykle pokazywany przez zwykły 1−2α - przedział ufności, który całkowicie mieści się w uprzednio określonym przedziale równoważności. Ten przedział równoważności bierze pod uwagę, że jesteś w stanie zaniedbać naprawdę małe odchylenia, tj. Wszystkie rozmiary efektów w tym przedziale równoważności można uznać za praktycznie równoważne. (Statystyczny test równości nie jest możliwy.)
Proszę przeczytać artykuł Stefana Welleka „Testowanie hipotez statystycznych o równoważności i nie-niższości”, który jest najbardziej wyczerpującą książką na ten temat.
źródło
Hipotezy zerowe ilustrują znaczenie „Wszystkie modele są błędne, ale niektóre są przydatne”. Są prawdopodobnie najbardziej przydatne, jeśli nie są brane dosłownie i poza kontekstem - to znaczy, należy pamiętać o epistemicznym celu zerowania. Jeśli można go sfałszować, co jest zamierzonym celem, wówczas alternatywa staje się bardziej przydatna w porównaniu, choć nadal raczej mało informacyjna. Jeśli odrzucisz zero, mówisz, że efekt prawdopodobnie nie jest równy zero (lub cokolwiek innego - hipotezy zerowe mogą również określać inne wartości dla fałszowania) ... więc co to jest?
Obliczony rozmiar efektu jest najlepszym oszacowaniem punktowym parametru populacji. Zasadniczo szanse powinny być równie dobre, że są przeszacowane lub niedoszacowane, ale szanse, że jest to ślepy cel, są nieskończenie małe, jak sugeruje komentarz @ Glen_b. Jeśli z jakiegoś dziwnego zrządzenia losu (lub przez konstrukcję - w każdym razie, zakładam, że mówimy hipotetycznie?), Twoje oszacowanie spada bezpośrednio na0.0¯ , wciąż nie jest to wiele dowodów na to, że parametr nie jest inną wartością w przedziale ufności. Znaczenie przedziału ufności nie zmienia się w zależności od znaczenia jakiegokolwiek testu hipotezy, z wyjątkiem tego, o ile może to zmienić lokalizację i szerokość w powiązany sposób.
W przypadku, gdy nie jesteś zaznajomiony z tym, jak wyglądają szacunki wielkości efektu dla próbek z (symulowanej) populacji, dla której hipoteza zerowa jest dosłownie prawdziwa (lub jeśli jeszcze jej nie widziałeś i są tutaj tylko dla rozrywki statystycznej ), sprawdź Taniec Geoffa Cummingap Wartości . Jeśli te przedziały ufności nie są wystarczająco wąskie dla twojego gustu, próbowałem symulować niektóre z moich w R przy użyciu losowo generowanych próbek, po prostu nieśmiałychn=1M każdy z N(0,1) . Zapomniałem ustawić ziarno, ale ustawiłem,
x=c()
a następnie pobierałemx=append(x,replicate(500,cor(rnorm(999999),rnorm(999999))))
tyle razy, ile chciałem, zanim ukończyłem tę odpowiedź, co dało mi w końcu 6000 próbek. Oto histogram i gęstość przy użyciu działkahist(x,n=length(x)/100)
iplot(density(x))
odpowiednio:Jak można się spodziewać, istnieją dowody na istnienie różnych niezerowych efektów wynikających z tych losowych próbek populacji z dosłownie zerowym efektem, a te szacunki są mniej więcej normalnie rozmieszczone wokół prawdziwego parametru (n=1M , a nie prawdziwy parametr: dlaczego miałbyś oczekiwać, że parametr będzie bliższy zeru niż szacunek zamiast dalej? Twój przedział ufności może zawierać wartość zerową, ale wartość zerowa nie jest tak naprawdę bardziej prawdopodobna niż wartość równoważnej odległości od wielkości efektu próbki w przeciwnym kierunku, a inne wartości mogą być bardziej prawdopodobne, szczególnie oszacowanie punktu!
skew(x)
= -005,kurtosis(x)
= 2,85). Wyobraź sobie, że znasz swoją wartość szacunkową tylko z próbyJeśli w praktyce chcesz wykazać, że efekt jest mniej więcej zerowy, musisz określić, o ile mniej więcej jesteś skłonny zignorować. Przy tych ogromnych próbkach, które zasymulowałem, oszacowałem największą wielkość, jaką wygenerowałem|r|=.004 . Z bardziej realistycznymi próbkamin=999 , największy spośród 1M próbki jest |r|=.14 . Ponownie, reszty są zwykle rozłożone, więc są one mało prawdopodobne, ale chodzi o to, że nie są nieprawdopodobne.
CI jest prawdopodobnie bardziej przydatny do wnioskowania niż ogólnie NHST. Nie oznacza to tylko, jak źle może być założyć, że parametr jest pomijalnie mały; reprezentuje to dobre pojęcie o tym, czym właściwie jest ten parametr. Nadal można zdecydować, czy jest to nieistotne, ale można również zorientować się, jak może być nieistotne. Więcej informacji na temat przedziałów ufności można znaleźć w Cumming (2014 , 2013) .
Odniesienia
- Cumming, G. (2013). Zrozumienie nowych statystyk: wielkości efektów, przedziały ufności i metaanaliza . Routledge.
- Cumming, G. (2014). Nowe statystyki: dlaczego i jak. Psychological Science, 25 (7), 7–29. Źródło: http://pss.sagepub.com/content/25/1/7.full.pdf+html .
źródło
cor.test(rnorm(9999999),rnorm(9999999))
i dostałem CI