O ile mniejsze mogą być wartości

Wprowadzenie: Po zwróceniu uwagi na to pytanie: „ Czy ANOVA może być znacząca, gdy żaden z testów t-par nie jest? ”, Pomyślałem, że może uda mi się zmienić jej ramkę w interesujący sposób, który zasługiwałby na własny zestaw odpowiedzi .

Różnorodność niepoprawnych wyników (według wartości nominalnej) może wystąpić, gdy istotność statystyczna jest rozumiana jako prosta dychotomia i oceniana na podstawie której podstawy jest wyższa, lub . Odpowiedź @ Glen_b na powyższe pytanie stanowi użyteczny przykład przypadku, w którym: $p$ $\alpha$

Test ANOVA daje dla jednej zmiennej niezależnej (IV) z czterema poziomami, ale $F$ $p_F<.05$
dla wszystkich dwóch prób które porównują różnice w tej samej zmiennej zależnej (DV) między obserwacjami odpowiadającymi każdej parze z czterech poziomów IV. $p_t>.08$ $t$

Podobny przypadek powstał pomimo poprawek Bonferroniego dla porównań par post-hoc za pomocą tego pytania: powtarzane pomiary Anova są znaczące, ale wszystkie wielokrotne porównania z poprawką Bonferroniego nie są? Istnieją również wcześniej wspomniane przypadki z nieco innym testem w regresji wielokrotnej:

Dlaczego możliwe jest uzyskanie istotnej statystyki F (p <0,001), ale nieistotnych testów regresora? : $p_F<.001,p_{\beta t}>.09$
W jaki sposób regresja może być znacząca, ale wszystkie predyktory mogą być nieistotne?
- W @ whuber na odpowiedź , $p_F=.0003,p_{\beta t}>.09$

Założę się, że w takich przypadkach niektóre (ale nie wszystkie) porównania parami (lub „testy istotności współczynników regresji”) wartości muszą być dość zbliżone do jeśli odpowiedni test zbiorczy może osiągnąć $p$ $\alpha$ $p <\alpha$ . Widzę to ma miejsce w pierwszym przykładzie Glen_b @, gdzie , , a największa różnica parami daje najmniejszą . Czy tak musi być w ogóle? W szczególności : $F_{(3,20)}=3.19$ $p_F=.046$ $p_t=.054$

Pytanie: Jeśli test ANOVA daje dla efektu jednego polytomicznego IV na ciągłym DV, jak wysoka może być najniższa wartość spośród wszystkich dwóch prób które porównują każdą parę poziomów IV? Czy minimalne znaczenie parami może być tak wysokie, jak ? $F$ $p_F=.05$ $p$ $t$ $p_t=.50$

_{Z zadowoleniem przyjmuję odpowiedzi, które dotyczą tylko tego konkretnego pytania . Jednak, aby dalej motywować to pytanie, rozwinę je i przedstawię kilka potencjalnie retorycznych pytań. Zachęcamy również do rozwiązania tych problemów, a nawet zignorowania konkretnego pytania, jeśli chcesz, zwłaszcza jeśli konkretne pytanie uzyska ostateczną odpowiedź.}

Istotność: Zastanów się, o ile mniej istotna byłaby różnica między i , gdyby istotność statystyczną oceniano w sposób ciągły pod względem siły dowodów w stosunku do hipotezy zerowej (jak sądzę, podejście Rona Fishera? ), a nie dychotomicznie, jak powyżej lub poniżej progu dla dopuszczalnego prawdopodobieństwa błędu przy wyborze, czy odrzucić zerową wartość hurtową. „ hakowanie ” jest znanym problemem, który częściowo zawdzięcza swoją uwagę niepotrzebnej podatności wprowadzonej przez interpretację $p_F=.04$ $p_t=.06$ $\alpha=.05$ $p$ $p$ wartości zgodnie z powszechną praktyką dzielenia znaczenia na ekwiwalenty „wystarczająco dobrego” i „niewystarczającego”. Gdyby porzucić tę praktykę i zamiast tego skupić się na interpretowaniu wartości jako siły dowodu w odniesieniu do wartości zerowej w ciągłym przedziale, czy testowanie zbiorcze może być nieco mniej ważne, gdy naprawdę zależy na wielu porównaniach parami? Niekoniecznie niekoniecznie, ponieważ pożądana jest jakakolwiek racjonalna poprawa dokładności statystycznej, ale ... jeśli, na przykład, wartość najniższego porównania parami jest koniecznie w granicach ANOVA (lub innego testu zbiorczego) $p$ $p$ $.10$ $p$ wartość, czy to nie czyni testu omnibus nieco bardziej trywialnym, mniej obowiązkowym, a nawet bardziej mylącym (w połączeniu z wcześniejszymi nieporozumieniami), zwłaszcza jeśli nie chce się szczególnie kontrolować w wielu testach? $\alpha$

I odwrotnie, jeśli dane mogą istnieć tak, że omnibus , ale wszystkie pary , czy nie powinno to jeszcze bardziej motywować do testów omnibus i kontrastów w trakcie praktyki i pedagogiki? Wydaje mi się, że kwestia ta powinna również informować o względnych zaletach oceny istotności statystycznej zgodnie z dychotomią vs. jest bezpieczny przed niewykonaniem testu zbiorczego lub skorygowaniem dla wielu porównań, jeśli ta różnica / regulacja może być bardzo duża (np. $p=.05$ $p>.50$ w teorii. $p_t-p_F>.40)$

_{Inne opcjonalne złożoności, które należy rozważyć lub zignorować - cokolwiek sprawia, że udzielanie odpowiedzi jest łatwiejsze i bardziej opłacalne :}

^{Jak wysokie może być s dla s, jeśli zamiast , (np. ) $p$ $t$ $F$ $p<.05$ $p=.01, .001,\dots$}
^{Wrażliwość na liczbę poziomów w polytomous IV}
^{Wrażliwość na nierówności w znaczeniu różnic par (podczas gdy wszystkie ) $p_t>p_F$}
- ^{odpowiedź Whubera wskazuje, że włączenie małych różnic może maskować duże różnice.}
^{Różnice między poprawkami różnych testów zbiorczych dla wielu porównań}
- ^{Zobacz także: Korygowanie wielokrotnych porównań ANOVA w obrębie badanych / powtarzanych pomiarów; nadmiernie konserwatywny?}
- ^{W przypadku wielu IV wydaje się, że wielokoliniowość może zaostrzyć ten problem .}
^{Ograniczone przypadki, w których dane optymalnie spełniają wszystkie założenia klasycznych testów parametrycznych}
- ^{Ograniczenie to może być ważne, aby zapobiec temu podejrzeniu.}

hypothesis-testing anova statistical-significance t-test multiple-comparisons Nick Stauner
źródło

Być może warto wyjaśnić, czy w testach t po parach należy używać tej samej oceny wariancji błędu, jak w przypadku testu F typu omnibus (w przykładzie Glen'a tego nie robią).

Scortchi - Przywróć Monikę

I rozumie się zwykły test t dla różnicy w środkach wykorzystaniem

, ale z

obliczana jako pierwiastek kwadratowy z błędu średniokwadratowego ANOVAR. Jest to zwykły t-test par post-hoc iniedostosowuje się do wielu porównań, w przeciwieństwie do HSD Tukeya. Zawiera informacje ze wszystkich grup, ale jest niezależny od różnic w środkach grupy.

t = ({\bar{y}}_{1} - {\bar{y}}_{2}) / (\hat{σ} \sqrt{\frac{1}{n_{1}} + \frac{1}{n_{2}}})

$t=(\bar{y}_1-\bar{y}_2)/\left({\hat\sigma\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}}\right)$

\hat{σ}

$\hat\sigma$

Scortchi - Przywróć Monikę

Rozumiem (tak jakby)! Byłbym przede wszystkim zainteresowany podążaniem za przykładem @ Glen_b i niestosowaniem

, ale używając pierwszej formuły, o której wspomniałeś, aby uniknąć dołączania informacji ze wszystkich grup. Nie oznacza to, że mam tutaj silną preferencję ... ale częścią mojej pierwotnej intencji było przedstawienie wariantu wspólnego tematu w tych pytaniach: „Jaka jest prawdziwa szkoda w ignorowaniu informacji poza dwiema konkretnymi grupami w danym przypadku test dwóch próbek wśród wielu? ” Wydaje mi się, że ten temat również warto uwzględnić w tej decyzji.

\sqrt{MSE}

$\sqrt{\text{MSE}}$

Nick Stauner

@Scortchi Podałem przykład na inne pytanie, które obejmuje twój pierwszy komentarz (tj. Gdzie testy są wykonywane przy użyciu typowej wariancji błędu i df), chociaż wszystkie testy (F i wielokrotne porównania) są wykonywane na dość niskim poziomie istotności (0,0025, a nie 0,05). W porównaniu do poszczególnych dwóch przykładowych testów t zwykłych jest proszona przez Nick S. tutaj, to pokazuje, że dość znaczna różnica w znaczeniu jest to możliwe (w tym przypadku

dla wszystkich zwykłych t-testy , jeszcze

). Uważam, że w przypadku wielu grup można pójść znacznie dalej.

p_{t} > .05

$p_t>.05$

p_{F} < 0.002

$p_F<0.002$

Glen_b

Kilka minut temu naszkicowałem odpowiedź na pierwszą część tego pytania w komentarzu na stronie stats.stackexchange.com/questions/83030/… .

whuber

O ile mniejsze mogą być wartości

Odpowiedzi: