O ile mniejsze mogą być wartości

13

Wprowadzenie: Po zwróceniu uwagi na to pytanie: „ Czy ANOVA może być znacząca, gdy żaden z testów t-par nie jest? ”, Pomyślałem, że może uda mi się zmienić jej ramkę w interesujący sposób, który zasługiwałby na własny zestaw odpowiedzi .

Różnorodność niepoprawnych wyników (według wartości nominalnej) może wystąpić, gdy istotność statystyczna jest rozumiana jako prosta dychotomia i oceniana na podstawie której podstawy jest wyższa, lub α . Odpowiedź @ Glen_b na powyższe pytanie stanowi użyteczny przykład przypadku, w którym:pα

  • Test ANOVA daje p F < 0,05 dla jednej zmiennej niezależnej (IV) z czterema poziomami, aleFpF<.05
  • dla wszystkich dwóch prób t, które porównują różnice w tej samej zmiennej zależnej (DV) między obserwacjami odpowiadającymi każdej parze z czterech poziomów IV.pt>.08t

Podobny przypadek powstał pomimo poprawek Bonferroniego dla porównań par post-hoc za pomocą tego pytania: powtarzane pomiary Anova są znaczące, ale wszystkie wielokrotne porównania z poprawką Bonferroniego nie są? Istnieją również wcześniej wspomniane przypadki z nieco innym testem w regresji wielokrotnej:

Założę się, że w takich przypadkach niektóre (ale nie wszystkie) porównania parami (lub „testy istotności współczynników regresji”) wartości muszą być dość zbliżone do α, jeśli odpowiedni test zbiorczy może osiągnąć p < αpαp<α . Widzę to ma miejsce w pierwszym przykładzie Glen_b @, gdzie , p F = 0,046 , a największa różnica parami daje najmniejszą s t = .054 . Czy tak musi być w ogóle? W szczególności :F(3,20)=3.19pF=.046pt=.054


Pytanie: Jeśli test ANOVA daje p F = 0,05 dla efektu jednego polytomicznego IV na ciągłym DV, jak wysoka może być najniższa wartość p spośród wszystkich dwóch prób t, które porównują każdą parę poziomów IV? Czy minimalne znaczenie parami może być tak wysokie, jak p t = 0,50 ?FpF=.05ptpt=.50


Z zadowoleniem przyjmuję odpowiedzi, które dotyczą tylko tego konkretnego pytania . Jednak, aby dalej motywować to pytanie, rozwinę je i przedstawię kilka potencjalnie retorycznych pytań. Zachęcamy również do rozwiązania tych problemów, a nawet zignorowania konkretnego pytania, jeśli chcesz, zwłaszcza jeśli konkretne pytanie uzyska ostateczną odpowiedź.

Istotność: Zastanów się, o ile mniej istotna byłaby różnica między i p t = 0,06 , gdyby istotność statystyczną oceniano w sposób ciągły pod względem siły dowodów w stosunku do hipotezy zerowej (jak sądzę, podejście Rona Fishera? ), a nie dychotomicznie, jak powyżej lub poniżej progu α = 0,05 dla dopuszczalnego prawdopodobieństwa błędu przy wyborze, czy odrzucić zerową wartość hurtową. „ hakowanie p ” jest znanym problemem, który częściowo zawdzięcza swoją uwagę niepotrzebnej podatności wprowadzonej przez interpretację ppF=.04pt=.06α=.05ppwartości zgodnie z powszechną praktyką dzielenia znaczenia na ekwiwalenty „wystarczająco dobrego” i „niewystarczającego”. Gdyby porzucić tę praktykę i zamiast tego skupić się na interpretowaniu wartości jako siły dowodu w odniesieniu do wartości zerowej w ciągłym przedziale, czy testowanie zbiorcze może być nieco mniej ważne, gdy naprawdę zależy na wielu porównaniach parami? Niekoniecznie niekoniecznie, ponieważ pożądana jest jakakolwiek racjonalna poprawa dokładności statystycznej, ale ... jeśli, na przykład, wartość p najniższego porównania parami jest koniecznie w granicach .10 ANOVA (lub innego testu zbiorczego) ppp.10pwartość, czy to nie czyni testu omnibus nieco bardziej trywialnym, mniej obowiązkowym, a nawet bardziej mylącym (w połączeniu z wcześniejszymi nieporozumieniami), zwłaszcza jeśli nie chce się szczególnie kontrolować w wielu testach?α

I odwrotnie, jeśli dane mogą istnieć tak, że omnibus , ale wszystkie pary p > .50 , czy nie powinno to jeszcze bardziej motywować do testów omnibus i kontrastów w trakcie praktyki i pedagogiki? Wydaje mi się, że kwestia ta powinna również informować o względnych zaletach oceny istotności statystycznej zgodnie z dychotomią vs. jest bezpieczny przed niewykonaniem testu zbiorczego lub skorygowaniem dla wielu porównań, jeśli ta różnica / regulacja może być bardzo duża (np. p t - p F >p=.05p>.50 w teorii.ptpF>.40)

Inne opcjonalne złożoności, które należy rozważyć lub zignorować - cokolwiek sprawia, że ​​udzielanie odpowiedzi jest łatwiejsze i bardziej opłacalne :

Nick Stauner
źródło
1
Być może warto wyjaśnić, czy w testach t po parach należy używać tej samej oceny wariancji błędu, jak w przypadku testu F typu omnibus (w przykładzie Glen'a tego nie robią).
Scortchi - Przywróć Monikę
1
I rozumie się zwykły test t dla różnicy w środkach wykorzystaniem , ale zĎobliczana jako pierwiastek kwadratowy z błędu średniokwadratowego ANOVAR. Jest to zwykły t-test par post-hoc iniedostosowuje się do wielu porównań, w przeciwieństwie do HSD Tukeya. Zawiera informacje ze wszystkich grup, ale jest niezależny od różnic w środkach grupy. t=(y¯1y¯2)/(σ^1n1+1n2)σ^
Scortchi - Przywróć Monikę
1
Rozumiem (tak jakby)! Byłbym przede wszystkim zainteresowany podążaniem za przykładem @ Glen_b i niestosowaniem , ale używając pierwszej formuły, o której wspomniałeś, aby uniknąć dołączania informacji ze wszystkich grup. Nie oznacza to, że mam tutaj silną preferencję ... ale częścią mojej pierwotnej intencji było przedstawienie wariantu wspólnego tematu w tych pytaniach: „Jaka jest prawdziwa szkoda w ignorowaniu informacji poza dwiema konkretnymi grupami w danym przypadku test dwóch próbek wśród wielu? ” Wydaje mi się, że ten temat również warto uwzględnić w tej decyzji. MSE
Nick Stauner
1
@Scortchi Podałem przykład na inne pytanie, które obejmuje twój pierwszy komentarz (tj. Gdzie testy są wykonywane przy użyciu typowej wariancji błędu i df), chociaż wszystkie testy (F i wielokrotne porównania) są wykonywane na dość niskim poziomie istotności (0,0025, a nie 0,05). W porównaniu do poszczególnych dwóch przykładowych testów t zwykłych jest proszona przez Nick S. tutaj, to pokazuje, że dość znaczna różnica w znaczeniu jest to możliwe (w tym przypadku dla wszystkich zwykłych t-testy , jeszcze p F < 0,002 ). Uważam, że w przypadku wielu grup można pójść znacznie dalej. pt>.05pF<0.002
Glen_b
1
Kilka minut temu naszkicowałem odpowiedź na pierwszą część tego pytania w komentarzu na stronie stats.stackexchange.com/questions/83030/… .
whuber

Odpowiedzi:

8

ntpt2Φ(2).1573ΦN(0,1)pt0.5.1573pF=.05F

maxi,j|y¯iy¯j|=2aFy¯iF2a

y¯.=0y¯i=±aMSE=1kkF=ny¯2/(k1)MSE=kna2k1pF=αF=Fα=Fα,k1,k(n1)a=(k1)Fαkny¯i±aMSE=1tt=2a12/n=2(k1)FαktF=Fα

kntptkFαnn(k1)Fα,k1,k(n1)χα,k12ttmin=2χα,k12/kχ2/k=k1kχ2/(k1)k1kk1k2k1limktmin=2α

Rkα=.05

k       t_min    max p_t   [ Really I mean min(max|t|) and max(min p_t)) ]
2       1.960     .0500
4       1.977     .0481   <--  note < .05 !
10      1.840     .0658
100     1.570     .1164
1000    1.465     .1428
10000   1.431     .1526

Kilka luźnych końców ...

  1. Fy¯i±a±a/kkFk1ktpt
  2. nFy¯i=±aFN=nitnipt
  3. tpttn=2,3,4,α=.05,k3ptndf=k(n1)k,2k,3k,kα=.25.1573k=3,n=2
Russ Lenth
źródło