Mam pewne dane, które niekoniecznie zakładam, że pochodzą z normalnych rozkładów i chciałbym przeprowadzić testy równoważności między grupami. W przypadku normalnych danych istnieją techniki takie jak TOST (dwa jednostronne testy t). Czy istnieje coś analogicznego do TOST dla danych niestandardowych?
hypothesis-testing
equivalence
tost
Ryan C. Thompson
źródło
źródło
Odpowiedzi:
Logika tost stosuje Wald typu T i z badań statystycznych (tzn i ) nie mogą być stosowane do Ż przybliżonych testy nieparametryczne jak znak , ranga znakowa i testy sumy rang. Dla uproszczenia zakładam, że równoważność jest wyrażana symetrycznie za pomocą pojedynczego terminu, ale rozszerzenie mojej odpowiedzi na asymetryczne terminy równoważności jest proste.θ/sθ θ/σθ
Jedną z kwestii, która powstaje przy tym, jest to, że jeśli ktoś jest przyzwyczajony do wyrażania wyrażenia równoważności (powiedzmy ) w tych samych jednostkach co , to wyraz równoważności musi być wyrażony w jednostkach określonego znaku, oznaczonej rangi, lub statystyka sumy rang, który jest zarówno zawiłe i zależne od N .Δ θ
Można jednak również wyrazić terminy równoważności TOST w jednostkach samej statystyki testowej. Weź pod uwagę, że w TOST, jeśli , to i . Jeśli pozwolimy , to , a . (Przedstawione tutaj statystyki są oceniane w prawym ogonie: i .) Używanie jednostek zz=θ/σθ z1=(Δ−θ)/σθ z2=(θ+Δ)/σθ ε=Δ/σθ z1=ε−z z2=z+ε p1=P(Z>z1) p2=P(Z>z2) rozkład w celu zdefiniowania progu równoważności / trafności może być preferowany w testach nieparametrycznych, ponieważ alternatywa określa próg w jednostkach oznaczonych stopni lub sum rang, który może być merytorycznie nieistotny dla badaczy i trudny do interpretacji.
Jeśli uznamy, że (dla symetrycznych przedziałów równoważności) nie można odrzucić żadnej hipotezy zerowej TOST, gdy , wówczas możemy przystąpić do podjęcia decyzji o odpowiedniej wielkości terminu równoważności. Na przykład .ε≤z1−α ε=z1−α+0.5
Podejście to zostało zaimplementowane z opcjami korekcji ciągłości itp. W pakiecie tost dla Staty (która obejmuje teraz określone implementacje TOST dla testów Shapiro-Wilk i Shapiro-Francia), do których można uzyskać dostęp, wpisując Stata:Edycja: Dlaczego logika TOST jest dobra, a formacje testów równoważności zostały zastosowane do testów zbiorczych, przekonano mnie, że moje rozwiązanie było oparte na głębokim niezrozumieniu przybliżonych statystyk dla testów Shapiro-Wilka i Shapiro-Francii
źródło
Nie jest to TOST sam w sobie, ale test Komolgorowa-Smirnowa pozwala przetestować istotność różnicy między rozkładem próbki a drugim rozkładem odniesienia, który możesz określić. Możesz użyć tego testu, aby wykluczyć określony rodzaj różnych rozkładów, ale ogólnie nie różnych rozkładów (przynajmniej nie bez kontroli inflacji błędów w testach wszystkich możliwych alternatyw ... jeśli to w jakiś sposób jest możliwe). Alternatywna hipoteza dla dowolnego testu pozostanie, jak zwykle, mniej szczegółową hipotezą „catch-all”.
Jeśli możesz zadowolić się testem różnic dystrybucyjnych między dwiema grupami, w którym hipoteza zerowa mówi, że obie grupy są równo rozmieszczone, możesz użyć testu Komolgorowa-Smirnowa, aby porównać rozkład jednej grupy z rozkładem drugiej grupy. Prawdopodobnie jest to konwencjonalne podejście: zignoruj różnice, jeśli nie są one istotne statystycznie, i uzasadnij tę decyzję statystykami testowymi.
W każdym razie możesz rozważyć kilka głębszych problemów wynikających z podejścia „wszystko albo nic” do odrzucenia hipotezy zerowej. Jedna z takich kwestii jest bardzo popularna w Cross Validated: „ Czy testowanie normalności jest w zasadzie bezużyteczne”? Ludzie lubią odpowiadać na pytania dotyczące testowania normalności pytaniem: „Dlaczego chcesz to przetestować?” Zakładam, że intencją jest na ogół unieważnienie powodu testowania, co ostatecznie może prowadzić we właściwym kierunku. Istotna odpowiedź na pytanie, które tu podlinkowałem, wygląda następująco:
Jeśli nadal chcesz przeprowadzić test równoważności, oto kolejna popularna dyskusja na temat Cross Validated, która obejmuje testy równoważności.
źródło
fail to
/reject
podejście jest ugruntowane, większość próbek nie można całkowicie wykluczyć możliwość, że zerowa jest prawdziwa. Prawie zawsze istnieje szansa na błąd fałszywego odrzucenia, jeśli ktoś nalega na odrzucenie, co zwykle nie jest dosłownie konieczne. To był prawdopodobnie najważniejszy punkt, który chciałem poruszyć pierwotnie. Mam nadzieję, że teraz jest trochę jaśniej bez usuniętych elementówRównoważność nigdy nie jest czymś, co możemy przetestować . Pomyśl o hipotezie: vs . Teoria NHST mówi nam, że pod zerą możemy wybrać wszystko pod które najlepiej pasuje do danych. Oznacza to, że prawie zawsze możemy dowolnie zbliżyć się do dystrybucji. Na przykład, jeśli chcę przetestować , model prawdopodobieństwa, który pozwala na osobne rozkłady i , zawsze będzie bardziej prawdopodobny pod zero, naruszenie krytycznych założeń testowania. Nawet jeśli próbkaH0:fx≠fy H1:fx=fy H0 fx∼N(0,1) f^x f^y X=Y identycznie, mogę uzyskać iloraz prawdopodobieństwa, który jest arbitralnie zbliżony do 1 dla . .fy≈fx
Jeśli znasz odpowiedni model prawdopodobieństwa dla danych, możesz zastosować kryterium informacji o karach, aby uszeregować modele alternatywne. Jednym ze sposobów jest użycie kodów BIC dwóch modeli prawdopodobieństwa (szacowanego pod i . Użyłem normalnego modelu prawdopodobieństwa, ale możesz łatwo uzyskać BIC z dowolnego typu procedury maksymalnego prawdopodobieństwa, ręcznie lub przy użyciu GLM. Ten post Stackoverflow dostaje nitty-gritty do dopasowania rozkładów. Przykład wykonania tego jest tutaj:H0 H1
daje
Z drugiej strony, jeśli weźmiemy:
Daje:
Podobnie jak w przypadku NHST istnieją subtelne problemy dotyczące mocy i fałszywie dodatnich poziomów błędów, które należy zbadać za pomocą symulacji przed wyciągnięciem ostatecznych wniosków.
Myślę, że podobna (być może bardziej ogólna metoda) wykorzystuje statystyki bayesowskie do porównywania a posteriori oszacowanej według dowolnego z modeli prawdopodobieństwa.
źródło