Jak przetestować hipotezę braku różnic grupowych?

39

Wyobraź sobie, że masz badanie z dwiema grupami (np. Mężczyznami i kobietami) przyglądającymi się numerycznej zmiennej zależnej (np. Wyniki testu inteligencji) i masz hipotezę, że nie ma różnic grupowych.

Pytanie:

  • Jaki jest dobry sposób na sprawdzenie, czy nie ma różnic grupowych?
  • Jak określiłbyś wielkość próby potrzebną do odpowiedniego przetestowania pod kątem braku różnic w grupach?

Wstępne myśli:

  • Nie wystarczyłoby wykonać standardowego testu t, ponieważ brak odrzucenia hipotezy zerowej nie oznacza, że ​​parametr będący przedmiotem zainteresowania jest równy lub bliski zeru; dotyczy to szczególnie małych próbek.
  • Mógłbym spojrzeć na 95% przedział ufności i sprawdzić, czy wszystkie wartości mieszczą się w wystarczająco małym zakresie; być może plus lub minus 0,3 odchylenia standardowego.
Jeromy Anglim
źródło
co rozumiesz przez „to zakłada, że ​​hipoteza zerowa jest prawdziwa”?
robin girard
Jeśli chcesz kontrolować prawdopodobieństwo błędnego zadeklarowania „istnieje różnica”, musisz oddzielić dwie hipotezy (czy wspomniałem już, że uwielbiam ten cytat: stats.stackexchange.com/questions/726/… ;))
robin girard
@ Obrobić wartość p testu istotności hipotezy zerowej jest prawdopodobieństwem zobaczenia danych ekstremalnych lub bardziej ekstremalnych niż obserwowane przy założeniu, że hipoteza zerowa jest prawdziwa; ale być może mógłbym lepiej sformułować powyższe stwierdzenie.
Jeromy Anglim
@Robin Zmodyfikowałem pytanie, aby wyjaśnić moją kwestię
Jeromy Anglim

Odpowiedzi:

20

Myślę, że pytasz o testowanie równoważności . Zasadniczo musisz zdecydować, jak duża jest akceptowalna różnica, aby nadal stwierdzić, że obie grupy są faktycznie równoważne. Ta decyzja określa 95% (lub inne) limity przedziału ufności i na tej podstawie dokonywane są obliczenia wielkości próby.

Jest cała książka na ten temat.

Bardzo częstym klinicznym „równoważnym” testem równoważności jest test / próba nie gorszej jakości . W takim przypadku „preferujesz” jedną grupę nad drugą (ustalone leczenie) i projektujesz test, aby wykazać, że nowe leczenie nie jest gorsze od ustalonego leczenia na pewnym poziomie danych statystycznych.

Myślę, że muszę podziękować Harveyowi Motulsky'emu za stronę GraphPad.com (pod „Biblioteką” ).

Thylacoleo
źródło
16

Oprócz wspomnianej już możliwości przeprowadzenia testu równoważności , z którego większość, zgodnie z moją najlepszą wiedzą, jest w większości kierowana w starej dobrej tradycji częstokroć, istnieje możliwość przeprowadzenia testów, które naprawdę zapewniają kwantyfikację dowodów w przychylność null-hyptheses, mianowicie testy bayesowskie .

Implementację bayesowskiego testu t można znaleźć tutaj: Wetzels, R., Raaijmakers, JGW, Jakab, E. i Wagenmakers, E.-J. (2009). Jak określić ilościowo poparcie dla hipotezy zerowej i przeciw niej: Elastyczna implementacja domyślnego testu tesa Bayesa w WinBUGS. Biuletyn i przegląd psychonomiczny, 16, 752-760.

Istnieje również samouczek, jak to wszystko zrobić w R:

http://www.ruudwetzels.com/index.php?src=SDtest


Alternatywny (być może bardziej nowoczesny sposób) bayesowskiego testu t przedstawiono (z kodem) w tym artykule autorstwa Kruschke:

Kruschke, JK (2013). Oszacowanie Bayesa zastępuje test t . Journal of Experimental Psychology: General , 142 (2), 573–603. doi: 10.1037 / a0029146


Wszystkie rekwizyty dla tej odpowiedzi (przed dodaniem Kruschke) należy przekazać mojemu koledze Davidowi Kellenowi. Ukradłem jego odpowiedź z tego pytania .

Henrik
źródło
Zastanawiałem się, czy ktoś zapewni podejście bayesowskie. Doskonały. Dzięki.
Jeromy Anglim
1
Być może warto zaktualizować tę odpowiedź, dodając odniesienie do niesamowitego pakietu BayesFactor dla R.
crsh
8

Znam kilka artykułów, które mogą ci pomóc:

Tryon, WW (2001). Ocena różnicy statystycznej, równoważności i nieokreśloności przy użyciu wnioskujących przedziałów ufności: zintegrowana alternatywna metoda przeprowadzania testów statystycznych hipotez zerowych. Metody psychologiczne, 6, 371–386. ( DARMOWY PDF )

I korekta:
Tryon, WW i Lewis, C. (2008). Metoda inferencyjnego przedziału ufności ustalania statystycznej równoważności, która koryguje współczynnik redukcji Tryona (2001). Metody psychologiczne, 13, 272–278. ( Free pdf )

Ponadto:

Seaman, MA & Serlin, RC (1998). Przedziały ufności równoważności E dla porównań średnich w dwóch grupach . Metody psychologiczne, tom 3 (4), 403–411.

Henrik
źródło
Na ten temat jest mnóstwo dokumentów, a nawet książek.
Michael Chernick
7

Ostatnio pomyślałem o alternatywnym sposobie „testowania równoważności” opartym na odległości między dwoma rozkładami, a nie między ich średnimi.

Istnieje kilka metod zapewniających przedziały ufności dla nakładania się dwóch rozkładów Gaussa:wprowadź opis zdjęcia tutaj

O(P1,P2)P1P2

1O(P1,P2)=TV(P1,P2)
TV(P1,P2)=supA|P1(A)P2(A)|P1 i .P2

Oznacza to, że na przykład w przypadku , a następnie prawdopodobieństwa podane przez i w każdym razie nie różnią się o więcej niż . Z grubsza mówiąc, te dwie dystrybucje dają te same prognozy do .O(P1,P2)>0.9P1P20.110%

Zatem zamiast stosować kryterium akceptacji oparte na wartości krytycznej dla różnicy między średnimi i , jak w klasycznym teście równoważności, moglibyśmy oprzeć ją na wartości krytycznej dla różnicy między prawdopodobieństwami prognoz podanymi przez dwie dystrybucje.μ1μ2

Myślę, że ma to przewagę pod względem „obiektywności” tego kryterium. Wartość krytycznapowinien podać ekspert od rzeczywistego problemu: powinna to być wartość, powyżej której różnica ma praktyczne znaczenie. Ale czasami nikt nie ma solidnej wiedzy na temat prawdziwego problemu i nie ma eksperta, który byłby w stanie zapewnić wartość krytyczną. Przyjęcie konwencjonalnej wartości krytycznej dotyczącej może być sposobem na od rozważanego problemu fizycznego.|μ1μ2|TV(P1,P2)

W przypadku Gaussa z tymi samymi wariancjami nakładanie się jest jeden do jednego związane ze znormalizowaną średnią różnicą .|μ1μ2|σ

Stéphane Laurent
źródło
Czy masz jakieś zasoby pokazujące nakładanie jest stosowany w niektórych rzeczywistych problemów? Brzmi to niezwykle obiecująco, ale nie jest dla mnie jasne, jak zastosować to w prawdziwym problemie (gdzie twoje wnioski są potencjalnie kilka kroków usunięte z „tej dystrybucji jest bardzo podobny do X”, przez co trudno jest zobaczyć, jak to 10% telewizji przekłada się na wielkość wpływu na wnioski).
Stumpy Joe Pete,
1
@StumpyJoePete Napisałem coś w tym samym duchu na moim blogu: stla.github.io/stlapblog/posts/…
Stéphane Laurent
5

W naukach medycznych lepiej jest stosować podejście z przedziałem ufności zamiast dwóch testów jednostronnych (tost). Polecam również sporządzenie wykresu szacunków punktowych, CI i marginesów równoważności ustalonych z góry, aby wszystko było bardzo jasne.

Takie podejście prawdopodobnie rozwiązałoby twoje pytanie.

Wytyczne CONSORT dotyczące badań nie-niższości / równoważności są w tym względzie bardzo przydatne.

Patrz Piaggio G, Elbourne DR, Altman DG, Pocock SJ, Evans SJ i CONSORT Group. Zgłaszanie randomizowanych prób niejednorodności i równoważności: rozszerzenie instrukcji CONSORT. JAMA. 2006, 8 marca; 295 (10): 1152–60. (Link do pełnego tekstu.)

pmgjones
źródło
1
Niekoniecznie powiedziałbym, że preferowane są przedziały ufności. W rzeczywistości przedziały ufności odpowiadają testom hipotez. TOST można osiągnąć, patrząc na przedziały ufności uzyskane przez przecięcie dwustronnych przedziałów ufności, które odpowiadają dwóm jednostronnym testom t stosowanym w procedurze.
Michael Chernick
4

Tak. To jest test równoważności. Zasadniczo odwracasz hipotezę zerową i alternatywną i opierasz wielkość próby na potędze, aby pokazać, że różnica średnich jest w zakresie równoważności. Blackwelder nazwał to „Potwierdzeniem zerowej hipotezy”. Odbywa się to zwykle w farmaceutycznych badaniach klinicznych, w których testuje się równoważność leku generycznego z lekiem sprzedawanym na rynku lub porównuje się zatwierdzony lek z nowym preparatem (często nazywanym biorównoważnością). Wersja jednostronna nazywa się non-inferiority. Czasami lek można zatwierdzić, po prostu pokazując, że nowy lek nie jest gorszy od sprzedawanego na rynku konkurenta. Shao i Pigeot opracowali spójne podejście do biorównoważności za pomocą projektów krzyżowych.

Michael Chernick
źródło
0

Różnice bootstrap (np. Różnica między średnimi) między 2 grupami próbek i sprawdź istotność statystyczną. Bardziej szczegółowy opis tego podejścia, choć w innym kontekście, można znaleźć tutaj http://www.automated-trading-system.com/a-different-application-of-the-bootstrap/

czytnik babelproofreader
źródło
1
Nie zgadzasz się z błędem przyjęcia hipotezy zerowej bez różnicy i znalezienia dowodów na to, że dwie wielkości są równoważne .
Alexis