Wyobraź sobie, że masz badanie z dwiema grupami (np. Mężczyznami i kobietami) przyglądającymi się numerycznej zmiennej zależnej (np. Wyniki testu inteligencji) i masz hipotezę, że nie ma różnic grupowych.
Pytanie:
- Jaki jest dobry sposób na sprawdzenie, czy nie ma różnic grupowych?
- Jak określiłbyś wielkość próby potrzebną do odpowiedniego przetestowania pod kątem braku różnic w grupach?
Wstępne myśli:
- Nie wystarczyłoby wykonać standardowego testu t, ponieważ brak odrzucenia hipotezy zerowej nie oznacza, że parametr będący przedmiotem zainteresowania jest równy lub bliski zeru; dotyczy to szczególnie małych próbek.
- Mógłbym spojrzeć na 95% przedział ufności i sprawdzić, czy wszystkie wartości mieszczą się w wystarczająco małym zakresie; być może plus lub minus 0,3 odchylenia standardowego.
hypothesis-testing
t-test
equivalence
tost
Jeromy Anglim
źródło
źródło
Odpowiedzi:
Myślę, że pytasz o testowanie równoważności . Zasadniczo musisz zdecydować, jak duża jest akceptowalna różnica, aby nadal stwierdzić, że obie grupy są faktycznie równoważne. Ta decyzja określa 95% (lub inne) limity przedziału ufności i na tej podstawie dokonywane są obliczenia wielkości próby.
Jest cała książka na ten temat.
Bardzo częstym klinicznym „równoważnym” testem równoważności jest test / próba nie gorszej jakości . W takim przypadku „preferujesz” jedną grupę nad drugą (ustalone leczenie) i projektujesz test, aby wykazać, że nowe leczenie nie jest gorsze od ustalonego leczenia na pewnym poziomie danych statystycznych.
Myślę, że muszę podziękować Harveyowi Motulsky'emu za stronę GraphPad.com (pod „Biblioteką” ).
źródło
Oprócz wspomnianej już możliwości przeprowadzenia testu równoważności , z którego większość, zgodnie z moją najlepszą wiedzą, jest w większości kierowana w starej dobrej tradycji częstokroć, istnieje możliwość przeprowadzenia testów, które naprawdę zapewniają kwantyfikację dowodów w przychylność null-hyptheses, mianowicie testy bayesowskie .
Implementację bayesowskiego testu t można znaleźć tutaj: Wetzels, R., Raaijmakers, JGW, Jakab, E. i Wagenmakers, E.-J. (2009). Jak określić ilościowo poparcie dla hipotezy zerowej i przeciw niej: Elastyczna implementacja domyślnego testu tesa Bayesa w WinBUGS. Biuletyn i przegląd psychonomiczny, 16, 752-760.
Istnieje również samouczek, jak to wszystko zrobić w R:
http://www.ruudwetzels.com/index.php?src=SDtest
Alternatywny (być może bardziej nowoczesny sposób) bayesowskiego testu t przedstawiono (z kodem) w tym artykule autorstwa Kruschke:
Kruschke, JK (2013). Oszacowanie Bayesa zastępuje test t . Journal of Experimental Psychology: General , 142 (2), 573–603. doi: 10.1037 / a0029146
Wszystkie rekwizyty dla tej odpowiedzi (przed dodaniem Kruschke) należy przekazać mojemu koledze Davidowi Kellenowi. Ukradłem jego odpowiedź z tego pytania .
źródło
Po odpowiedzi Thylacoleo przeprowadziłem małe badania.
Równoważność Opakowanie R ma
tost()
funkcję.Aby uzyskać więcej informacji, patrz Robinson i Frose (2004) „ Walidacja modelu za pomocą testów równoważności ”.
źródło
equivalence
pakietu.Znam kilka artykułów, które mogą ci pomóc:
Tryon, WW (2001). Ocena różnicy statystycznej, równoważności i nieokreśloności przy użyciu wnioskujących przedziałów ufności: zintegrowana alternatywna metoda przeprowadzania testów statystycznych hipotez zerowych. Metody psychologiczne, 6, 371–386. ( DARMOWY PDF )
I korekta:
Tryon, WW i Lewis, C. (2008). Metoda inferencyjnego przedziału ufności ustalania statystycznej równoważności, która koryguje współczynnik redukcji Tryona (2001). Metody psychologiczne, 13, 272–278. ( Free pdf )
Ponadto:
Seaman, MA & Serlin, RC (1998). Przedziały ufności równoważności E dla porównań średnich w dwóch grupach . Metody psychologiczne, tom 3 (4), 403–411.
źródło
Ostatnio pomyślałem o alternatywnym sposobie „testowania równoważności” opartym na odległości między dwoma rozkładami, a nie między ich średnimi.
Istnieje kilka metod zapewniających przedziały ufności dla nakładania się dwóch rozkładów Gaussa:
Oznacza to, że na przykład w przypadku , a następnie prawdopodobieństwa podane przez i w każdym razie nie różnią się o więcej niż . Z grubsza mówiąc, te dwie dystrybucje dają te same prognozy do .O(P1,P2)>0.9 P1 P2 0.1 10%
Zatem zamiast stosować kryterium akceptacji oparte na wartości krytycznej dla różnicy między średnimi i , jak w klasycznym teście równoważności, moglibyśmy oprzeć ją na wartości krytycznej dla różnicy między prawdopodobieństwami prognoz podanymi przez dwie dystrybucje.μ1 μ2
Myślę, że ma to przewagę pod względem „obiektywności” tego kryterium. Wartość krytycznapowinien podać ekspert od rzeczywistego problemu: powinna to być wartość, powyżej której różnica ma praktyczne znaczenie. Ale czasami nikt nie ma solidnej wiedzy na temat prawdziwego problemu i nie ma eksperta, który byłby w stanie zapewnić wartość krytyczną. Przyjęcie konwencjonalnej wartości krytycznej dotyczącej może być sposobem na od rozważanego problemu fizycznego.|μ1−μ2| TV(P1,P2)
W przypadku Gaussa z tymi samymi wariancjami nakładanie się jest jeden do jednego związane ze znormalizowaną średnią różnicą .|μ1−μ2|σ
źródło
W naukach medycznych lepiej jest stosować podejście z przedziałem ufności zamiast dwóch testów jednostronnych (tost). Polecam również sporządzenie wykresu szacunków punktowych, CI i marginesów równoważności ustalonych z góry, aby wszystko było bardzo jasne.
Takie podejście prawdopodobnie rozwiązałoby twoje pytanie.
Wytyczne CONSORT dotyczące badań nie-niższości / równoważności są w tym względzie bardzo przydatne.
Patrz Piaggio G, Elbourne DR, Altman DG, Pocock SJ, Evans SJ i CONSORT Group. Zgłaszanie randomizowanych prób niejednorodności i równoważności: rozszerzenie instrukcji CONSORT. JAMA. 2006, 8 marca; 295 (10): 1152–60. (Link do pełnego tekstu.)
źródło
Tak. To jest test równoważności. Zasadniczo odwracasz hipotezę zerową i alternatywną i opierasz wielkość próby na potędze, aby pokazać, że różnica średnich jest w zakresie równoważności. Blackwelder nazwał to „Potwierdzeniem zerowej hipotezy”. Odbywa się to zwykle w farmaceutycznych badaniach klinicznych, w których testuje się równoważność leku generycznego z lekiem sprzedawanym na rynku lub porównuje się zatwierdzony lek z nowym preparatem (często nazywanym biorównoważnością). Wersja jednostronna nazywa się non-inferiority. Czasami lek można zatwierdzić, po prostu pokazując, że nowy lek nie jest gorszy od sprzedawanego na rynku konkurenta. Shao i Pigeot opracowali spójne podejście do biorównoważności za pomocą projektów krzyżowych.
źródło
Różnice bootstrap (np. Różnica między średnimi) między 2 grupami próbek i sprawdź istotność statystyczną. Bardziej szczegółowy opis tego podejścia, choć w innym kontekście, można znaleźć tutaj http://www.automated-trading-system.com/a-different-application-of-the-bootstrap/
źródło