W jaki sposób test t może być statystycznie istotny, jeśli średnia różnica wynosi prawie 0?

10

Próbuję porównać dane z 2 populacji, aby stwierdzić, czy różnica między terapiami jest statystycznie znacząca. Zestawy danych wydają się być normalnie rozmieszczone z bardzo niewielką różnicą między tymi dwoma zestawami. Średnia różnica wynosi 0,00017. Przeprowadziłem sparowany test t, spodziewając się, że nie odrzucę hipotezy zerowej o braku różnicy między średnimi, jednak moja obliczona wartość t jest znacznie wyższa niż moja krytyczna wartość t.

Kscicc26
źródło
Czego chcesz sugestii? Jakie są twoje N?
Gung - Przywróć Monikę
cześć, po prostu nie jestem pewien, jak postępować, jeśli zrobiłem coś złego na początku, widząc, jak dane wcale nie wyglądają inaczej. Obie grupy mają 335 obserwacji
Kscicc26,
5
Błąd standardowy różnicy średnich jest również funkcją odchyleń standardowych i wielkości próby. Wszystkie te elementy musiałyby znajdować się w twoim pytaniu, aby można było zarejestrować jakąkolwiek niespodziankę.
Glen_b
7
Każda różnica to „prawie 0”! Jeśli zmienną wynikową jest masa przybrana przez ludzi i jest mierzona w funtach, wówczas 0,00017 jest rzeczywiście niewielka, ale jeśli jest mierzona w milionach funtów, wówczas 0,00017 jest ogromna. Pytanie to nie ma zatem znaczenia, dopóki nie zostanie podany kontekst - co jest mierzone w odpowiedzi - i jednostka miary.
whuber
1
Znaczenie statystyczne nie oznacza „znaczenia” w szerszym angielskim znaczeniu.
david25272

Odpowiedzi:

9

Nie widzę powodu, by sądzić, że zrobiłeś coś złego tylko dlatego, że test był znaczący, nawet jeśli średnia różnica jest bardzo mała. W sparowanym teście t znaczenie będzie zależeć od trzech rzeczy:

  1. wielkość średniej różnicy
  2. ilość posiadanych danych
  3. standardowe odchylenie różnic

Trzeba przyznać, że Twoja średnia różnica jest bardzo, bardzo mała. Z drugiej strony masz sporo danych (N = 335). Ostatnim czynnikiem jest odchylenie standardowe różnic. Nie wiem, co to jest, ale skoro masz znaczący wynik, można bezpiecznie założyć, że jest wystarczająco mały, aby pokonać niewielką średnią różnicę z ilością danych, które masz. Aby zbudować intuicję, wyobraź sobie, że sparowana różnica dla każdej obserwacji w twoim badaniu wynosiła 0,00017, wówczas standardowe odchylenie różnic wynosiłoby 0. Z pewnością rozsądne byłoby stwierdzenie, że leczenie prowadziło do zmniejszenia (choć malutki).

Jak zauważa @whuber w poniższych komentarzach, warto zauważyć, że chociaż 0,00017 wydaje się bardzo małą liczbą qua, niekoniecznie jest ona niewielka pod względem znaczącym. Aby to wiedzieć, musielibyśmy wiedzieć kilka rzeczy, po pierwsze, jakie są jednostki. Jeśli jednostki są bardzo duże (np. Lata, kilometry itp.), To, co wydaje się małe, może być znacząco duże, natomiast jeśli jednostki są małe (np. Sekundy, centymetry itp.), Różnica wydaje się jeszcze mniejsza. Po drugie, nawet niewielka zmiana może być ważna: wyobraź sobie jakąś terapię (np. Szczepionkę), która była bardzo tania, łatwa do zastosowania dla całej populacji i nie miała żadnych skutków ubocznych. Może to być warte zrobienia, nawet jeśli uratowało tylko kilka żyć.

gung - Przywróć Monikę
źródło
dziękuję za odpowiedź! Nie jestem zbyt zorientowany w statystykach, więc byłem zaskoczony, gdy nie otrzymałem odpowiedzi, której się spodziewałem. standardowy błąd różnic między średnimi wynosi: 7.36764E-05. Nie jestem pewien, jakie to ma znaczenie, ale jestem pewien, że robisz haha. jeszcze raz dziękuję za pomoc
Kscicc26,
Nie ma za co, @ Kscicc26. Standardowy błąd różnic i standardowe odchylenie różnic nie są tym samym. (Tragicznie brzmi to tak, jak powinno być). SD mówi ci, jak bardzo różnią się twoje różnice, podczas gdy SE mówi ci, jak bardzo szacunki średniej różnicy by się różniły, gdybyś przeprowadzał badanie w kółko. Może ci pomóc przeczytać mój opis SE tutaj .
Gung - Przywróć Monikę
sprawdzę to i wrócę rano do tego wątku!
Kscicc26,
2
Ta średnia różnica nie jest ani mała, ani duża: po prostu nie masz podstaw do oceny jej wielkości.
whuber
@ Whuber, to dobra uwaga - nie wiem, do czego odnoszą się te liczby. Ale OP prawdopodobnie tak robi i uważa, że ​​jest bardzo mały. Idę z tymi informacjami.
Gung - Przywróć Monikę
9

Aby wiedzieć, czy różnica jest naprawdę duża czy mała, wymaga pewnej miary skali, odchylenie standardowe jest jedną miarą skali i jest częścią wzoru testu t, który częściowo uwzględnia tę skalę.

Zastanów się, czy porównujesz wysokości 5-latków z wysokościami 20-latków (ludzi, ten sam obszar geograficzny itp.). Intuicja mówi nam, że istnieje praktyczna różnica, a jeśli wysokości są mierzone w calach lub centymetrach, różnica będzie wyglądać na znaczącą. Ale co, jeśli przeliczysz wysokości na kilometry? czy lata świetlne? różnica będzie bardzo niewielka (ale wciąż inna), ale (z wyjątkiem błędu zaokrąglenia) test t da te same wyniki, niezależnie od tego, czy wysokość jest mierzona w calach, centymetrach czy kilometrach.

Różnica 0,00017 może być ogromna w zależności od skali pomiarów.

Greg Snow
źródło
4

tunlikely to emerge at least as large in another, similar pair of samples selected randomly from the same populations if the null hypothesis of no difference is literally true of those populationst17100,000

pop1=rep(15:20* .00001, 56);pop2=rep(0,336) #Some fake samples of sample size = 336
t.test(pop1,pop2,paired=T)                #Paired t-test with the following output...

t(335)=187.55,p<2.2×1016

.00001t

Być może bardziej interesowałbyś się praktycznym znaczeniem niż tym dosłownym sensem testowania znaczenia hipotezy zerowej. Znaczenie praktyczne będzie znacznie bardziej zależeć od znaczenia twoich danych w kontekście niż od znaczenia statystycznego; nie jest to kwestia czysto statystyczna. Przytoczyłem przydatny przykład tej zasady w odpowiedzi na popularne pytanie tutaj: Uwzględnianie zakorzenionych poglądów na wartości p :

r=.03

Ta „sprawa życia i śmierci” była w zasadzie wielkością wpływu kwasu acetylosalicylowego na ataki serca - w zasadzie potężny przykład liczbowo małych, znacznie mniej stałych różnic o praktycznie ważnym znaczeniu. Wiele innych pytań z solidnymi odpowiedziami, z których możesz skorzystać, zasługuje na linki tutaj, w tym:

Odniesienie

Rosenthal, R., Rosnow, RL i Rubin, DB (2000). Kontrasty i rozmiary efektów w badaniach behawioralnych: podejście korelacyjne . Cambridge University Press.

Nick Stauner
źródło
0

Oto przykład w R, który pokazuje teoretyczne koncepcje w działaniu. 10 000 prób rzutu monetą 10 000 razy z prawdopodobieństwem głów 0,0001 w porównaniu z 10 000 prób rzutu monetą 10 000 razy z prawdopodobieństwem głów 0,00011

t. test (rbinom (10000, 10000, .0001), rbinom (10000, 10000, .00011))

t = -8,0299, df = 1986,35, wartość p = 1,03e-15 alternatywna hipoteza: prawdziwa różnica średnich nie jest równa 0 95 procent przedziału ufności: -0,14493747 -0,08806253 oszacowania próbki: średnia x średnia y 0,9898 1,1063

Różnica w średniej jest względnie bliska zeru pod względem ludzkiej percepcji, jednak jest bardzo statystycznie różna od 0.

Andrew Cassidy
źródło