Próbuję porównać dane z 2 populacji, aby stwierdzić, czy różnica między terapiami jest statystycznie znacząca. Zestawy danych wydają się być normalnie rozmieszczone z bardzo niewielką różnicą między tymi dwoma zestawami. Średnia różnica wynosi 0,00017. Przeprowadziłem sparowany test t, spodziewając się, że nie odrzucę hipotezy zerowej o braku różnicy między średnimi, jednak moja obliczona wartość t jest znacznie wyższa niż moja krytyczna wartość t.
statistical-significance
t-test
paired-data
Kscicc26
źródło
źródło
Odpowiedzi:
Nie widzę powodu, by sądzić, że zrobiłeś coś złego tylko dlatego, że test był znaczący, nawet jeśli średnia różnica jest bardzo mała. W sparowanym teście t znaczenie będzie zależeć od trzech rzeczy:
Trzeba przyznać, że Twoja średnia różnica jest bardzo, bardzo mała. Z drugiej strony masz sporo danych (N = 335). Ostatnim czynnikiem jest odchylenie standardowe różnic. Nie wiem, co to jest, ale skoro masz znaczący wynik, można bezpiecznie założyć, że jest wystarczająco mały, aby pokonać niewielką średnią różnicę z ilością danych, które masz. Aby zbudować intuicję, wyobraź sobie, że sparowana różnica dla każdej obserwacji w twoim badaniu wynosiła 0,00017, wówczas standardowe odchylenie różnic wynosiłoby 0. Z pewnością rozsądne byłoby stwierdzenie, że leczenie prowadziło do zmniejszenia (choć malutki).
Jak zauważa @whuber w poniższych komentarzach, warto zauważyć, że chociaż 0,00017 wydaje się bardzo małą liczbą qua, niekoniecznie jest ona niewielka pod względem znaczącym. Aby to wiedzieć, musielibyśmy wiedzieć kilka rzeczy, po pierwsze, jakie są jednostki. Jeśli jednostki są bardzo duże (np. Lata, kilometry itp.), To, co wydaje się małe, może być znacząco duże, natomiast jeśli jednostki są małe (np. Sekundy, centymetry itp.), Różnica wydaje się jeszcze mniejsza. Po drugie, nawet niewielka zmiana może być ważna: wyobraź sobie jakąś terapię (np. Szczepionkę), która była bardzo tania, łatwa do zastosowania dla całej populacji i nie miała żadnych skutków ubocznych. Może to być warte zrobienia, nawet jeśli uratowało tylko kilka żyć.
źródło
Aby wiedzieć, czy różnica jest naprawdę duża czy mała, wymaga pewnej miary skali, odchylenie standardowe jest jedną miarą skali i jest częścią wzoru testu t, który częściowo uwzględnia tę skalę.
Zastanów się, czy porównujesz wysokości 5-latków z wysokościami 20-latków (ludzi, ten sam obszar geograficzny itp.). Intuicja mówi nam, że istnieje praktyczna różnica, a jeśli wysokości są mierzone w calach lub centymetrach, różnica będzie wyglądać na znaczącą. Ale co, jeśli przeliczysz wysokości na kilometry? czy lata świetlne? różnica będzie bardzo niewielka (ale wciąż inna), ale (z wyjątkiem błędu zaokrąglenia) test t da te same wyniki, niezależnie od tego, czy wysokość jest mierzona w calach, centymetrach czy kilometrach.
Różnica 0,00017 może być ogromna w zależności od skali pomiarów.
źródło
unlikely to emerge at least as large in another, similar pair of samples selected randomly from the same populations if the null hypothesis of no difference is literally true of those populations
.00001
Być może bardziej interesowałbyś się praktycznym znaczeniem niż tym dosłownym sensem testowania znaczenia hipotezy zerowej. Znaczenie praktyczne będzie znacznie bardziej zależeć od znaczenia twoich danych w kontekście niż od znaczenia statystycznego; nie jest to kwestia czysto statystyczna. Przytoczyłem przydatny przykład tej zasady w odpowiedzi na popularne pytanie tutaj: Uwzględnianie zakorzenionych poglądów na wartości p :
Ta „sprawa życia i śmierci” była w zasadzie wielkością wpływu kwasu acetylosalicylowego na ataki serca - w zasadzie potężny przykład liczbowo małych, znacznie mniej stałych różnic o praktycznie ważnym znaczeniu. Wiele innych pytań z solidnymi odpowiedziami, z których możesz skorzystać, zasługuje na linki tutaj, w tym:
Odniesienie
Rosenthal, R., Rosnow, RL i Rubin, DB (2000). Kontrasty i rozmiary efektów w badaniach behawioralnych: podejście korelacyjne . Cambridge University Press.
źródło
Oto przykład w R, który pokazuje teoretyczne koncepcje w działaniu. 10 000 prób rzutu monetą 10 000 razy z prawdopodobieństwem głów 0,0001 w porównaniu z 10 000 prób rzutu monetą 10 000 razy z prawdopodobieństwem głów 0,00011
t. test (rbinom (10000, 10000, .0001), rbinom (10000, 10000, .00011))
t = -8,0299, df = 1986,35, wartość p = 1,03e-15 alternatywna hipoteza: prawdziwa różnica średnich nie jest równa 0 95 procent przedziału ufności: -0,14493747 -0,08806253 oszacowania próbki: średnia x średnia y 0,9898 1,1063
Różnica w średniej jest względnie bliska zeru pod względem ludzkiej percepcji, jednak jest bardzo statystycznie różna od 0.
źródło