Dostałem artykuł opisujący badanie bardzo podobne do tego, które moje laboratorium chce prowadzić. Zauważyłem jednak, że dla zmiennej zainteresowania, Czas trwania, SD są większe niż średnia ... ponieważ jest to czas trwania mierzony w minutach, nigdy nie może być ujemny i wydaje mi się to bardzo dziwne. Stało się to w 2 zgłoszonych badaniach, poniżej jest jedno.
Poza tym jest to projekt mieszany. Kontrola v Leczenie (między grupami) i Czas 1, Czas 2, Czas 3 (powtórzenie pomiarów). Oto średnie (SD), N> 200
Time1 Time2 Time3
Control 15.1 (14.6) 14.4 (14.8) 13.3 (15.7)
Treatment 14.8 (13.2) 10.0 (12.2) 8.2 (9.9)
... przeprowadzili ANOVA i zgłosili p <0,001.
Poproszono mnie o wykorzystanie tego jako podstawy analizy mocy w celu ustalenia wielkości próby do naszego badania. Jestem prawie pewien, że oznacza to, że dane są nienormalne lub mają wartości odstające i nie czuję się komfortowo, określając na podstawie tego wielkość próby. Czy jestem po prostu daleko od bazy?
źródło
Odpowiedzi:
Łatwo jest możliwe, aby odchylenie standardowe przekroczyło średnią z danymi nieujemnymi lub ściśle dodatnimi
Opisałbym przypadek dla twoich danych jako odchylenie standardowe bliskie średniej (nie każda wartość jest większa, a te, które są większe, są na ogół zbliżone). W przypadku danych nieujemnych dość wyraźnie wskazuje, że dane są wypaczone (na przykład rozkład gamma ze współczynnikiem zmienności = 1 byłby rozkładem wykładniczym, więc gdyby dane były gamma, wyglądałyby gdzieś w pobliżu wykładniczej)
Jednak przy tego rodzaju próbce ANOVA może nie być szczególnie dotknięta tym; niepewność w oszacowaniu łącznej wariancji będzie dość niewielka, więc możemy wziąć pod uwagę, że między CLT (dla średnich) a twierdzeniem Slutsky'ego (dla oszacowania wariancji w mianowniku) ANOVA prawdopodobnie będzie działać całkiem dobrze, ponieważ „ Będę miał asymptotyczny chi-kwadrat, dla którego ANOVA-F z dużym mianownikiem stopni swobody będzie dobrym przybliżeniem. (tj. powinien mieć rozsądną odporność na poziom, a ponieważ środki nie są tak bardzo dalekie od stałych, moc nie powinna mieć zbyt dużego wpływu na heteroskedastyczność)
To powiedziawszy, jeśli twoje badanie będzie miało mniejszy rozmiar próby, być może lepiej spojrzeć na zastosowanie innego testu (być może testu permutacji lub jednego bardziej odpowiedniego dla skośnych danych, na przykład opartych na GLM). Zmiana w teście może wymagać nieco większego rozmiaru próbki niż w przypadku prostej ANOVA.
Przy użyciu oryginalnych danych można wykonać analizę mocy w ramach odpowiedniego modelu / analizy. Nawet przy braku oryginalnych danych można przyjąć bardziej wiarygodne założenia dotyczące rozkładu (być może ich różnorodności) i zbadać całą krzywą mocy (lub prościej, tylko współczynnik błędu typu I i moc przy dowolnym rozmiarze efektu jest interesujące). Można zastosować różnorodne rozsądne założenia, które dają pewne wyobrażenie o tym, jaką moc można uzyskać w prawdopodobnych okolicznościach i o ile większy może być rozmiar próbki.
źródło
Masz rację, stwierdzając, że dane są nienormalne. Gdyby dane były normalne, spodziewalibyśmy się, że około 16% obserwacji będzie mniejszych niż średnia minus odchylenie standardowe. Przy SD większej niż średnia ta liczba jest ujemna i stwierdzasz, że nie może być liczb ujemnych, więc to, co widzisz, nie jest zgodne z normalnie rozłożonymi danymi. Wartości SD są możliwe, ale tylko wtedy, gdy rozkład jest bardzo skośny (co jest częste w czasie trwania).
Zgadzam się, że wybranie wielkości próby w oparciu o założenie, że dane będą normalne, nie jest dobrym pomysłem, ale jeśli możesz dowiedzieć się więcej o tym procesie i znaleźć prawidłowy rozkład skośny (rozkład gamma jako jedna z możliwości), to rozsądne założenie, wtedy możesz użyć tego, aby określić rozmiar próbki.
źródło