Mam próbki z mocno wypaczonego (wyglądającego jak rozkład wykładniczy) zestawu danych o udziale użytkowników (np. Liczba postów), które mają różne rozmiary (ale nie mniej niż 200) i chcę porównać ich średnią. W tym celu używam dwóch prób niesparowanych testów t (i testów t ze współczynnikiem Welcha, gdy próbki miały różne wariancje). Jak słyszałem, w przypadku naprawdę dużych próbek nie ma znaczenia, że próbka nie jest normalnie rozłożona.
Ktoś, przeglądając to, co zrobiłem, powiedział, że testy, których używam, nie były odpowiednie dla moich danych. Sugerowali transformację moich próbek przed użyciem testów t.
Jestem początkującym, więc odpowiedź na moje pytania badawcze brzmi dla mnie bardzo myląco z „logiem metryk uczestnictwa”.
Czy oni się mylą? Czy się mylę? Jeśli się mylą, czy istnieje książka lub artykuł naukowy, który mógłbym zacytować / pokazać? Jeśli się mylę, którego testu powinienem użyć?
źródło
Odpowiedzi:
Nie nazwałbym „wykładniczym” szczególnie mocno wypaczonym. Na przykład jego log jest wyraźnie pochylony w lewo, a jego pochylenie chwilowe wynosi tylko 2.
a) Licznik statystyki testowej powinien być dokładny: jeśli dane są niezależne wykładniczo ze wspólną skalą (i nie są znacznie grubsze niż to), wówczas ich średnie są rozkładane gamma z parametrem kształtu równym liczbie obserwacji. Jego rozkład wygląda bardzo normalnie dla parametru kształtu większego niż około 40 lub więcej (w zależności od tego, jak daleko od ogona potrzebujesz dokładności).
Potrafi to udowodnić matematycznie, ale matematyka nie jest nauką. Oczywiście możesz to sprawdzić empirycznie za pomocą symulacji, ale jeśli mylisz się co do wykładniczości, możesz potrzebować większych próbek. Tak wygląda rozkład sum próbek (a tym samym średnich próbek) danych wykładniczych, gdy n = 40:
Bardzo lekko przekrzywiony. Ta skośność maleje wraz z pierwiastkiem kwadratowym z wielkości próbki. Więc przy n = 160, jest o połowę skośne. Przy n = 640 jest to jedna czwarta pochylenia:
To, że jest to faktycznie symetryczne, można zobaczyć, przewracając ją wokół średniej i wykreślając ją nad górą:
Niebieski to oryginał, czerwony jest przerzucony. Jak widać, są one prawie przypadkowe.
-
-
c) Jednak tak naprawdę liczy się rozkład całej statystyki poniżej zera. Normalność licznika nie jest wystarczająca, aby statystyka t miała rozkład t. Jednak w przypadku danych wykładniczych nie stanowi to większego problemu:
Należy jednak pamiętać, że w przypadku danych wykładniczych odchylenie standardowe będzie różne tylko wtedy, gdy średnie będą różne. Jeśli ma miejsce wykładnicze założenie, to pod zerą nie ma szczególnej potrzeby martwienia się o różne wariancje populacji, ponieważ występują one tylko w ramach alternatywy. Zatem test t równej wariancji powinien być nadal w porządku (w takim przypadku powyższe dobre przybliżenie widoczne na histogramie może być nawet nieco lepsze).
2) Wykonywanie dzienników może jednak pozwolić ci to zrozumieć
[Jeśli wykonasz ten test w dziennikach, byłbym skłonny zasugerować wykonanie testu równej wariancji w tym przypadku.]
Tak więc - z samą interwencją może jednego lub dwóch zdań uzasadniających połączenie, podobnie do tego, co mam powyżej - powinieneś być w stanie napisać swoje wnioski nie o dzienniku metryki uczestnictwa, ale o samej metodzie uczestnictwa.
3) Istnieje wiele innych rzeczy, które możesz zrobić!
a) możesz wykonać test odpowiedni dla danych wykładniczych. Łatwo jest uzyskać test oparty na współczynniku wiarygodności. Tak się składa, że dla danych wykładniczych otrzymujesz test F małej próby (oparty na stosunku średnich) dla tej sytuacji w przypadku jednostronnym; dwa ogony LRT zwykle nie miałyby jednakowej proporcji w każdym ogonie dla małych rozmiarów próbki. (Powinno to mieć lepszą moc niż test t, ale moc dla testu t powinna być całkiem rozsądna, i spodziewam się, że nie będzie dużej różnicy w rozmiarach twojej próby).
b) możesz wykonać test permutacji - jeśli chcesz, oprzyj go na teście. Jedyną rzeczą, która się zmienia, jest obliczenie wartości p. Lub możesz wykonać inny test ponownego próbkowania, taki jak test oparty na bootstrapie. Powinno to mieć dobrą moc, choć będzie zależeć częściowo od tego, jaką statystykę testową wybierzesz w stosunku do twojego rozkładu.
c) możesz wykonać test nieparametryczny oparty na rangach (taki jak Wilcoxon-Mann-Whitney). Jeśli przyjmiesz, że jeśli rozkłady różnią się, to różnią się one tylko współczynnikiem skali (stosownym dla różnych rozkładów skośnych, w tym wykładniczych), możesz nawet uzyskać przedział ufności dla stosunku parametrów skali.
[W tym celu sugerowałbym pracę na skali logarytmicznej (zmiana lokalizacji w logach jest logiem zmiany skali). Nie zmieni wartości p, ale pozwoli ci potęgować oszacowanie punktu i limity CI, aby uzyskać przedział przesunięcia skali.]
To również powinno mieć dość dobrą moc, jeśli jesteś w sytuacji wykładniczej, ale prawdopodobnie nie tak dobre, jak przy użyciu testu t.
Odniesieniem, które rozważa znacznie szerszy zestaw przypadków dla alternatywy przesunięcia lokalizacji (na przykład zarówno heterogeniczności wariancji, jak i skośności poniżej zera) jest:
Fagerland, MW i L. Sandvik (2009),
„Wydajność pięciu dwu-próbnych testów lokalizacyjnych dla wypaczonych rozkładów z nierównymi wariancjami”,
Contemporary Clinical Trials , 30 , 490–496
Zazwyczaj zaleca się test U Welcha (jeden z kilku testów rozważanych przez Welcha i jedyny, który testowali). Jeśli nie używasz dokładnie tej samej statystyki Welcha, zalecenia mogą się nieco różnić (choć prawdopodobnie nie za bardzo). [Zauważ, że jeśli twoje rozkłady są wykładnicze, jesteś zainteresowany alternatywą skali, chyba że weźmiesz dzienniki ... w takim przypadku nie będziesz mieć nierównych wariancji.]
źródło