Czy powinienem używać testu t na mocno wypaczonych danych? Dowód naukowy, proszę?

15

Mam próbki z mocno wypaczonego (wyglądającego jak rozkład wykładniczy) zestawu danych o udziale użytkowników (np. Liczba postów), które mają różne rozmiary (ale nie mniej niż 200) i chcę porównać ich średnią. W tym celu używam dwóch prób niesparowanych testów t (i testów t ze współczynnikiem Welcha, gdy próbki miały różne wariancje). Jak słyszałem, w przypadku naprawdę dużych próbek nie ma znaczenia, że ​​próbka nie jest normalnie rozłożona.

Ktoś, przeglądając to, co zrobiłem, powiedział, że testy, których używam, nie były odpowiednie dla moich danych. Sugerowali transformację moich próbek przed użyciem testów t.

Jestem początkującym, więc odpowiedź na moje pytania badawcze brzmi dla mnie bardzo myląco z „logiem metryk uczestnictwa”.

Czy oni się mylą? Czy się mylę? Jeśli się mylą, czy istnieje książka lub artykuł naukowy, który mógłbym zacytować / pokazać? Jeśli się mylę, którego testu powinienem użyć?

Milena Araujo
źródło
1
Test T ma założenie normalnego rozkładu csic.cornell.edu/Elrod/t-test/t-test-assumptions.html . Być może myślisz o rozkładzie t, który jest zbliżony do normy, gdy próbka jest wystarczająco duża.
rdorlearn
6
Co w tym kontekście oznacza „dowód naukowy”?
Glen_b
1
Myślałem, że założenie było takie, że wszystkie środki wszystkich możliwych próbek z określonej populacji powinny być normalne. Tak więc według CLT byłoby tak również w przypadku mojego zbioru danych.
Milena Araujo,
1
dowód naukowy = coś akademickiego: książka, artykuł itp.
Milena Araujo,

Odpowiedzi:

36

Nie nazwałbym „wykładniczym” szczególnie mocno wypaczonym. Na przykład jego log jest wyraźnie pochylony w lewo, a jego pochylenie chwilowe wynosi tylko 2.

n

a) Licznik statystyki testowej powinien być dokładny: jeśli dane są niezależne wykładniczo ze wspólną skalą (i nie są znacznie grubsze niż to), wówczas ich średnie są rozkładane gamma z parametrem kształtu równym liczbie obserwacji. Jego rozkład wygląda bardzo normalnie dla parametru kształtu większego niż około 40 lub więcej (w zależności od tego, jak daleko od ogona potrzebujesz dokładności).

Potrafi to udowodnić matematycznie, ale matematyka nie jest nauką. Oczywiście możesz to sprawdzić empirycznie za pomocą symulacji, ale jeśli mylisz się co do wykładniczości, możesz potrzebować większych próbek. Tak wygląda rozkład sum próbek (a tym samym średnich próbek) danych wykładniczych, gdy n = 40:

wprowadź opis zdjęcia tutaj

Bardzo lekko przekrzywiony. Ta skośność maleje wraz z pierwiastkiem kwadratowym z wielkości próbki. Więc przy n = 160, jest o połowę skośne. Przy n = 640 jest to jedna czwarta pochylenia:

wprowadź opis zdjęcia tutaj

To, że jest to faktycznie symetryczne, można zobaczyć, przewracając ją wokół średniej i wykreślając ją nad górą:

wprowadź opis zdjęcia tutaj

Niebieski to oryginał, czerwony jest przerzucony. Jak widać, są one prawie przypadkowe.

-

n=40

wprowadź opis zdjęcia tutaj

n=500

-

c) Jednak tak naprawdę liczy się rozkład całej statystyki poniżej zera. Normalność licznika nie jest wystarczająca, aby statystyka t miała rozkład t. Jednak w przypadku danych wykładniczych nie stanowi to większego problemu:

wprowadź opis zdjęcia tutaj

n=40n=500n=500

Należy jednak pamiętać, że w przypadku danych wykładniczych odchylenie standardowe będzie różne tylko wtedy, gdy średnie będą różne. Jeśli ma miejsce wykładnicze założenie, to pod zerą nie ma szczególnej potrzeby martwienia się o różne wariancje populacji, ponieważ występują one tylko w ramach alternatywy. Zatem test t równej wariancji powinien być nadal w porządku (w takim przypadku powyższe dobre przybliżenie widoczne na histogramie może być nawet nieco lepsze).


2) Wykonywanie dzienników może jednak pozwolić ci to zrozumieć

logλ1logλ2)λ1λ2) działa doskonale jako test oryginalnej hipotezy .

[Jeśli wykonasz ten test w dziennikach, byłbym skłonny zasugerować wykonanie testu równej wariancji w tym przypadku.]

Tak więc - z samą interwencją może jednego lub dwóch zdań uzasadniających połączenie, podobnie do tego, co mam powyżej - powinieneś być w stanie napisać swoje wnioski nie o dzienniku metryki uczestnictwa, ale o samej metodzie uczestnictwa.


3) Istnieje wiele innych rzeczy, które możesz zrobić!

a) możesz wykonać test odpowiedni dla danych wykładniczych. Łatwo jest uzyskać test oparty na współczynniku wiarygodności. Tak się składa, że ​​dla danych wykładniczych otrzymujesz test F małej próby (oparty na stosunku średnich) dla tej sytuacji w przypadku jednostronnym; dwa ogony LRT zwykle nie miałyby jednakowej proporcji w każdym ogonie dla małych rozmiarów próbki. (Powinno to mieć lepszą moc niż test t, ale moc dla testu t powinna być całkiem rozsądna, i spodziewam się, że nie będzie dużej różnicy w rozmiarach twojej próby).

b) możesz wykonać test permutacji - jeśli chcesz, oprzyj go na teście. Jedyną rzeczą, która się zmienia, jest obliczenie wartości p. Lub możesz wykonać inny test ponownego próbkowania, taki jak test oparty na bootstrapie. Powinno to mieć dobrą moc, choć będzie zależeć częściowo od tego, jaką statystykę testową wybierzesz w stosunku do twojego rozkładu.

c) możesz wykonać test nieparametryczny oparty na rangach (taki jak Wilcoxon-Mann-Whitney). Jeśli przyjmiesz, że jeśli rozkłady różnią się, to różnią się one tylko współczynnikiem skali (stosownym dla różnych rozkładów skośnych, w tym wykładniczych), możesz nawet uzyskać przedział ufności dla stosunku parametrów skali.

[W tym celu sugerowałbym pracę na skali logarytmicznej (zmiana lokalizacji w logach jest logiem zmiany skali). Nie zmieni wartości p, ale pozwoli ci potęgować oszacowanie punktu i limity CI, aby uzyskać przedział przesunięcia skali.]

To również powinno mieć dość dobrą moc, jeśli jesteś w sytuacji wykładniczej, ale prawdopodobnie nie tak dobre, jak przy użyciu testu t.


Odniesieniem, które rozważa znacznie szerszy zestaw przypadków dla alternatywy przesunięcia lokalizacji (na przykład zarówno heterogeniczności wariancji, jak i skośności poniżej zera) jest:

Fagerland, MW i L. Sandvik (2009),
„Wydajność pięciu dwu-próbnych testów lokalizacyjnych dla wypaczonych rozkładów z nierównymi wariancjami”,
Contemporary Clinical Trials , 30 , 490–496

Zazwyczaj zaleca się test U Welcha (jeden z kilku testów rozważanych przez Welcha i jedyny, który testowali). Jeśli nie używasz dokładnie tej samej statystyki Welcha, zalecenia mogą się nieco różnić (choć prawdopodobnie nie za bardzo). [Zauważ, że jeśli twoje rozkłady są wykładnicze, jesteś zainteresowany alternatywą skali, chyba że weźmiesz dzienniki ... w takim przypadku nie będziesz mieć nierównych wariancji.]

Glen_b - Przywróć Monikę
źródło
4
Świetna odpowiedź! Byłem naprawdę zaskoczony, ile informacji spakowałeś w jednym poście
Christian Sauer
@Glen_b, to niesamowita odpowiedź! Dziękuję Ci bardzo. Jeszcze jedno pytanie: moje próbki pochodzą z tego samego zestawu danych. Chcę porównać próbki użytkowników o charakterystycznej X i użytkowników o charakterystyce Y. Próbki dla użytkowników X wynoszą około ~ 500, a próbki dla użytkowników Y około ~ 10000. Istnieje ogromna różnica w wielkości, ale wydaje się, że nie ma dużej różnicy w ich kształcie (patrząc na wykresy gęstości i prawdopodobieństwa). Czy korzystanie z testów T byłoby w ogóle problemem?
Milena Araujo,
Kiedy mówisz „ogromna różnica w wielkości”, czy mówisz o wielkości próby (10000 vs 500) czy o typowych wartościach w każdej grupie? (Nawiasem mówiąc, czy są one ciągłe czy dyskretne? Jak małe są typowe minimalne wartości dla tego rodzaju danych? Czy logi mają podobny kształt - tj. Czy rozważamy tylko przesunięcie skali?)
Glen_b
1
Lepiej może być z tabelą dla takich danych. Krytyczną informacją jest to, że jest nie tylko dyskretna, ale że prawie wszystkie wartości znajdują się w najmniejszej liczbie pytań. Jeśli narysujesz histogram, wykreśl go bez wahań i upewnij się, że wszystkie niskie wartości są oddzielne (słupki dla każdego z 0, 1, 2, nie łącząc ich). Lepiej odciąć prawą stronę i bardziej rozłożyć lewą stronę (tam, gdzie znajdują się prawie wszystkie dane), o ile dasz jasno do zrozumienia, że ​​po prawej stronie jest coś więcej. Dołącz informacje o tym, co mierzysz i co próbujesz osiągnąć ... (ctd)
Glen_b -Reinstate Monica
1
@ScottH część 1.c mojej odpowiedzi odnosi się do tego wyraźnie i patrzy na to, jak ważne jest to w omawianej sprawie (rozkład wykładniczy w przybliżeniu przy podobnych rozmiarach próby)
Glen_b -Reinstate Monica