Mam zestaw danych z dziesiątkami tysięcy obserwacji danych o kosztach medycznych. Te dane są mocno przekrzywione w prawo i mają dużo zer. Wygląda to tak dla dwóch grup osób (w tym przypadku dwa przedziały wiekowe z> 3000 obs każda):
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0 0.0 0.0 4536.0 302.6 395300.0
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0 0.0 0.0 4964.0 423.8 721700.0
Jeśli wykonam test t Welch dla tych danych, otrzymam wynik:
Welch Two Sample t-test
data: x and y
t = -0.4777, df = 3366.488, p-value = 0.6329
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-2185.896 1329.358
sample estimates:
mean of x mean of y
4536.186 4964.455
Wiem, że nie jest poprawne stosowanie testu t na tych danych, ponieważ jest tak bardzo nienormalne. Jeśli jednak użyję testu permutacji dla różnicy średnich, cały czas otrzymuję prawie taką samą wartość p (i zbliża się to z większą liczbą iteracji).
Używanie pakietu perm w R i permTS z dokładnym Monte Carlo
Exact Permutation Test Estimated by Monte Carlo
data: x and y
p-value = 0.6188
alternative hypothesis: true mean x - mean y is not equal to 0
sample estimates:
mean x - mean y
-428.2691
p-value estimated from 500 Monte Carlo replications
99 percent confidence interval on p-value:
0.5117552 0.7277040
Dlaczego statystyki testu permutacji wychodzą tak blisko wartości t.test? Jeśli wezmę dzienniki danych, otrzymam wartość t. Testu p 0,28 i taką samą z testu permutacji. Myślałem, że wartości testu t byłyby bardziej śmieciami niż to, co tu otrzymuję. Dotyczy to wielu innych zestawów danych, które mi się podobają i zastanawiam się, dlaczego test t wydaje się działać, gdy nie powinien.
Obawiam się tutaj, że poszczególne koszty nie są ważne. Istnieje wiele podgrup ludzi o bardzo różnych rozkładach kosztów (kobiety vs. mężczyźni, choroby przewlekłe itp.), Które wydają się unieważniać wymóg dotyczący centralnego twierdzenia o limicie, lub nie powinienem się martwić o tym?
źródło
Odpowiedzi:
Ani test t, ani test permutacji nie mają dużej mocy, aby zidentyfikować różnicę średnich między dwoma tak wyjątkowo wypaczonymi rozkładami. Zatem oba dają wartości p dla anodyny wskazujące na brak znaczenia. Nie chodzi o to, że wydaje się, że się zgadzają; to dlatego, że mają trudności z wykryciem jakiejkolwiek różnicy, po prostu nie mogą się nie zgodzić!
Dla pewnej intuicji zastanów się, co by się stało, gdyby zmiana jednej wartości wystąpiła w jednym zestawie danych. Załóżmy, że w drugim zestawie danych nie wystąpiło maksimum 721,700. Średnia spadłaby o około 721700/3000, co stanowi około 240. Jednak różnica w średnich wynosi tylko 4964–4536 = 438, a nie nawet dwa razy większa. Sugeruje to (choć nie dowodzi), że jakiekolwiek porównanie średnich nie uznałoby różnicy za znaczącą.
Możemy jednak zweryfikować, że test t nie ma zastosowania. Wygenerujmy niektóre zestawy danych o takich samych cechach statystycznych jak te. Aby to zrobić, stworzyłem mieszanki, w których
W tych symulacjach okazuje się, że maksymalne wartości również nie są dalekie od zgłaszanych maksimów.
Powtórzmy pierwszy zestaw danych 10 000 razy i śledźmy jego średnią. (Wyniki będą prawie takie same, gdy zrobimy to dla drugiego zestawu danych.) Histogram tych średnich szacuje rozkład próbkowania średniej. Test t jest ważny, gdy rozkład ten jest w przybliżeniu normalny; stopień, w jakim odbiega ona od Normalności, wskazuje stopień, w jakim rozkład t Studenta będzie błędny. Dla porównania narysowałem (na czerwono) plik PDF rozkładu normalnego, który pasuje do tych wyników.
Nie widzimy wielu szczegółów, ponieważ istnieją ogromne, odstające wartości. (Jest to przejaw wrażliwości wspomnianych środków.) Jest ich 123 - 1,23% - powyżej 10.000. Skoncentrujmy się na pozostałych, abyśmy mogli zobaczyć szczegóły i ponieważ te wartości odstające mogą wynikać z założonej logarytmiczności rozkładu, co niekoniecznie ma miejsce w przypadku oryginalnego zestawu danych.
Jest to nadal mocno wypaczone i wyraźnie odbiega od normalnego przybliżenia, zapewniając wystarczające wyjaśnienie zjawisk opisanych w pytaniu. Daje nam to również poczucie, jak duża różnica środków może zostać wykryta w teście: musiałby wynosić około 3000 lub więcej, aby wyglądać na znaczące. I odwrotnie, rzeczywista różnica 428 może zostać wykryta, pod warunkiem, że masz w przybliżeniu( 3000 / 428 )2)= 50
Oto
R
kod, który wytworzył te liczby.źródło
Gdy n jest duże (jak 300, nawet znacznie mniej niż 3000), test t jest zasadniczo taki sam jak test z. Oznacza to, że test t staje się niczym więcej niż zastosowaniem centralnego twierdzenia granicznego, które mówi, że MEAN dla każdej z dwóch grup jest prawie dokładnie normalnie rozłożony (nawet jeśli obserwacje leżące u podstaw tych dwóch środków są bardzo dalekie od normalności Rozpowszechniane!). Jest to również powód, dla którego typowa tabela t nie zadaje sobie trudu, aby wyświetlić wartości n większe niż 1000 (na przykład ta tabela t) . Dlatego nie jestem zaskoczony, że otrzymujesz tak dobrze wychowane wyniki.
Edycja: Wydaje mi się, że nie doceniłem końca skosu i jego znaczenia. Chociaż mój punkt powyżej ma sens w mniej ekstremalnych okolicznościach, Whubera na pytanie jest ogólnie znacznie lepsza.
źródło
Wiem, że ta odpowiedź jest spóźniona. Otrzymuję jednak tytuł doktora w dziedzinie badań usług zdrowotnych, więc dużo pracuję z danymi dotyczącymi opieki zdrowotnej, w tym danymi dotyczącymi kosztów.
Nie wiem, jakie dane miał OP. Gdyby były to dane przekrojowe, prawdopodobnie są to uzasadnione IID. Niezależność oznacza, że każda jednostka, a więc każda osoba, jest niezależna. Jest to bardzo prawdopodobne, że jest uzasadnione. Jeśli chodzi o identyczny rozkład, dane można modelować jako wszystkie pochodzące, powiedzmy, z rozkładu gamma w uogólnionym modelu liniowym z łączem logarytmicznym. Tak często robią ludzie w praktyce. Lub jeśli chcesz się zachwycić, prawdopodobnie istnieją modele przeszkód (popularne w ekonometrii), które radzą sobie z nadmiarem zer. Które, nawiasem mówiąc, są dość powszechne w wydatkach na opiekę zdrowotną. OP jest technicznie poprawny, że dane niekoniecznie są identycznie rozmieszczone, np. Średnia i wariancja będą się zmieniać wraz z wiekiem, ale jest to wykonalne założenie w modelach regresji wielokrotnej.
Gdyby każda osoba znajdowała się w zbiorze danych przez ponad rok, dane nie byłyby IID. Dostępne są do tego bardziej złożone modele. Stosunkowo prosty jeden z nich prawdopodobnie uogólniałby, szacując równania, rozkład gamma i logarytm ponownie, zakładając wymienną korelację roboczą. Lub, jeśli dane te pochodzą z publicznie dostępnych danych ankietowych, NIE ma jednakowego prawdopodobieństwa pobrania próbki - wiele z tych ankiet przeprowadza wywiady z wieloma osobami w każdym gospodarstwie domowym, a także stratyfikują one populację i przesiewają niektóre grupy (np. Mniejszości rasowe). Użytkownik musiałby to poprawić.
Nie używam testów t, szczególnie nie do danych obserwacyjnych. Istnieje zbyt wiele czynników zakłócających, dlatego warto je dostosować w (uogólnionym) modelu liniowym. Nie mogę więc komentować pytań związanych konkretnie z testami t.
źródło