Biorąc pod uwagę, że twoje dwie metryki są 1) binarne i 2) gruboogoniaste, powinieneś unikać testu t, który zakłada normalne rozkłady.
Myślę, że Mann-Whitney U jest twoim najlepszym wyborem i powinien być wystarczająco wydajny, nawet jeśli twoje rozkłady były prawie normalne.
Jeśli chodzi o twoje drugie pytanie:
Co się stanie, jeśli jeden test sugeruje znaczącą różnicę między kohortami, a inny test sugeruje nieistotną różnicę?
Nie jest to rzadkie, jeśli różnica statystyczna jest na granicy, a dane mają „niechlujny” rozkład próbek. Sytuacja ta wymaga od analityka uważnego rozważenia wszystkich założeń i ograniczeń każdego testu statystycznego oraz nadania największej wagi testowi statystycznemu, który ma najmniejszą liczbę naruszeń założeń.
Przyjmij założenie rozkładu normalnego. Istnieją różne testy normalności, ale to nie koniec historii. Niektóre testy działają całkiem dobrze na rozkładach symetrycznych, nawet jeśli występują pewne odchylenia od normalności, ale nie działają dobrze na rozkładach pochylenia.
Jako ogólną zasadę sugeruję, aby nie przeprowadzać żadnych testów, w przypadku których którekolwiek z jego założeń zostałyby wyraźnie naruszone.
EDYCJA: W przypadku drugiej zmiennej może być wykonalne przekształcenie zmiennej w zmienną, która jest normalnie rozłożona (lub przynajmniej blisko), o ile transformacja zachowuje porządek. Musisz mieć pewność, że transformacja daje rozkład normalny dla obu kohort. Jeśli dopasujesz drugą zmienną do rozkładu log-normal, funkcja log przekształca ją w rozkład normalny. Ale jeśli rozkładem jest Pareto (prawo mocy), to nie ma transformacji do rozkładu normalnego.
EDYCJA: Jak zasugerowano w tym komentarzu , zdecydowanie powinieneś rozważyć estymację bayesowską jako alternatywę dla testów t i innych testów istotności hipotezy zerowej (NHST).
W przypadku danych o wartościach rzeczywistych warto rozważyć utworzenie własnej statystyki testowej na podstawie bootstrapu danych. Takie podejście zwykle daje dokładne wyniki, gdy mamy do czynienia z nietypowymi rozkładami populacji lub próbujemy opracować przedział ufności wokół parametru, który nie ma dogodnego rozwiązania analitycznego. (To pierwsze jest prawdziwe w twoim przypadku. Wspominam o drugim tylko w kontekście).
W przypadku danych o wartościach rzeczywistych możesz wykonać następujące czynności:
Po uzyskaniu tego rozkładu obliczyć różnicę średnich dla rzeczywistych próbek i obliczyć wartość p.
źródło
Po drugie: odpowiedź @ MrMeritology. Właściwie zastanawiałem się, czy test MWU byłby mniej skuteczny niż test niezależnych proporcji, ponieważ podręczniki, których się nauczyłem i których użyłem, mówiły, że MWU można zastosować tylko do danych porządkowych (lub przedziałów / proporcji).
Ale moje wyniki symulacji, przedstawione na wykresie poniżej, wskazują, że test MWU jest rzeczywiście nieco silniejszy niż test proporcji, jednocześnie dobrze kontrolując błąd typu I (przy proporcji populacji w grupie 1 = 0,50).
Udział populacji w grupie 2 utrzymuje się na poziomie 0,50. Liczba iteracji wynosi 10 000 w każdym punkcie. Powtórzyłem symulację bez korekty Yate'a, ale wyniki były takie same.
źródło