Próbuję znaleźć korelację między zmienną dychotomiczną i zmienną ciągłą.
Na podstawie moich prac nad tym stwierdziłem, że muszę zastosować niezależny test t, a warunkiem tego jest, aby rozkład zmiennej był normalny.
Przeprowadziłem test Kołmogorowa-Smirnowa w celu przetestowania normalności i stwierdziłem, że zmienna ciągła jest nienormalna i jest wypaczona (dla około 4000 punktów danych).
Zrobiłem test Kołmogorowa-Smirnowa dla całego zakresu zmiennych. Czy powinienem podzielić je na grupy i wykonać test? Tj. Powiedzmy, jeśli mam risk level
( 0
= nie ryzykowne, 1
= ryzykowne) i poziomy cholesterolu, to powinienem:
Podziel je na dwie grupy
Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS
Zebrać je razem i zastosować test? (Wykonałem to tylko dla całego zestawu danych).
Po czym, co powinienem zrobić, jeśli nadal jest nienormalny?
EDYCJA: Powyższy scenariusz był tylko opisem, który starałem się podać dla mojego problemu. Mam zestaw danych, który zawiera ponad 1000 zmiennych i około 4000 próbek. Mają charakter ciągły lub kategoryczny. Moim zadaniem jest przewidzieć zmienną dychotomiczną na podstawie tych zmiennych (być może wymyślić model regresji logistycznej). Pomyślałem więc, że wstępne badanie będzie polegało na znalezieniu korelacji między zmienną dychotomiczną a zmienną ciągłą.
Próbowałem zobaczyć, jak wygląda rozkład zmiennych, i dlatego próbowałem przejść do testu t. Tutaj znalazłem normalność jako problem. Test Kołmogorowa-Smirnowa dał wartość istotności 0,00 dla większości z tych zmiennych.
Czy powinienem tu zakładać normalność? Skośność i kurtoza tych zmiennych pokazują również, że dane są wypaczone (> 0) w prawie wszystkich przypadkach.
Zgodnie z uwagą podaną poniżej zbadam dalej korelację punktowo-biserialną. Ale co do rozkładu zmiennych wciąż nie jestem pewien.
źródło
Odpowiedzi:
Jestem trochę zmieszany; twój tytuł mówi „korelacja”, ale twój post odnosi się do testów t. Test t jest testem centralnej lokalizacji - a dokładniej, czy średnia jednego zestawu danych różni się od średniej innego zestawu? Z drugiej strony korelacja pokazuje związek między dwiema zmiennymi. Istnieje wiele miar korelacji, wydaje się, że korelacja punktowo-biserialna jest właściwa w twoim przypadku.
Masz rację, że test t zakłada normalność; jednak testy normalności prawdopodobnie dadzą znaczące wyniki nawet dla trywialnych nietypowości z N wynoszącym 4000. Testy T są dość odporne na niewielkie odchylenia od normalności, jeśli wariancje dwóch zestawów danych są w przybliżeniu równe, a próbka rozmiary mniej więcej równe. Ale test nieparametryczny jest bardziej odporny na wartości odstające i większość z nich ma moc prawie tak wysoką jak test t, nawet jeśli rozkłady są normalne.
Jednak w twoim przykładzie używasz „cholesterolu” jako ryzykownego lub nie ryzykownego. To prawie na pewno zły pomysł. Dychotomizacja zmiennej ciągłej wywołuje magiczne myślenie. Mówi, że w pewnym momencie cholesterol przechodzi z „nie ryzykownego” do „ryzykownego”. Załóżmy, że użyłeś 200 jako granicy - wtedy mówisz, że ktoś z cholesterolem 201 jest taki sam jak ktoś z 400, a ktoś z 199 jest taki jak ktoś z 100. To nie ma sensu.
źródło
Uprośćmy rzeczy. Przy N = 4000 dla poziomu cholesterolu nie powinieneś mieć problemu z tym, że wyniki są tendencyjne przez wartości odstające. Dlatego możesz użyć samej korelacji, jak sugeruje to twoje pierwsze zdanie. Nie ma znaczenia, czy oceniasz korelację za pomocą metody Pearsona, Spearmana czy Point-Biserial.
Jeśli zamiast tego naprawdę potrzebujesz sformułować wyniki w kategoriach typowej różnicy cholesterolu między grupami wysokiego i niskiego ryzyka, możesz użyć testu U Manna-Whitneya, ale równie dobrze możesz użyć bardziej pouczającego testu t . Z tym N (i znowu, z astronomicznymi wartościami odstającymi, co bez wątpienia można wykluczyć), nie musisz się martwić, że brak normalności pogorszy twoje wyniki.
źródło