Korelacja między zmienną dychotomiczną i zmienną ciągłą

10

Próbuję znaleźć korelację między zmienną dychotomiczną i zmienną ciągłą.

Na podstawie moich prac nad tym stwierdziłem, że muszę zastosować niezależny test t, a warunkiem tego jest, aby rozkład zmiennej był normalny.

Przeprowadziłem test Kołmogorowa-Smirnowa w celu przetestowania normalności i stwierdziłem, że zmienna ciągła jest nienormalna i jest wypaczona (dla około 4000 punktów danych).

Zrobiłem test Kołmogorowa-Smirnowa dla całego zakresu zmiennych. Czy powinienem podzielić je na grupy i wykonać test? Tj. Powiedzmy, jeśli mam risk level( 0= nie ryzykowne, 1= ryzykowne) i poziomy cholesterolu, to powinienem:

  • Podziel je na dwie grupy

    Risk level =0 (Cholestrol level) -> Apply KS
    Risk level =1 (Cholestrol level) -> Apply KS
    
  • Zebrać je razem i zastosować test? (Wykonałem to tylko dla całego zestawu danych).

Po czym, co powinienem zrobić, jeśli nadal jest nienormalny?

EDYCJA: Powyższy scenariusz był tylko opisem, który starałem się podać dla mojego problemu. Mam zestaw danych, który zawiera ponad 1000 zmiennych i około 4000 próbek. Mają charakter ciągły lub kategoryczny. Moim zadaniem jest przewidzieć zmienną dychotomiczną na podstawie tych zmiennych (być może wymyślić model regresji logistycznej). Pomyślałem więc, że wstępne badanie będzie polegało na znalezieniu korelacji między zmienną dychotomiczną a zmienną ciągłą.

Próbowałem zobaczyć, jak wygląda rozkład zmiennych, i dlatego próbowałem przejść do testu t. Tutaj znalazłem normalność jako problem. Test Kołmogorowa-Smirnowa dał wartość istotności 0,00 dla większości z tych zmiennych.

Czy powinienem tu zakładać normalność? Skośność i kurtoza tych zmiennych pokazują również, że dane są wypaczone (> 0) w prawie wszystkich przypadkach.

Zgodnie z uwagą podaną poniżej zbadam dalej korelację punktowo-biserialną. Ale co do rozkładu zmiennych wciąż nie jestem pewien.

Sree Aurovindh
źródło
1
Korelacja (dowolnego rodzaju) między kontinuum a zmienną binarną (grupową) nie jest niczym więcej (a może mniej ...) niż tylko porównaniem średnich (pewnego rodzaju średniej ...) między grupami, więc zwykle tak powinno być lepiej!
kjetil b halvorsen

Odpowiedzi:

14

Jestem trochę zmieszany; twój tytuł mówi „korelacja”, ale twój post odnosi się do testów t. Test t jest testem centralnej lokalizacji - a dokładniej, czy średnia jednego zestawu danych różni się od średniej innego zestawu? Z drugiej strony korelacja pokazuje związek między dwiema zmiennymi. Istnieje wiele miar korelacji, wydaje się, że korelacja punktowo-biserialna jest właściwa w twoim przypadku.

Masz rację, że test t zakłada normalność; jednak testy normalności prawdopodobnie dadzą znaczące wyniki nawet dla trywialnych nietypowości z N wynoszącym 4000. Testy T są dość odporne na niewielkie odchylenia od normalności, jeśli wariancje dwóch zestawów danych są w przybliżeniu równe, a próbka rozmiary mniej więcej równe. Ale test nieparametryczny jest bardziej odporny na wartości odstające i większość z nich ma moc prawie tak wysoką jak test t, nawet jeśli rozkłady są normalne.

Jednak w twoim przykładzie używasz „cholesterolu” jako ryzykownego lub nie ryzykownego. To prawie na pewno zły pomysł. Dychotomizacja zmiennej ciągłej wywołuje magiczne myślenie. Mówi, że w pewnym momencie cholesterol przechodzi z „nie ryzykownego” do „ryzykownego”. Załóżmy, że użyłeś 200 jako granicy - wtedy mówisz, że ktoś z cholesterolem 201 jest taki sam jak ktoś z 400, a ktoś z 199 jest taki jak ktoś z 100. To nie ma sensu.

Peter Flom
źródło
2
Zgadzam się i myślę, że większość z nas się zgadza, że ​​dychotomizacja marnuje informacje i że może to być metoda prymitywna, gruba lub niezdarna. Po prostu myślę, że argument „magiczne myślenie” trochę się przerasta. Wybór połysk różnicy nie jest tym samym, co przekonanie, że nie ma różnicy. Oczekuję, że nadejdą czasy, kiedy uznam, że jest to wygodne i warte kompromisu, aby utworzyć kategorie z jakiejś zmiennej ciągłej, zarówno do celów analitycznych, jak i sprawozdawczych. Tylko moje 2 centy.
rolando2
2
R2)
6

Uprośćmy rzeczy. Przy N = 4000 dla poziomu cholesterolu nie powinieneś mieć problemu z tym, że wyniki są tendencyjne przez wartości odstające. Dlatego możesz użyć samej korelacji, jak sugeruje to twoje pierwsze zdanie. Nie ma znaczenia, czy oceniasz korelację za pomocą metody Pearsona, Spearmana czy Point-Biserial.

Jeśli zamiast tego naprawdę potrzebujesz sformułować wyniki w kategoriach typowej różnicy cholesterolu między grupami wysokiego i niskiego ryzyka, możesz użyć testu U Manna-Whitneya, ale równie dobrze możesz użyć bardziej pouczającego testu t . Z tym N (i znowu, z astronomicznymi wartościami odstającymi, co bez wątpienia można wykluczyć), nie musisz się martwić, że brak normalności pogorszy twoje wyniki.

rolando2
źródło
Dzięki za odpowiedź. Ale jeśli muszę wiedzieć o wartościach odstających, które powodują duże zniekształcenie, czy poprawne jest użycie kurtozy i skośności do wykrycia? W przypadku, gdy jest to prawdą powyżej, jakie wartości kurtozy i skośności należy założyć, że rozkład nie jest normalny. Dziękuję za odpowiedź
Sree Aurovindh
Zakładam, w oparciu o ograniczoną wiedzę o zawartości, że przy cholesterolu nie będziesz mieć wartości, które są o wiele rzędów wielkości wyższe niż inne. Dlatego myślę, że możesz użyć metody parametrycznej, takiej jak korelacja lub test t. To nie tak, że myślę, że dystrybucja jest normalna. Nie musisz być normalny. Nawiasem mówiąc, w świetle odpowiedzi Piotra: Wierzyłem (i mam nadzieję), że masz jakieś źródło statusu wysokiego / niskiego ryzyka, które było niezależne od wyniku cholesterolu. Zgadzam się, że dychotomizacja prawdopodobnie nie jest pomocna.
rolando2,
2
Czy mogę zasugerować dodanie sekcji do oryginalnego pytania, oznaczonej „EDYTUJ: ....”, która określa, jakie pytania pozostały dla ciebie, na które nie udzielono odpowiedzi w odpowiedziach i komentarzach, które otrzymałeś do tej pory.
rolando2
Dziękuję za sugestię. Zaktualizowałem to samo. Przepraszam za dwuznaczne pytanie. Dzięki
Sree Aurovindh