Korelacje między zmiennymi ciągłymi a jakościowymi (nominalnymi)

42

Chciałbym znaleźć korelację między zmienną ciągłą (zmienną zależną) a zmienną kategorialną (nominalna: płeć, zmienna niezależna). Dane ciągłe nie są zwykle dystrybuowane. Przedtem miałem obliczony go używając Spearmana . Powiedziano mi jednak, że to nie w porządku.ρ

Podczas wyszukiwania w Internecie odkryłem, że wykres pudełkowy może dać wyobrażenie o tym, jak bardzo są one powiązane; jednak szukałem wartości ilościowych, takich jak współczynnik Pearsona momentu produkt lub Spearmana . Czy możesz mi pomóc, jak to zrobić? Lub poinformować, która metoda byłaby odpowiednia?ρ

Czy punktowy współczynnik biserialny byłby właściwą opcją?

Md. Ferdous Wahid
źródło
Zwykle nie można doradzać tylko na podstawie formatu danych! Co reprezentują dane i co chcesz osiągnąć dzięki swojej analizie?
kjetil b halvorsen
1
Dzięki kjetil, chciałbym porównać związek między płcią a innymi ciągłymi zmiennymi. Wystarczy wiedzieć, które zmienne ciągłe są umiarkowanie / silnie skorelowane, a które zmienne nie.
Md. Ferdous Wahid,
1
Wygląda jak duplikat stats.stackexchange.com/questions/25229/... Czy możesz nam powiedzieć, czy odpowiedzi na to pytanie ci pomogą?
kjetil b halvorsen
Tak, moje pytanie jest podobne do tego. Jednak mam zwrotne, gdzie wskazano, że Recenzent Spearmana nie jest właściwe. Rozmiar mojej próbki wynosi 31. Zgodnie z odpowiedzią (podany link), nienormalne nie byłoby problemem i można zastosować dowolną metodę korelacji (Spearman / Pearson / Point-Biserial) dla dużego zestawu danych. Czy dotyczyłoby to również małego zestawu danych? Nawiasem mówiąc, płeć nie jest sztucznie stworzoną dychotomiczną skalą nominalną. Powyższy link powinien wykorzystywać współczynnik korelacji biserialnej. ρ
Md. Ferdous Wahid,
3
Korelacja między zmienną nominalną i przedziałową lub zmienną porządkową stats.stackexchange.com/q/73065/3277
ttnphns

Odpowiedzi:

25

Recenzent powinien ci powiedzieć dlaczego Spearmana nie jest właściwe. Oto jedna wersja tego: Niech dane będą gdzie jest zmienną mierzoną, a jest wskaźnikiem płci, powiedzmy, że wynosi 0 (mężczyzna), 1 (kobieta). Następnie Spearmana jest obliczana na podstawie szeregów odpowiednio. Ponieważ istnieją tylko dwie możliwe wartości wskaźnika , będzie wiele powiązań, więc ta formuła nie jest odpowiednia. Jeśli zamienisz rangę na średnią rangę, otrzymasz tylko dwie różne wartości, jedną dla mężczyzn, drugą dla kobiet. Więc( Z i , I i ) Z I ρ Z , I I ρρ(Zi,Ii)ZIρZ,IIρstanie się w zasadzie jakąś przeskalowaną wersją średnich rang między dwiema grupami. Łatwiej byłoby (bardziej interpretować) po prostu porównać środki! Inne podejście jest następujące.

Niech będą obserwacjami zmiennej ciągłej wśród mężczyzn, same wśród kobiet. Teraz, jeśli rozkład i jest taki sam, wówczas wyniesie 0,5 (załóżmy, że rozkład jest całkowicie absolutnie ciągły, więc nie ma żadnych powiązań). W ogólnym przypadku zdefiniuj gdzie jest losowym losowaniem wśród mężczyzn, wśród kobiet. Czy możemy oszacować z naszej próbki? Utwórz wszystkie pary (nie zakładaj żadnych powiązań) i policz, ile mamy „człowiek jest większy” ( ) (X1,,XnY1,,YmXYP(X>Y)

θ=P(X>Y)
XYθ(Xi,Yj)Xi>YjM) i dla ilu „kobieta jest większa” ( ) ( ). Zatem jeden przykładowy szacunek to To jedna rozsądna miara korelacji! (Jeśli jest tylko kilka więzi, po prostu je zignoruj). Ale nie jestem pewien, jak to się nazywa, jeśli ma nazwę. Ten może być blisko: https://en.wikipedia.org/wiki/Goodman_and_Kruskal%27s_gammaXi<YjWθ
MM+W
kjetil b halvorsen
źródło
5
Korelacja rang Spearmana to po prostu korelacja Pearsona zastosowana do rang zmiennej numerycznej i wartości oryginalnej zmiennej binarnej (ranking nie ma tutaj wpływu). Tak więc rho Spearmana jest analogiem rangowym korelacji punkt-biserial. Nie widzę żadnego problemu w opisowym użyciu rho Spearmana w tej sytuacji.
Michael M.
Michael Mayer: Tak, może to może zadziałać, ale czy ma to jakiś sens? Nie podaje informacji, które nie są zawarte w jakiejś różnicy środków! i to jest bardziej bezpośrednio interpretowalne.
kjetil b halvorsen
1
Czy różnica w szeregach jest znacznie łatwiejsza do interpretacji niż rho Spearmana? Nawet jeśli tak, czy nazwałbyś rho Spearmana złym? Przykro nam, że nie widzimy uzasadnienia recenzentów.
Michael M.
1
To, co sugerujesz, jest miłe. Wydaje się, że jest to związane ze statystyką testową testu dwóch próbek Wilcoxona, który sam jest podobny do korelacji rang Kendalla między wynikiem liczbowym a zmienną grupy binarnej.
Michael M
1
@ tao.hong W jakim sensie uważasz, że jest asymetryczny? Jeśli zmienisz etykiety (mężczyźni / kobiety), wówczas zarówno i przełączą się w ten sam sposób, na . θθ^1θ
kjetil b halvorsen
8

Mam teraz ten sam problem. Jeszcze nie widziałem, żeby ktoś się do tego odwoływał, ale badam korelację punktowo-biserialną, która jest zbudowana na podstawie współczynnika korelacji Pearsona. Jest to średnia dla zmiennej ciągłej i zmiennej dychotomicznej.

Szybki odczyt: https://statistics.laerd.com/spss-tutorials/point-biserial-correlation-using-spss-statistics.php

Używam R, ale uważam, że SPSS ma świetną dokumentację.

Jon
źródło
1
Świetne odniesienie do znalezienia korelacji między zmienną ciągłą a zmienną dychotomiczną! Jednak wymienione założenia są nieco mocne.
SUNDONG
1

Wydaje się, że najodpowiedniejszym porównaniem byłoby porównanie median (ponieważ jest nienormalne) i rozkładu między kategoriami binarnymi. Sugerowałbym nieparametryczny test Manna-Whitneya ...

brca1
źródło
6
Podczas gdy Mann-Whitney byłby sposobem na identyfikację przesunięcia lokalizacji w zmiennej (lub bardziej ogólnych formach stochastycznej dominacji) w binarnej zmiennej kategorialnej, Mann-Whitney nie porównuje median, przynajmniej nie bez dodatkowych założeń.
Glen_b
1

W przypadku określonego problemu pomocne może być zmierzenie obszaru pod krzywą operatora odbiornika.

Nie jestem w tym ekspertem, więc staram się to uprościć. Proszę skomentować każdy błąd lub niewłaściwą interpretację, abym mógł go zmienić.

y x x xx jest zmienną ciągłą. jest twój kategoryczny. Sprawdź, ile otrzymujesz wartości rzeczywistych i fałszywych, jeśli wybierzesz wartość jako próg między pozytywami i negatywami (lub mężczyznami i kobietami) i porównasz to z rzeczywistymi etykietami. Na przykład wybierasz 7, a następnie powyżej = 7 wszystkie są płci żeńskiej (1), a poniżej = 7 wszystkie płci męskiej (0). Porównaj to z rzeczywistymi etykietami i uzyskaj liczbę prawdziwych pozytywnych i fałszywych pozytywnych prognoz.yxxx

Powtarzając powyższą procedurę, od min ( ) do max ( ) wygenerujesz wartości prawdziwie dodatnie i fałszywie dodatnie, a następnie możesz wykreślić je jak na poniższym rysunku i obliczyć pole pod krzywą.xxx

Chodzi o to, że jeśli nie ma korelacji między zmiennymi, otrzymasz ten sam stosunek prawdziwych pozytywów i prawdziwych negatywów dla wszystkich wartości , jednak jeśli istnieje dobra korelacja (i to samo oznacza anty-korelację) stosunek od prawdziwych pozytywów do prawdziwych negatywów będzie się znacznie różnić w miarę, jak zmienia się .xxx

Powyższe stwierdzenie jest obliczane za pomocą obszaru pod krzywą.

Przykład dobrej korelacji (po prawej) i uczciwej anty-korelacji (po lewej) Przykład dobrej korelacji (po prawej) i uczciwej anty-korelacji (po lewej).

aerijman
źródło
1
Witamy w CV! Twoja odpowiedź jest nieco za krótka i wydaje się, że nie pomaga znaleźć: „korelacja między zmienną ciągłą (zmienną zależną) a zmienną kategoryczną (nominalną: płeć, zmienna niezależna)” . Czy możesz edytować swoją odpowiedź, aby uwzględnić, w jaki sposób AUROC ma to osiągnąć?
Frans Rodenburg,
-3

powinieneś użyć trendu liniowego alternatywnego wobec niezależności. jeśli nie znasz tego sposobu, możesz zapoznać się ze wstępem do analizy danych kategorycznych na stronie 41.

Mehdi Loohs
źródło
4
Odpowiedź jest już zaakceptowana. I nie jest jasne, co wnosi Twoja odpowiedź. Czy możesz wyjaśnić więcej? Zakładam, że odwołujesz się do wprowadzenia Agresti do analizy danych kategorycznych. Proszę podać pełne cytowanie.
TEG - Przywróć Monikę