Chciałbym znaleźć korelację między zmienną ciągłą (zmienną zależną) a zmienną kategorialną (nominalna: płeć, zmienna niezależna). Dane ciągłe nie są zwykle dystrybuowane. Przedtem miałem obliczony go używając Spearmana . Powiedziano mi jednak, że to nie w porządku.
Podczas wyszukiwania w Internecie odkryłem, że wykres pudełkowy może dać wyobrażenie o tym, jak bardzo są one powiązane; jednak szukałem wartości ilościowych, takich jak współczynnik Pearsona momentu produkt lub Spearmana . Czy możesz mi pomóc, jak to zrobić? Lub poinformować, która metoda byłaby odpowiednia?
Czy punktowy współczynnik biserialny byłby właściwą opcją?
correlation
categorical-data
descriptive-statistics
biostatistics
spearman-rho
Md. Ferdous Wahid
źródło
źródło
Odpowiedzi:
Recenzent powinien ci powiedzieć dlaczego Spearmana nie jest właściwe. Oto jedna wersja tego: Niech dane będą gdzie jest zmienną mierzoną, a jest wskaźnikiem płci, powiedzmy, że wynosi 0 (mężczyzna), 1 (kobieta). Następnie Spearmana jest obliczana na podstawie szeregów odpowiednio. Ponieważ istnieją tylko dwie możliwe wartości wskaźnika , będzie wiele powiązań, więc ta formuła nie jest odpowiednia. Jeśli zamienisz rangę na średnią rangę, otrzymasz tylko dwie różne wartości, jedną dla mężczyzn, drugą dla kobiet. Więc( Z i , I i ) Z I ρ Z , I I ρρ (Zi,Ii) Z I ρ Z,I I ρ stanie się w zasadzie jakąś przeskalowaną wersją średnich rang między dwiema grupami. Łatwiej byłoby (bardziej interpretować) po prostu porównać środki! Inne podejście jest następujące.
Niech będą obserwacjami zmiennej ciągłej wśród mężczyzn, same wśród kobiet. Teraz, jeśli rozkład i jest taki sam, wówczas wyniesie 0,5 (załóżmy, że rozkład jest całkowicie absolutnie ciągły, więc nie ma żadnych powiązań). W ogólnym przypadku zdefiniuj gdzie jest losowym losowaniem wśród mężczyzn, wśród kobiet. Czy możemy oszacować z naszej próbki? Utwórz wszystkie pary (nie zakładaj żadnych powiązań) i policz, ile mamy „człowiek jest większy” ( ) (X1,…,Xn Y1,…,Ym X Y P(X>Y)
źródło
Mam teraz ten sam problem. Jeszcze nie widziałem, żeby ktoś się do tego odwoływał, ale badam korelację punktowo-biserialną, która jest zbudowana na podstawie współczynnika korelacji Pearsona. Jest to średnia dla zmiennej ciągłej i zmiennej dychotomicznej.
Szybki odczyt: https://statistics.laerd.com/spss-tutorials/point-biserial-correlation-using-spss-statistics.php
Używam R, ale uważam, że SPSS ma świetną dokumentację.
źródło
Wydaje się, że najodpowiedniejszym porównaniem byłoby porównanie median (ponieważ jest nienormalne) i rozkładu między kategoriami binarnymi. Sugerowałbym nieparametryczny test Manna-Whitneya ...
źródło
W przypadku określonego problemu pomocne może być zmierzenie obszaru pod krzywą operatora odbiornika.
Nie jestem w tym ekspertem, więc staram się to uprościć. Proszę skomentować każdy błąd lub niewłaściwą interpretację, abym mógł go zmienić.
y x x xx jest zmienną ciągłą. jest twój kategoryczny. Sprawdź, ile otrzymujesz wartości rzeczywistych i fałszywych, jeśli wybierzesz wartość jako próg między pozytywami i negatywami (lub mężczyznami i kobietami) i porównasz to z rzeczywistymi etykietami. Na przykład wybierasz 7, a następnie powyżej = 7 wszystkie są płci żeńskiej (1), a poniżej = 7 wszystkie płci męskiej (0). Porównaj to z rzeczywistymi etykietami i uzyskaj liczbę prawdziwych pozytywnych i fałszywych pozytywnych prognoz.y x x x
Powtarzając powyższą procedurę, od min ( ) do max ( ) wygenerujesz wartości prawdziwie dodatnie i fałszywie dodatnie, a następnie możesz wykreślić je jak na poniższym rysunku i obliczyć pole pod krzywą.xx x
Chodzi o to, że jeśli nie ma korelacji między zmiennymi, otrzymasz ten sam stosunek prawdziwych pozytywów i prawdziwych negatywów dla wszystkich wartości , jednak jeśli istnieje dobra korelacja (i to samo oznacza anty-korelację) stosunek od prawdziwych pozytywów do prawdziwych negatywów będzie się znacznie różnić w miarę, jak zmienia się .xx x
Powyższe stwierdzenie jest obliczane za pomocą obszaru pod krzywą.
Przykład dobrej korelacji (po prawej) i uczciwej anty-korelacji (po lewej).
źródło
powinieneś użyć trendu liniowego alternatywnego wobec niezależności. jeśli nie znasz tego sposobu, możesz zapoznać się ze wstępem do analizy danych kategorycznych na stronie 41.
źródło