Istnieją dwa wektory logiczne, które zawierają tylko 0 i 1. Jeśli obliczę korelację Pearsona lub Spearmana, czy są one sensowne czy rozsądne?
correlation
binary-data
pearson-r
spearman-rho
Zhilong Jia
źródło
źródło
Odpowiedzi:
Korelacja Pearsona i Spearmana jest zdefiniowana, o ile masz jakieś i s dla obu dwóch zmiennych binarnych, powiedzmy i . Łatwo jest uzyskać dobre jakościowe wyobrażenie o ich znaczeniu, myśląc o wykresie rozproszenia dwóch zmiennych. Oczywiście są tylko cztery możliwości (więc dobrym pomysłem jest drżenie, aby rozdzielić identyczne punkty w celu wizualizacji). Na przykład w każdej sytuacji, w której dwa wektory są identyczne, z zastrzeżeniem posiadania w każdym zera kilku zer i jedności 1, wówczas z definicji a korelacja wynosi koniecznie . Podobnie możliwe jest, że0 1 y x (0,0),(0,1),(1,0),(1,1) y=x 1 y=1−x a następnie korelacja wynosi .−1
W przypadku tego zestawu nie ma miejsca na relacje monotoniczne, które nie są liniowe. Przy rangach s i s zgodnie ze zwykłą konwencją o średniej częstotliwości, szeregi są po prostu liniową transformacją oryginalnych s i s, a korelacja Spearmana jest koniecznie identyczna z korelacją Pearsona. Dlatego nie ma powodu, aby rozważać tutaj korelację Spearmana osobno lub w ogóle.0 1 0 1
Korelacje powstają naturalnie dla niektórych problemów obejmujących si s, np. W badaniu procesów binarnych w czasie lub przestrzeni. Ogólnie rzecz biorąc, będą lepsze sposoby myślenia o takich danych, w zależności w dużej mierze od głównego motywu takiego badania. Na przykład fakt, że korelacje mają duży sens, nie oznacza, że regresja liniowa jest dobrym sposobem na modelowanie odpowiedzi binarnej. Jeśli jedna ze zmiennych binarnych jest odpowiedzią, większość statystycznych osób zaczyna od rozważenia modelu logit.0 1
źródło
Istnieją specjalne mierniki podobieństwa dla wektorów binarnych, takie jak:
itp.
Aby uzyskać szczegółowe informacje, zobacz tutaj .
źródło
Nie radziłbym używać współczynnika korelacji Pearsona dla danych binarnych, zobacz następujący kontrprzykład:
w większości przypadków oba dają 1
ale korelacja tego nie pokazuje
Binarna miara podobieństwa, taka jak indeks Jaccard, pokazuje jednak znacznie wyższe powiązanie:
Dlaczego to? Zobacz tutaj prostą regresję dwuwymiarową
wykres poniżej (dodano niewielki hałas, aby liczba punktów była wyraźniejsza)
źródło