Dlaczego korelacja nie jest zbyt przydatna, gdy jedna ze zmiennych jest kategoryczna?

14

To trochę kontrola, proszę, pomóżcie mi zobaczyć, czy nie rozumiem tej koncepcji iw jaki sposób.

Mam funkcjonalne zrozumienie korelacji, ale czuję się trochę wyłapany, aby naprawdę pewnie wyjaśnić zasady tego funkcjonalnego zrozumienia.

Jak rozumiem, korelacja statystyczna (w przeciwieństwie do bardziej ogólnego użycia tego terminu) jest sposobem na zrozumienie dwóch ciągłych zmiennych i sposobu, w jaki one rosną lub nie mają tendencji do wzrostu lub spadku w podobny sposób.

Powodem, dla którego nie można uruchomić korelacji, powiedzmy, jednej zmiennej ciągłej i jednej zmiennej kategorialnej, jest to, że nie można obliczyć kowariancji między nimi, ponieważ zmienna kategoryczna z definicji nie może dać średniej, a zatem nie może nawet wejść do pierwszej etapy analizy statystycznej.

Czy to prawda?

correlation categorical-data covariance Toof
źródło

2

Oto wypisane

Taylor

3

Prosty powód, wyobraź sobie, że pytasz ludzi „jaki jest twój ulubiony kolor?” i odpowiadają „czerwony”, „zielony”, „niebieski”, „pomarańczowy”, „żółty”, ..., co jest zakodowane w zestawie danych jako 1, 2, 3, ... Następnie oblicza się współczynnik korelacji między taka zmienna z satysfakcją z pracy i uzyskać wartość 0,21. Co to znaczy? Czy możesz podać jakąkolwiek sensowną interpretację?

Tim

2

Blisko spokrewniony (może nawet duplikat?) - Korelacja między zmienną nominalną (IV) a zmienną ciągłą (DV)

Silverfish

@Taylor: Czego używamy, gdy obie zmienne są ciągłe / numeryczne, ale jedna z nich jest stochastyczna, a druga nie, np. Godziny badane w porównaniu z GPA?

MSIS,

16

Korelacja jest standaryzowany kowariancji, czyli kowariancji $x$ i $y$ podzielona przez odchylenie standardowe $x$ i $y$ . Pozwól mi to zilustrować.

Mówiąc luźniej, statystyki można podsumować jako dopasowanie modeli do danych i ocenę, jak dobrze model opisuje te punkty danych ( Wynik = Model + Błąd ). Jednym ze sposobów jest obliczenie sum odchyleń lub reszt (res) z modelu:

$res= \sum(x_{i}-\bar{x})$

Wiele obliczeń statystycznych opiera się na tym, w tym. współczynnik korelacji (patrz poniżej).

Oto przykładowy zestaw danych R(reszty są oznaczone czerwonymi liniami, a ich wartości dodane obok nich):

X <- c(8,9,10,13,15)  
Y <- c(5,4,4,6,8)

Patrząc na każdy punkt danych indywidualnie i odejmując jego wartość od modelu (np. Średnią; w tym przypadku X=11i Y=5.4), można ocenić dokładność modelu. Można powiedzieć, że model zawyżał / nie doceniał rzeczywistej wartości. Jednak sumując wszystkie odchylenia od modelu, całkowity błąd ma tendencję do zera , wartości się znoszą, ponieważ istnieją wartości dodatnie (model nie docenia konkretnego punktu danych) i wartości ujemne (model przecenia określone dane punkt). Aby rozwiązać ten problem, sumy odchyleń są podniesione do kwadratu i teraz nazywane są sumami kwadratów ( $SS$ ):

$SS = \sum(x_i-\bar{x})(x_i-\bar{x}) = \sum(x_i-\bar{x})^2$

$n-1$ $s^2$

$s^2 = \frac{SS}{n-1} = \frac{\sum(x_i-\bar{x})(x_i-\bar{x})}{n-1} = \frac{\sum(x_i-\bar{x})^2}{n-1}$

Dla wygody można przyjąć pierwiastek kwadratowy wariancji próbki, który jest znany jako standardowe odchylenie próbki:

$s=\sqrt{s^2}=\sqrt{\frac{SS}{n-1}}=\sqrt{\frac{\sum(x_i-\bar{x})^2}{n-1}}$

Teraz kowariancja ocenia, czy dwie zmienne są ze sobą powiązane. Wartość dodatnia wskazuje, że gdy jedna zmienna odbiega od średniej, druga zmienna odchyla się w tym samym kierunku.

$cov_{x,y}= \frac{\sum(x_i-\bar{x})(y_i-\bar{y})}{n-1}$

Poprzez standaryzację wyrażamy kowariancję na jednostkę odchylenia standardowego, która jest współczynnikiem korelacji Pearsona $r$ . This allows comparing variables with each other that were measured in different units. The correlation coefficient is a measure of the strength of a relationship ranging from -1 (a perfect negative correlation) to 0 (no correlation) and +1 (a perfect positive correlation).

$r=\frac{cov_{x,y}}{s_x s_y} = \frac{\sum(x_1-\bar{x})(y_i-\bar{y})}{(n-1) s_x s_y}$

In this, case the Pearson correlation coefficient is $r=0.87$ , which can be considered a strong correlation (although this is also relative depending on the field of study). To check this, here another plot with X on the x-axis and Y on the y axis:

Tak krótka historia, tak, masz rację, ale mam nadzieję, że moja odpowiedź da kontekst.

Stefan
źródło

1

Jest to bardzo pomocne - próbując pogłębić moje zrozumienie, stwierdzam, że jeśli nie potrafię wystarczająco wytłumaczyć tego komuś bez doświadczenia w statystyce, nie rozumiem tego tak dobrze, jak myślałem.

Toof

8

Masz (prawie) rację. Kowariancję (a zatem i korelację) można obliczyć tylko między zmiennymi numerycznymi. Obejmuje to zmienne ciągłe, ale także dyskretne zmienne numeryczne.

Zmienne kategorialne można wykorzystać do obliczenia korelacji, podając tylko użyteczny dla nich kod numeryczny, ale nie jest to prawdopodobne, aby przyniosło to praktyczną przewagę - być może może być przydatne dla niektórych zmiennych kategorialnych na dwóch poziomach, ale inne narzędzia mogą być bardziej odpowiednie.

Pere
źródło

Aby dodać do punktu Pere'a, współczynnik korelacji momentu iloczynu Pearsona reprezentuje stopień liniowej zależności między dwiema zmiennymi. Miary nieparametryczne, takie jak rho Spearmana lub tau Kendalla, charakteryzują, jak często występuje tendencja, by X i Y wzrastały lub zmniejszały się razem (zachowują się do pewnego stopnia jak relacja monotoniczna, która niekoniecznie musi być liniowa.

Michael R. Chernick,

@Ere: Czego używamy, gdy mamy dwie zmienne ciągłe, ale tylko jedna z nich jest stochastyczna, np. Godziny przepracowane w funkcji wagi.

MSIS

1

@ MSIS - To powinno być inne pytanie, ale korelacji można użyć, nawet jeśli jedna zmienna nie jest losowa.

Pere

1

@Ere: Zapytałem, w razie zainteresowania: stats.stackexchange.com/questions/435257/…

MSIS

3

Nie ma absolutnie nic złego w obliczaniu korelacji, w których jedna ze zmiennych jest kategoryczna. Silna dodatnia korelacja oznaczałaby, że włączenie zmiennej kategorialnej (lub wyłączenie w zależności od konwencji) powoduje wzrost odpowiedzi. Może się to na przykład zdarzyć przy obliczaniu regresji logistycznej, w której zmienne są kategoryczne: przewidywanie szansy na zawał serca w przypadku chorób współistniejących, takich jak cukrzyca i bmi. W takim przypadku BMI miałby bardzo silną korelację z atakami serca. Czy doszedłbyś do wniosku, że to nie jest przydatne?

Alex R.
źródło

Dlaczego korelacja nie jest zbyt przydatna, gdy jedna ze zmiennych jest kategoryczna?

Odpowiedzi: