Zależność między współczynnikami korelacji phi, Matthewsa i Pearsona

13

Czy współczynniki korelacji phi i Matthewsa to ta sama koncepcja? W jaki sposób są one powiązane lub równoważne ze współczynnikiem korelacji Pearsona dla dwóch zmiennych binarnych? Zakładam, że wartości binarne to 0 i 1.


Korelacja Pearsona między dwiema zmiennymi losowymi Bernoulliego i wynosi:xy

ρ=E[(xE[x])(yE[y])]Var[x]Var[y]=E[xy]E[x]E[y]Var[x]Var[y]=n11nn1n1n0n1n0n1

gdzie

E[x]=n1nVar[x]=n0n1n2E[y]=n1nVar[y]=n0n1n2E[xy]=n11n

Współczynnik Phi z Wikipedii:

W statystykach współczynnik phi (określany również jako „średni kwadratowy współczynnik kontyngencji” i oznaczony przez lub ) jest miarą asocjacji dwóch zmiennych binarnych wprowadzonych przez Karla Pearsona. Miara ta jest podobna do współczynnika korelacji Pearsona w jej interpretacji. W rzeczywistości współczynnik korelacji Pearsona oszacowany dla dwóch zmiennych binarnych zwróci współczynnik phi ...ϕrϕ

Jeśli mamy tabelę 2 × 2 dla dwóch zmiennych losowych ixy

wprowadź opis zdjęcia tutaj

Phi współczynnik, który opisuje związek z i jest xy

ϕ=n11n00n10n01n1n0n0n1

Współczynnik korelacji Matthewsa z Wikipedii:

Współczynnik korelacji Matthewsa (MCC) można obliczyć bezpośrednio z macierzy zamieszania, korzystając ze wzoru:

MCC=TP×TNFP×FN(TP+FP)(TP+FN)(TN+FP)(TN+FN)

W tym równaniu TP jest liczbą prawdziwie pozytywnych, TN liczbą prawdziwych negatywów, FP liczbą fałszywych trafień, a FN liczbą fałszywie ujemnych. Jeśli którakolwiek z czterech sum w mianowniku wynosi zero, mianownik można dowolnie ustawić na jeden; skutkuje to zerowym współczynnikiem korelacji Matthewsa, który można wykazać jako prawidłową wartość graniczną.

Tim
źródło

Odpowiedzi:

14

Tak, są takie same. Współczynnik korelacji Matthewsa jest tylko szczególnym zastosowaniem współczynnika korelacji Pearsona do tabeli dezorientacji.

Tabela awaryjna to tylko podsumowanie podstawowych danych. Możesz przekonwertować go z liczb pokazanych w tabeli awaryjnej na jeden wiersz na obserwacje.

Rozważ przykładową macierz nieporozumień zastosowaną w artykule w Wikipedii z 5 prawdziwymi pozytywami, 17 prawdziwymi negatywami, 2 fałszywymi pozytywami i 3 fałszywymi negatywami

> matrix(c(5,3,2,17), nrow=2, byrow=TRUE)
     [,1] [,2]
[1,]    5    3
[2,]    2   17
> 
> # Matthews correlation coefficient directly from the Wikipedia formula
> (5*17-3*2) / sqrt((5+3)*(5+2)*(17+3)*(17+2))
[1] 0.5415534
> 
> 
> # Convert this into a long form binary variable and find the correlation coefficient
> conf.m <- data.frame(
+ X1=rep(c(0,1,0,1), c(5,3,2,17)),
+ X2=rep(c(0,0,1,1), c(5,3,2,17)))
> conf.m # what does that look like?
   X1 X2
1   0  0
2   0  0
3   0  0
4   0  0
5   0  0
6   1  0
7   1  0
8   1  0
9   0  1
10  0  1
11  1  1
12  1  1
13  1  1
14  1  1
15  1  1
16  1  1
17  1  1
18  1  1
19  1  1
20  1  1
21  1  1
22  1  1
23  1  1
24  1  1
25  1  1
26  1  1
27  1  1
> cor(conf.m)
          X1        X2
X1 1.0000000 0.5415534
X2 0.5415534 1.0000000
Peter Ellis
źródło
Dzięki, Peter! Matematycznie, dlaczego phi i Mathew są równoważne Pearsonowi dla dwóch binarnych zmiennych losowych?
Tim
Jeśli weźmiesz definicję korelacji Pearsona i manipulujesz nią, aby odnosiła się ona raczej do zliczeń niż do sum różnic między indywidualnymi obserwacjami a średnimi, otrzymasz formułę Matthewsa. Tak naprawdę tego nie zrobiłem, ale musi to być dość proste.
Peter Ellis
2

Po pierwsze wystąpił błąd literowy w pytaniu: to nie ale raczejE[xy]n1n1n2

n11n×1×1+n10n×1×0+n01n×0×1+n00n×0×0=n11n

Po drugie, kluczem do pokazania, że jestρ=ϕ

n11nn1n1=n11(n01+n10+n11+n00)(n11+n10)(n11+n01)=n11n00n10n01
ryan tt
źródło