Wykorzystanie wzajemnych informacji do oszacowania korelacji między zmienną ciągłą a zmienną kategorialną

Jeśli chodzi o tytuł, chodzi o wykorzystanie wzajemnej informacji, tu i po MI, do oszacowania „korelacji” (zdefiniowanej jako „ile wiem o A, gdy znam B”) między zmienną ciągłą a zmienną kategorialną. Za chwilę opowiem o moich przemyśleniach na ten temat, ale zanim doradzę, przeczytajcie inne pytanie / odpowiedź na CrossValidated, ponieważ zawiera ona przydatne informacje.

Ponieważ nie możemy zintegrować zmiennej zmiennej kategorialnej, musimy dyskretyzować zmienną ciągłą. Można to zrobić dość łatwo w języku R, który jest językiem, w którym przeprowadziłem większość moich analiz. Wolałem korzystać z tej cutfunkcji, ponieważ alias również zawiera wartości, ale dostępne są również inne opcje. Chodzi o to, że zanim będzie można dokonać jakiejkolwiek dyskretyzacji, należy z góry ustalić liczbę „przedziałów” (stanów dyskretnych).

Główny problem jest jednak inny: MI waha się od 0 do ∞, ponieważ jest to niestandardowa miara, która jednostka jest bitem. To bardzo utrudnia wykorzystanie go jako współczynnika korelacji. Można to częściowo rozwiązać za pomocą globalnego współczynnika korelacji , tu i po GCC, który jest znormalizowaną wersją MI; GCC jest zdefiniowane następująco:

wprowadź opis zdjęcia tutaj

Odniesienie: wzór pochodzi z Mutual Information jako nieliniowego narzędzia do analizy globalizacji rynku akcji, autorstwa Andrei Dionísio, Rui Menezes i Diana Mendes, 2010.

GCC waha się od 0 do 1, a zatem może być łatwo wykorzystane do oszacowania korelacji między dwiema zmiennymi. Problem rozwiązany, prawda? Cóż, w pewnym sensie. Ponieważ cały ten proces zależy w dużej mierze od liczby „pojemników”, które zdecydowaliśmy się zastosować podczas dyskretyzacji. Oto wyniki moich eksperymentów:

wprowadź opis zdjęcia tutaj

Na osi Y masz GCC, a na osi X masz liczbę „pojemników”, które postanowiłem zastosować w celu dyskretyzacji. Dwie linie odnoszą się do dwóch różnych analiz, które przeprowadziłem na dwóch różnych (choć bardzo podobnych) zestawach danych.

Wydaje mi się, że stosowanie MI w ogóle, aw szczególności GCC, jest nadal kontrowersyjne. Jednak to zamieszanie może być wynikiem pomyłki z mojej strony. Tak czy inaczej, chciałbym usłyszeć twoją opinię w tej sprawie (czy masz alternatywne metody oszacowania korelacji między zmienną kategoryczną a zmienną ciągłą?).

correlation information-theory mutual-information Edgar Derby
źródło

Nie mogę wypowiedzieć się na temat obliczania wzajemnych informacji dla wspólnego rozkładu zmiennych ciągłych i dyskretnych, ale mogę zasugerować, że efekt binowania powinien zostać wyeliminowany, jeśli wyliczysz znormalizowany wariant wzajemnej informacji. Zazwyczaj jeden znormalizowany przez sumę entropii lub przez wspólną entropię. Suma entropii jest nieco lepsza, ponieważ .

H (X_{i}, X_{j}) \leq H (X_{i}) + H (X_{j})

$H(X_i, X_j) \leq H(X_i) + H(X_j)$

Jessica Collins

BTW, oto kod na wypadek, gdyby ktoś chciał wypróbować metodę binowania.

zkurtz

Nie szacujesz „korelacji”. Szacujesz wzajemne informacje. Jedno nie ocenia drugiego; są odrębnymi miernikami bardziej ogólnej koncepcji stowarzyszenia .

zkurtz

Być może lepszym tytułem tego postu jest „Jak najlepiej bin ciągłą zmienną, aby oszacować jej wzajemne informacje za pomocą zmiennej kategorialnej?”

zkurtz

Oto interesujące podejście bez binowania. Niestety nie mogę znaleźć implementacji R.

zkurtz

Odpowiedzi:

Istnieje prostszy i lepszy sposób radzenia sobie z tym problemem. Zmienna kategoryczna jest w rzeczywistości tylko zbiorem zmiennych wskaźnikowych. Podstawową ideą teorii pomiaru jest to, że taka zmienna jest niezmienna w przypadku ponownego etykietowania kategorii, więc nie ma sensu stosowanie numerycznego oznaczania kategorii w żadnej miary związku między inną zmienną (np. „Korelacja”) . Z tego powodu pomiar zależności między zmienną ciągłą a zmienną kategorialną powinien opierać się całkowicie na zmiennych wskaźnikowych pochodzących z tej ostatniej.

Biorąc pod uwagę, że potrzebna jest miara „korelacji” między dwiema zmiennymi, warto spojrzeć na korelację między ciągłą zmienną losową a losową zmienną wskaźnikową wyprowadzoną ze zmiennej kategorialnej. Pozwalając mamy: $X$ $I$ $\phi \equiv \mathbb{P}(I=1)$

C o v (I, X) = E (I X) - E (I) E (X) = ϕ [E (X | I = 1) - E (X)],

$\mathbb{Cov}(I,X) = \mathbb{E}(IX) - \mathbb{E}(I) \mathbb{E}(X) = \phi \left[ \mathbb{E}(X|I=1) - \mathbb{E}(X) \right] ,$

co daje:

C o r r (I, X) = \sqrt{\frac{ϕ}{1 - ϕ}} \cdot \frac{E (X | I = 1) - E (X)}{S (X)} .

$\mathbb{Corr}(I,X) = \sqrt{\frac{\phi}{1-\phi}} \cdot \frac{\mathbb{E}(X|I=1) - \mathbb{E}(X)}{\mathbb{S}(X)} .$

Tak więc korelacja między ciągłą zmienną losową a losową zmienną wskaźnikową jest dość prostą funkcją prawdopodobieństwa wskaźnika i znormalizowanego przyrostu oczekiwanej wartości z warunkowania na . Zauważ, że ta korelacja nie wymaga dyskretyzacji ciągłej zmiennej losowej. $X$ $I$ $\phi$ $X$ $I=1$

W przypadku ogólnej zmiennej kategorialnej z zakresem wystarczy rozszerzyć ten pomysł, aby uzyskać wektor wartości korelacji dla każdego wyniku zmiennej kategorialnej. Dla każdego wyniku możemy zdefiniować odpowiedni wskaźnik i mamy: $C$ $1, ..., m$ $C=k$ $I_k \equiv \mathbb{I}(C=k)$

C o r r (I_{k}, X) = \sqrt{\frac{ϕ_{k}}{1 - ϕ_{k}}} \cdot \frac{E (X | C = k) - E (X)}{S (X)} .

$\mathbb{Corr}(I_k,X) = \sqrt{\frac{\phi_k}{1-\phi_k}} \cdot \frac{\mathbb{E}(X|C=k) - \mathbb{E}(X)}{\mathbb{S}(X)} .$

Następnie możemy zdefiniować jako wektor wartości korelacji dla każda kategoria jakościowej zmiennej losowej. To naprawdę jedyny sens, w którym sensowne jest mówienie o „korelacji” dla jakościowej zmiennej losowej. $\mathbb{Corr}(C,X) \equiv (\mathbb{Corr}(I_1,X), ..., \mathbb{Corr}(I_m,X))$

( Uwaga: trywialne jest wykazanie, że a więc wektor korelacji dla zmiennej losowej podlega temu ograniczeniu. Oznacza to, że biorąc pod uwagę znajomość wektora prawdopodobieństwa dla losowa zmienna kategorialna i odchylenie standardowe można uzyskać wektor z dowolnego jego elementów.) $\sum_k \mathbb{Cov}(I_k,X) = 0$ $X$ $m-1$

Powyższe przedstawienie dotyczy prawdziwych wartości korelacji, ale oczywiście należy je oszacować w ramach danej analizy. Oszacowanie korelacji wskaźników na podstawie danych z próbki jest proste i można tego dokonać poprzez zastąpienie odpowiednich oszacowań dla każdej części. (Jeśli wolisz, możesz zastosować bardziej metody szacowania.) Biorąc pod uwagę przykładowe dane możemy oszacować części równania korelacji jako: $(x_1, c_1), ..., (x_n, c_n)$

{\hat{ϕ}}_{k} \equiv \frac{1}{n} \sum_{i = 1}^{n} I (c_{i} = k) .

$\hat{\phi}_k \equiv \frac{1}{n} \sum_{i=1}^n \mathbb{I}(c_i=k).$

\hat{E} (X) \equiv \bar{x} \equiv \frac{1}{n} \sum_{i = 1}^{n} x_{i} .

$\hat{\mathbb{E}}(X) \equiv \bar{x} \equiv \frac{1}{n} \sum_{i=1}^n x_i.$

\hat{E} (X | C = k) \equiv {\bar{x}}_{k} \equiv \frac{1}{n} \sum_{i = 1}^{n} x_{i} I (c_{i} = k) / {\hat{ϕ}}_{k} .

$\hat{\mathbb{E}}(X|C=k) \equiv \bar{x}_k \equiv \frac{1}{n} \sum_{i=1}^n x_i \mathbb{I}(c_i=k) \Bigg/ \hat{\phi}_k .$

\hat{S} (X) \equiv s_{X} \equiv \sqrt{\frac{1}{n - 1} \sum_{i = 1}^{n} (x_{i} - \bar{x})^{2}} .

$\hat{\mathbb{S}}(X) \equiv s_X \equiv \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2}.$

Podstawienie tych oszacowań dałoby podstawowe oszacowanie wektora korelacji. Jeśli masz informacje parametryczne na temat możesz oszacować wektor korelacji bezpośrednio na podstawie maksymalnego prawdopodobieństwa lub innej techniki. $X$

Ben - Przywróć Monikę
źródło