Czy algorytm MIC do wykrywania korelacji nieliniowych można wyjaśnić intuicyjnie?

20

Niedawno przeczytałem dwa artykuły. Pierwszy dotyczy historii korelacji, a drugi nowej metody o nazwie Maksymalny współczynnik informacyjny (MIC). Potrzebuję twojej pomocy w zrozumieniu metody MIC w celu oszacowania nieliniowych korelacji między zmiennymi.

Ponadto instrukcje dotyczące jego używania w języku R można znaleźć na stronie internetowej autora (w części Pliki do pobrania ):

Mam nadzieję, że będzie to dobra platforma do dyskusji i zrozumienia tej metody. Moim zainteresowaniem jest omówienie intuicji stojącej za tą metodą i sposobu jej rozszerzenia, jak powiedział autor.

... potrzebujemy rozszerzeń MIC (X, Y) do MIC (X, Y | Z). Chcemy wiedzieć, ile danych jest potrzebnych do uzyskania stabilnych oszacowań MIC, jak podatne na wartości odstające, jakie trzy - lub relacje o wyższym wymiarze, za którymi tęskni, i wiele więcej. MIC to wielki krok naprzód, ale jest wiele innych kroków do podjęcia.

Biostat
źródło
Pytanie jest interesujące, ale myślę, że nie można na nie odpowiedzieć. Czy możesz to sprecyzować?
mpiktas,
3
Dyskusję utrudni fakt, że artykuł w Science nie jest otwarty.
Itamar,
7
Oto kopia artykułu wyzwolona przez jednego z autorów.
10
W skrócie, MIC jest wykopaliskiem starej idei „wykresów-wszystkich-wykresów-punktowych-i-szczytowych-z-największym-białym obszarem”, więc generuje głównie fałszywie dodatnie, ma nierealną złożoność (których autorzy kryją się za heurystyczną parą tylko wybranych losowo wybranych par) i w projekcie brakuje wszystkich trzech i więcej zmiennych interakcji. O(M2)
4
Aby uzyskać szczegółowe informacje techniczne na temat MIC, pomocniczy materiał online jest bardziej pouczający niż sam artykuł.
res

Odpowiedzi:

22

Czy to nie znaczy, że zostało to opublikowane w czasopiśmie niestatystycznym, którego nie jesteśmy pewni w statystycznej recenzji? Problem ten został rozwiązany przez Hoeffdinga w 1948 r. (Annals of Mathematical Statistics 19: 546), który opracował prosty algorytm, który nie wymaga binowania ani wielu kroków. Praca Hoeffdinga nie została nawet wspomniana w artykule naukowym. Jest to hoeffdfunkcja R w Hmiscpakiecie od wielu lat. Oto przykład (wpisz example(hoeffd)R):

# Hoeffding's test can detect even one-to-many dependency
set.seed(1)
x <- seq(-10,10,length=200)
y <- x*sign(runif(200,-1,1))
plot(x,y)  # an X
hoeffd(x,y)  # also accepts a numeric matrix

D
     x    y
x 1.00 0.06
y 0.06 1.00

n= 200 

P
  x  y 
x     0   # P-value is very small
y  0   

hoeffdwykorzystuje dość wydajną implementację Fortranta metody Hoeffdinga. Podstawową ideą jego testu jest rozważenie różnicy między połączonymi szeregami X i Y a iloczynem krańcowej rangi X i krańcowej rangi Y, odpowiednio skalowanej.

Aktualizacja

Od tego czasu koresponduję z autorami (którzy są bardzo mili, otwarci na inne pomysły i nadal badają swoje metody). Początkowo mieli w rękopisie wzmiankę Hoeffdinga, ale wycięli ją (teraz z żalem) z powodu braku miejsca. Chociaż test Hoeffdinga wydaje się dobrze sprawdzać w wykrywaniu zależności w ich przykładach, nie zapewnia on wskaźnika, który spełnia ich kryteria uporządkowania stopni zależności w sposób, w jaki ludzkie oko jest w stanie to zrobić.D

W nadchodzącym wydaniu Hmiscpakietu R dodałem dwa dodatkowe wyjścia związane z , mianowicie średnią i maksktóre są użytecznymi miarami zależności. Jednak te miary, podobnie jak , nie mają właściwości, której poszukiwali twórcy MIC.| F ( x , y ) - G ( x ) H ( y ) | reD|F(x,y)G(x)H(y)|D

Frank Harrell
źródło
6
(+1) Artykuł Hoeffdinga jest dostępny online.
res
1
Niezłe znalezisko. Być może warto zwrócić uwagę na naukę porównując wyniki Hoeffdinga z ich wynikami. Szkoda, że ​​wiele dobrych studiów (z wielu dziedzin) z lat 50. zostało zapomnianych na przestrzeni lat.
Itamar,
6

Metoda MIC oparta jest na wzajemnej informacji (MI), która określa ilościowo zależność między wspólnym rozkładem X i Y a tym, jaki byłby wspólny rozkład, gdyby X i Y były niezależne (patrz np. Wpis w Wikipedii ). Matematycznie MI jest zdefiniowane jako gdzie jest entropią pojedynczej zmiennej a jest wspólną entropią dwóch zmiennych.

MI=H(X)+H(Y)H(X,Y)
H(X)=ip(zi)logp(zi)
H(X,Y)=i,jp(xi,yj)logp(xi,yj)

Główną ideą autorów jest zdyskretyzowanie danych na wiele różnych dwuwymiarowych siatek i obliczenie znormalizowanych wyników, które reprezentują wzajemną informację dwóch zmiennych na każdej siatce. Wyniki są znormalizowane, aby zapewnić rzetelne porównanie różnych siatek i wahają się między 0 (nieskorelowane) a 1 (wysokie korelacje).

MIC jest definiowany jako najwyższy uzyskany wynik i jest wskaźnikiem tego, jak silnie skorelowane są dwie zmienne. W rzeczywistości autorzy twierdzą, że dla bezszumowych zależności funkcjonalnych wartości MIC są porównywalne ze współczynnikiem determinacji ( ).R2

Itamar
źródło
3

Znalazłem dwa dobre artykuły wyjaśniające bardziej szczegółowo ideę MIC, w szczególności ten ; tutaj drugi .

Z tych odczytów zrozumiałem, że można przybliżyć różne złożoności i skale relacji między dwiema zmiennymi poprzez badanie różnych kombinacji siatek; siatki te służą do podziału dwuwymiarowej przestrzeni na komórki. Wybierając siatkę, która zawiera najwięcej informacji o tym, jak komórki dzielą przestrzeń, wybierasz MIC.

Chciałbym zapytać @mbq, czy mógłby rozwinąć coś, co nazwał „działką-wszystko-wykresy-punktowe-i-szczyt-te-z-największym-białym obszarem” i nierealną złożonością O (M2).

pedrosaurio
źródło
4
Martwię się o każdą metodę statystyczną, która wykorzystuje binowanie.
Frank Harrell,
@FrankHarrell Czy możesz podać referencje lub intuicję, które szczegółowo wyjaśniają, dlaczego binowanie jest złe? Intuicyjnie widzę, że w zasadzie wyrzucasz informacje z powodu binowania, ale musi być więcej powodów, dla których?
Kiran K.
Istnieje zbyt wiele odniesień, aby wiedzieć, od czego zacząć. Żadna metoda statystyczna oparta na binowaniu ostatecznie nie przetrwała. Arbitraż jest jednym z wielu problemów.
Frank Harrell,
@FrankHarrell Doceń komentarz. Powód, dla którego poprosiłem o referencje, to jestem doktorantem i studiuję obecnie koncepcje zależności i wielowymiarowej zależności. Chciałbym przeczytać te artykuły i zacytować je w swoich własnych pracach w przyszłości. Jeśli mógłbyś wymienić jeden lub dwa wybitne, jestem pewien, że znajdę pozostałe, o których wspominasz. Zrobię też kopanie i zamieszczam referencje tutaj, jeśli znajdę dobre.
Kiran K.
Zacznij od citeulike.org/user/harrelfe/article/13265458, a następnie zobacz inne informacje na temat dychotomizacji na biostat.mc.vanderbilt.edu/CatContinuous . Na ogólną zależność, która nie wymaga żadnego binningu, nie przegap citeulike.org/user/harrelfe/article/13264312
Frank Harrell