Niedawno przeczytałem dwa artykuły. Pierwszy dotyczy historii korelacji, a drugi nowej metody o nazwie Maksymalny współczynnik informacyjny (MIC). Potrzebuję twojej pomocy w zrozumieniu metody MIC w celu oszacowania nieliniowych korelacji między zmiennymi.
Ponadto instrukcje dotyczące jego używania w języku R można znaleźć na stronie internetowej autora (w części Pliki do pobrania ):
Mam nadzieję, że będzie to dobra platforma do dyskusji i zrozumienia tej metody. Moim zainteresowaniem jest omówienie intuicji stojącej za tą metodą i sposobu jej rozszerzenia, jak powiedział autor.
„ ... potrzebujemy rozszerzeń MIC (X, Y) do MIC (X, Y | Z). Chcemy wiedzieć, ile danych jest potrzebnych do uzyskania stabilnych oszacowań MIC, jak podatne na wartości odstające, jakie trzy - lub relacje o wyższym wymiarze, za którymi tęskni, i wiele więcej. MIC to wielki krok naprzód, ale jest wiele innych kroków do podjęcia. ”
Odpowiedzi:
Czy to nie znaczy, że zostało to opublikowane w czasopiśmie niestatystycznym, którego nie jesteśmy pewni w statystycznej recenzji? Problem ten został rozwiązany przez Hoeffdinga w 1948 r. (Annals of Mathematical Statistics 19: 546), który opracował prosty algorytm, który nie wymaga binowania ani wielu kroków. Praca Hoeffdinga nie została nawet wspomniana w artykule naukowym. Jest to
hoeffd
funkcja R wHmisc
pakiecie od wielu lat. Oto przykład (wpiszexample(hoeffd)
R):hoeffd
wykorzystuje dość wydajną implementację Fortranta metody Hoeffdinga. Podstawową ideą jego testu jest rozważenie różnicy między połączonymi szeregami X i Y a iloczynem krańcowej rangi X i krańcowej rangi Y, odpowiednio skalowanej.Aktualizacja
Od tego czasu koresponduję z autorami (którzy są bardzo mili, otwarci na inne pomysły i nadal badają swoje metody). Początkowo mieli w rękopisie wzmiankę Hoeffdinga, ale wycięli ją (teraz z żalem) z powodu braku miejsca. Chociaż test Hoeffdinga wydaje się dobrze sprawdzać w wykrywaniu zależności w ich przykładach, nie zapewnia on wskaźnika, który spełnia ich kryteria uporządkowania stopni zależności w sposób, w jaki ludzkie oko jest w stanie to zrobić.re
W nadchodzącym wydaniure | fa( x , y) - G ( x ) H( y) | re
Hmisc
pakietu R dodałem dwa dodatkowe wyjścia związane z , mianowicie średnią i maksktóre są użytecznymi miarami zależności. Jednak te miary, podobnie jak , nie mają właściwości, której poszukiwali twórcy MIC.| F ( x , y ) - G ( x ) H ( y ) | reźródło
Metoda MIC oparta jest na wzajemnej informacji (MI), która określa ilościowo zależność między wspólnym rozkładem X i Y a tym, jaki byłby wspólny rozkład, gdyby X i Y były niezależne (patrz np. Wpis w Wikipedii ). Matematycznie MI jest zdefiniowane jako gdzie jest entropią pojedynczej zmiennej a jest wspólną entropią dwóch zmiennych.
Główną ideą autorów jest zdyskretyzowanie danych na wiele różnych dwuwymiarowych siatek i obliczenie znormalizowanych wyników, które reprezentują wzajemną informację dwóch zmiennych na każdej siatce. Wyniki są znormalizowane, aby zapewnić rzetelne porównanie różnych siatek i wahają się między 0 (nieskorelowane) a 1 (wysokie korelacje).
MIC jest definiowany jako najwyższy uzyskany wynik i jest wskaźnikiem tego, jak silnie skorelowane są dwie zmienne. W rzeczywistości autorzy twierdzą, że dla bezszumowych zależności funkcjonalnych wartości MIC są porównywalne ze współczynnikiem determinacji ( ).R2
źródło
Znalazłem dwa dobre artykuły wyjaśniające bardziej szczegółowo ideę MIC, w szczególności ten ; tutaj drugi .
Z tych odczytów zrozumiałem, że można przybliżyć różne złożoności i skale relacji między dwiema zmiennymi poprzez badanie różnych kombinacji siatek; siatki te służą do podziału dwuwymiarowej przestrzeni na komórki. Wybierając siatkę, która zawiera najwięcej informacji o tym, jak komórki dzielą przestrzeń, wybierasz MIC.
Chciałbym zapytać @mbq, czy mógłby rozwinąć coś, co nazwał „działką-wszystko-wykresy-punktowe-i-szczyt-te-z-największym-białym obszarem” i nierealną złożonością O (M2).
źródło