Pomiar zależności nieliniowej

11

Kowariancja między dwiema zmiennymi losowymi określa miarę, jak blisko są one liniowo ze sobą powiązane. Ale co, jeśli rozkład stawów jest okrągły? Na pewno jest struktura w dystrybucji. Jak wyodrębnia się tę strukturę?

Nieskończoność
źródło

Odpowiedzi:

8

Przez „kołowy” rozumiem, że rozkład jest skoncentrowany na okrągłym obszarze, jak na tym wykresie konturowym pliku pdf.

Wykres konturowy rozkładu kołowego

Jeśli taka struktura istnieje, nawet częściowo, naturalnym sposobem jej identyfikacji i pomiaru jest uśrednienie rozkładu kołowego wokół jej środka . (Intuicyjnie oznacza to, że dla każdego możliwego promienia należy rozłożyć prawdopodobieństwo bycia w odległości od centrum jednakowo wokół we wszystkich kierunkach.) Oznaczając zmienne jako , środek musi znajdować się w punkcie pierwsze chwile . Aby wykonać uśrednianie, wygodnie jest zdefiniować funkcję rozkładu promieniowegor ( X , Y ) ( μ X , μ Y )rr(X,Y)(μX,μY)

F ( ρ ) = 0 , ρ < 0.

F(ρ)=Pr[(XμX)2+(YμY)2ρ2],ρ0;
F(ρ)=0,ρ<0.

Ten wychwytuje całkowite prawdopodobieństwo leżącej między odległością i centrum. Rozprzestrzeniać się na wszystkie strony, pozwalają jest zmienną losową o ED a być jednolity zmienną losową o , niezależnie od . Dwuwymiarowe zmiennej losowej jest okrągły średnia z . (Wykonuje to naszą wymaganą przez intuicję „średnią kołową”, ponieważ (a) ma prawidłowy rozkład promieniowy, a mianowicie , według budowy, i (b) we wszystkich kierunkach od centrum (ρ R F Θ [ 0 , 2 π ] R ( Ξ , H ) = ( R cos ( Θ ) + μ X , R sin ( Θ ) + μ Y ) ( X , Y ) F Θ0ρRFΘ[0,2π]R(Ξ,H)=(Rcos(Θ)+μX,Rsin(Θ)+μY)(X,Y)FΘ) są równie prawdopodobne).

W tym momencie masz wiele możliwości: Pozostaje porównać rozkład do tego z . Możliwości obejmują odległość i dywergencję Kullbacka-Leiblera (wraz z niezliczonymi miarami odległości: symetryczną dywergencją, odległości Hellingera, wzajemną informacją itp .). Porównanie sugeruje, że może mieć kołową strukturę, gdy jest „blisko” do . W tym przypadku struktura może być „ekstrakcji” od właściwości . Na przykład miara centralnej lokalizacji , taka jak jej średnia lub mediana, identyfikuje „promień” rozkładu( Ξ , H ) L p ( X , Y ) ( Ξ , H ) F F ( X , Y ) F ( X , Y ) ( μ X , μ Y )(X,Y)(Ξ,H)Lp(X,Y)(Ξ,H)FF(X,Y) , a odchylenie standardowe (lub inna miara skali) wyraża, w jaki sposób „rozkładają się” w promieniowych kierunkach wokół ich położenia centralnego .F(X,Y)(μX,μY)

Podczas próbkowania z rozkładu, z danymi , rozsądnym testem okrągłości jest oszacowanie centralnej lokalizacji jak zwykle (za pomocą średnich lub median), a następnie konwersja każdej wartości na współrzędne biegunowe stosunku do tego oszacowanego środka. Porównaj odchylenie standardowe (lub IQR) promieni od ich średniej (lub mediany). W przypadku rozkładów nieokrągłych stosunek będzie duży; dla rozkładów kołowych powinien być stosunkowo mały. (Jeśli masz na uwadze konkretny model rozkładu podstawowego, możesz opracować rozkład próbkowania statystyki radialnej i zbudować z nim test istotności.) Osobno przetestuj współrzędną kątową pod kątem jednorodności w przedziale( x i , y i ) ( r i , θ i )(xi,yi),1in(xi,yi)(ri,θi)[0,2π) . Będzie w przybliżeniu jednakowy dla rozkładów kołowych (a także dla niektórych innych rozkładów); niejednorodność wskazuje na odejście od okrągłości.

Whuber
źródło
1
Dziękuję Ci! Chociaż nie do końca jasne, daje mi to pewien pomysł. Czy mógłbyś polecić trochę lektury, w której omawiane są tego rodzaju dystrybucje? Byłem narażony tylko na Gaussian i inne standardowe rozkłady. Kolejne pytanie, czy ma to coś wspólnego z funkcjami rozkładu promieniowego atomów itp.?
Nieskończoność
1
@Infinity Daj mi znać, która część nie jest jasna, abym mógł spróbować to naprawić. Nie wiem, gdzie omawiane są takie rozkłady, ale pokrewną analizę można znaleźć w literaturze na temat „rozkładów kołowych”. Podstawowe idee matematyczne są rzeczywiście nieco związane z teorią atomowej orbity. Odpowiednie koncepcje obejmują rozdzielność równania Schrodingera we współrzędnych sferycznych, konstruowanie miary Haar zwartej grupy Liego poprzez uśrednianie i porównywanie orbitali za pomocą całek zachodzących na siebie.
whuber
Dzięki. Jestem bardzo nowy w prawdopodobieństwie i statystykach, więc prawdopodobnie z tego powodu. Naprawdę nie rozumiem, co masz na myśli przez „uśrednienie rozkładu kołowego wokół jego środka”, myślę, że oznacza to uśrednienie wszystkich okręgów, aby pozostało tylko jedno koło ze środkiem w i promieniem jak dopasowanie linii regresji liniowej. Czy to jest poprawne? ρ(μX,μY)ρ
Infinity
Drugą wątpliwość, jaką mam, jest to, że funkcja dystrybucji wydaje się opisywać dysk, ale postać (i to, co miałem na myśli) jest pierścieniem. Zmienna losowa opisuje średnie koło w formie biegunowej. Przykro mi, ale nie rozumiem, co będzie dalej. Rozumiem, że porównujemy te dwie dystrybucje za pomocą pewnej miary odległości, ale dlaczego jest to specjalne i jak to pomaga, nie jestem w stanie zrozumieć. Przykro mi, jeśli pytania wydają się zbyt głupie. ( Ξ , H ) ( Ξ , H )F(ρ)(Ξ,H)(Ξ,H)
Nieskończoność
1
@Infinity Dodałem kilka uwag wyjaśniających. Nie uśredniasz kręgów; raczej uśredniasz (lub „rozmazujesz”) całe prawdopodobieństwo w każdym okręgu, tak że bez względu na to, od czego zacząłeś, ostatecznie wygląda jak moje zdjęcie (z okrągłymi konturami). Jeśli pierwotna dystrybucja była naprawdę okrągła, to uśrednianie jej nie zmienia. Zatem porównanie dystrybucji z jej uśrednioną wersją pokazuje, jak daleko jest ona od okrągłości.
whuber
5

Wzajemna informacja ma właściwości nieco analogiczne do kowariancji. Kowariancja jest liczbą 0 dla zmiennych niezależnych i niezerową dla zmiennych zależnych liniowo. W szczególności, jeśli dwie zmienne są takie same, kowariancja jest równa wariancji (która zwykle jest liczbą dodatnią). Jednym z problemów z kowariancją jest to, że może wynosić zero, nawet jeśli dwie zmienne nie są niezależne, pod warunkiem, że zależność jest nieliniowa.

Wzajemna informacja (MI) jest liczbą nieujemną. Jest zerowy wtedy i tylko wtedy, gdy dwie zmienne są statystycznie niezależne. Ta właściwość jest bardziej ogólna niż kowariancja i obejmuje wszelkie zależności, w tym nieliniowe.

Jeśli dwie zmienne są takie same, MI jest równe entropii zmiennej (ponownie, zwykle liczba dodatnia). Jeśli zmienne są różne i nie są deterministycznie powiązane, wówczas MI jest mniejsze niż entropia. W tym sensie MI dwóch zmiennych mieści się w przedziale od 0 do H (entropia), przy czym 0 tylko jeśli jest niezależny, a H tylko jeśli jest deterministycznie zależny.

Jedną z różnic w stosunku do kowariancji jest to, że „znak” zależności jest ignorowany. Np. , ale .M I ( X , - X ) = M I ( X , X ) = H ( X )Cov(X,X)=Cov(X,X)=Var(X)MI(X,X)=MI(X,X)=H(X)

Sheldon Cooper
źródło
4
Czy możesz rozwinąć sposób, w jaki ta koncepcja stanowi odpowiedź na pytanie?
onestop
3

Proszę spojrzeć na następujący artykuł z nauki - dokładnie odnosi się do twojego punktu:

Wykrywanie nowych powiązań w dużych zbiorach danych David N. Reshef i in.

Z streszczenia:

Identyfikacja interesujących związków między parami zmiennych w dużych zestawach danych jest coraz ważniejsza. Tutaj przedstawiamy miarę zależności dla dwóch zmiennych: maksymalny współczynnik informacji (MIC). MIC przechwytuje szeroki zakres asocjacji zarówno funkcjonalnych, jak i nie, a dla związków funkcjonalnych zapewnia wynik, który w przybliżeniu równa jest współczynnikowi określania (R ^ 2) danych względem funkcji regresji. MIC należy do większej klasy maksymalnych opartych na informacji statystyk badań nieparametrycznych (MINE) do identyfikacji i klasyfikacji relacji. Stosujemy MIC i MINE do zbiorów danych dotyczących zdrowia na całym świecie, ekspresji genów, baseballu z głównych lig oraz mikroflory jelitowej człowieka i identyfikujemy znane i nowe relacje.

Dodatkowe materiały można znaleźć tutaj: http://www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1

Autorzy udostępniają nawet bezpłatne narzędzie zawierające nowatorską metodę, która może być używana z R i Python: http://www.exploredata.net/

vonjd
źródło