Jak sprawdzić, czy dwie zmienne ciągłe są niezależne?

48

Załóżmy, że wykonanie badania ze wspólnego podziału i . Jak przetestować hipotezę, że i są niezależne ?X Y X Y(Xn,Yn),n=1..NXYXY

Nie przyjmuje się żadnych założeń dotyczących wspólnych lub marginalnych praw rozkładu i (co najmniej całej wspólnej normalności, ponieważ w tym przypadku niezależność jest identyczna z korelacją równą ).Y 0XY0

Nie zakłada się natury możliwej relacji między i ; może być nieliniowy, więc zmienne są nieskorelowane ( ), ale wysoce współzależne ( ).Y r = 0 I = HXYr=0I=H

Widzę dwa podejścia:

  1. Bin obie zmienne i wykorzystanie dokładny test Fishera lub G-test .

    • Pro: użyj sprawdzonych testów statystycznych
    • Con: zależy od binowania
  2. Oszacowanie zależności od i : (to jest do niezależnego i i , gdy całkowicie określenia siebie).Y I ( X ; Y )XYI(X;Y)H(X,Y)XY10XY1

    • Pro: tworzy liczbę o wyraźnym znaczeniu teoretycznym
    • Con: zależy od przybliżonego obliczenia entropii (tj. Binowania ponownie)

Czy te podejścia mają sens?

Jakie inne metody stosują ludzie?

sds
źródło
3
Spójrz na korelację odległości .
Ray Koopman
@RayKoopman: dzięki, teraz czytam Pomiar i testowanie zależności przez korelację odległości !
sds
1
zależność nie ma sensu, gdy mówimy o zmiennych ciągłych. Zmienne ciągłe mają nieskończoną entropię. W tym przypadku nie można zastąpić entropią różnicową, ponieważ entropia różnicowa nie jest porównywalna z wzajemną informacją. Natomiast wzajemna informacja ma „absolutną”, co oznacza, entropia różnica może być dodatni, zero lub nawet ujemny, w zależności od urządzeń służących do pomiaru zmiennych i . H X YI(X;Y)/H(X;Y)HXY
fonini,
@fonini: oczywiście mówiłem o zmiennych binned. Dziękuję za twój komentarz.
sds

Odpowiedzi:

27

Jest to ogólnie bardzo trudny problem, chociaż twoje zmienne są najwyraźniej tylko 1d, więc to pomaga. Oczywiście pierwszym krokiem (jeśli to możliwe) powinno być wykreślenie danych i sprawdzenie, czy coś cię nie wyskoczy; jesteś w 2d, więc powinno to być łatwe.

Oto kilka podejść, które działają w lub nawet bardziej ogólnych ustawieniach:Rn

Dougal
źródło
Czy możesz krótko wspomnieć, w jaki sposób te podejścia różnią się od Korelacji odległości ? Używam DC do przesiewania dużych zestawów danych (cóż, duże dla mnie), więc jestem zainteresowany wszelkimi komentarzami, które możesz mieć. Dzięki!
pteetor,
1
@pteetor To ciekawe, wcześniej nie natrafiłem na korelację odległości. Obliczeniowo wydaje się droższy niż metoda szacowania entropii dla dużych próbek, ponieważ potrzebujesz macierzy pełnej odległości (gdzie w przypadku estymatorów entropii można użyć wskaźników, aby uzyskać tylko pierwszych ksąsiadów). Nie mam pojęcia, jak to się porównuje pod względem siły statystycznej / itp.
Dougal
4
Dla późniejszych czytelników: artykuł z 2013 r. Równoważność statystyk opartych na odległości i RKHS w testowaniu hipotez Sejdinovic i in. pokazuje, że korelacja odległości i inne odległości energii są szczególnymi przypadkami MMD, miarą leżącą u podstaw HSIC, i omawia związek w kategoriach mocy testowej i tak dalej.
Dougal
18

H0:H(x,y)=F(x)G(y)Hmischoeffd

Frank Harrell
źródło
6

Co powiesz na ten artykuł:

http://arxiv.org/pdf/0803.4101.pdf

„Pomiar i testowanie zależności przez korelację odległości”. Székely i Bakirov zawsze mają ciekawe rzeczy.

Istnieje kod Matlab do implementacji:

http://www.mathworks.com/matlabcentral/fileexchange/39905-distance-correlation

Jeśli znajdziesz inny (prosty do wdrożenia) test na niezależność, daj nam znać.

JLp
źródło
2
Witamy na stronie @JLp. Mamy nadzieję zbudować trwałe repozytorium wysokiej jakości informacji statystycznych w formie pytań i odpowiedzi. Dlatego martwi nas linkrot. Mając to na uwadze, czy mógłbyś podać podsumowanie tego, co jest w tym dokumencie / jak odpowiada na pytania, na wypadek gdyby link zniknął. Pomoże również przyszłym czytelnikom tego wątku zdecydować, czy chcą poświęcić czas na przeczytanie artykułu.
gung - Przywróć Monikę
@gung: to samo co energia
sds
5

Związek między odległością kowariancji a testami jądra (opartymi na kryterium niezależności Hilberta-Schmidta) podano w pracy:

Sejdinovic, D., Sriperumbudur, B., Gretton, A., i Fukumizu, K., Równoważność statystyk opartych na odległości i RKHS w testowaniu hipotez, Annals of Statistics, 41 (5), str. 2263-2702, 2013

Wykazano, że kowariancja odległości jest szczególnym przypadkiem statystyki jądra dla konkretnej rodziny jąder.

Jeśli zamierzasz korzystać z wzajemnych informacji, test oparty na podzielonym oszacowaniu MI to:

Gretton, A. i Gyorfi, L., Spójne nieparametryczne testy niezależności, Journal of Machine Learning Research, 11, ss.1131--1423, 2010.

Jeśli chcesz uzyskać najlepszą moc testową, lepiej skorzystaj z testów jądra, niż binowania i wzajemnych informacji.

To powiedziawszy, biorąc pod uwagę, że twoje zmienne są jednowymiarowe, klasyczne nieparametryczne testy niezależności, takie jak Hoeffdinga, są prawdopodobnie w porządku.

Arthur Gretton
źródło
4

Rzadko (nigdy?) W statystykach możesz wykazać, że twoja przykładowa statystyka = wartość punktowa. Możesz przetestować wartości punktowe i albo je wykluczyć, albo nie. Ale natura statystyki polega na tym, że chodzi o badanie zmiennych danych. Ponieważ zawsze istnieje rozbieżność, niekoniecznie nie będzie sposobu, aby dowiedzieć się, że coś nie jest ze sobą powiązane, normalne, gaussowskie itp. Możesz poznać tylko zakres wartości. Możesz wiedzieć, czy wartość jest wykluczona z zakresu wiarygodnych wartości. Na przykład łatwo jest wykluczyć brak relacji i podać zakres wartości określających wielkość relacji.

Dlatego też, próbując wykazać brak związku, w zasadzie wartość punktowa nie odniesie relationship = 0sukcesu. Jeśli masz szereg miar relacji, które są akceptowalne jako około 0. Wtedy byłoby możliwe opracowanie testu.

Zakładając, że możesz zaakceptować to ograniczenie, byłoby pomocne dla osób próbujących pomóc ci w dostarczeniu wykresu rozrzutu z krzywą mniejszej wartości. Ponieważ szukasz rozwiązań R, spróbuj:

scatter.smooth(x, y)

W oparciu o ograniczone informacje, które do tej pory podałeś, uważam, że uogólniony model dodatku może być najlepszą rzeczą do testowania nie-niezależności. Jeśli spiszesz to z CI wokół przewidywanych wartości, możesz być w stanie wypowiedzieć się na temat przekonania o niezależności. Sprawdź gamw pakiecie mgcv. Pomoc jest całkiem dobra i tutaj jest pomoc dotycząca CI .

Jan
źródło
2

To może być interesujące ...

Garcia, JE; Gonzalez-Lopez, VA (2014) Testy niezależności dla ciągłych zmiennych losowych w oparciu o najdłuższe wzrastające podsekwencje. Journal of Multivariate Analysis, v. 127 s. 126–146.

http://www.sciencedirect.com/science/article/pii/S0047259X14000335

użytkownik78122
źródło
2
Ten post skorzystałby z bardziej szczegółowych informacji na temat tego, co jest w artykule, zwłaszcza, że ​​znajduje się za zaporą.
Erik