Załóżmy, że wykonanie badania ze wspólnego podziału i . Jak przetestować hipotezę, że i są niezależne ?X Y X Y
Nie przyjmuje się żadnych założeń dotyczących wspólnych lub marginalnych praw rozkładu i (co najmniej całej wspólnej normalności, ponieważ w tym przypadku niezależność jest identyczna z korelacją równą ).Y 0
Nie zakłada się natury możliwej relacji między i ; może być nieliniowy, więc zmienne są nieskorelowane ( ), ale wysoce współzależne ( ).Y r = 0 I = H
Widzę dwa podejścia:
Bin obie zmienne i wykorzystanie dokładny test Fishera lub G-test .
- Pro: użyj sprawdzonych testów statystycznych
- Con: zależy od binowania
Oszacowanie zależności od i : (to jest do niezależnego i i , gdy całkowicie określenia siebie).Y I ( X ; Y )XY1
- Pro: tworzy liczbę o wyraźnym znaczeniu teoretycznym
- Con: zależy od przybliżonego obliczenia entropii (tj. Binowania ponownie)
Czy te podejścia mają sens?
Jakie inne metody stosują ludzie?
Odpowiedzi:
Jest to ogólnie bardzo trudny problem, chociaż twoje zmienne są najwyraźniej tylko 1d, więc to pomaga. Oczywiście pierwszym krokiem (jeśli to możliwe) powinno być wykreślenie danych i sprawdzenie, czy coś cię nie wyskoczy; jesteś w 2d, więc powinno to być łatwe.
Oto kilka podejść, które działają w lub nawet bardziej ogólnych ustawieniach:Rn
Jak wspomniałeś, oszacuj wzajemne informacje za pomocą entropii. To może być Twoja najlepsza opcja; estymatory oparte na najbliższych sąsiadach radzą sobie dobrze w małych wymiarach, a nawet histogramy nie są straszne w 2D. Jeśli martwisz się błędem oszacowania, ten estymator jest prosty i daje ci granice skończonej próby (większość innych wykazuje tylko właściwości asymptotyczne):
Alternatywnie istnieją podobne bezpośrednie estymatory dla wzajemnej informacji, np
Kryterium niezależności Hilberta-Schmidta: podejście oparte na jądrze (w sensie RKHS, nie KDE).
Podejście Schweizera-Wolffa: oparte na transformacjach kopuły, a więc niezmienne dla monotonicznych transformacji rosnących. Nie znam go zbyt dobrze, ale myślę, że jest on obliczeniowo prostszy, ale może też mniej wydajny.
źródło
k
sąsiadów). Nie mam pojęcia, jak to się porównuje pod względem siły statystycznej / itp.Hmisc
hoeffd
źródło
Co powiesz na ten artykuł:
http://arxiv.org/pdf/0803.4101.pdf
„Pomiar i testowanie zależności przez korelację odległości”. Székely i Bakirov zawsze mają ciekawe rzeczy.
Istnieje kod Matlab do implementacji:
http://www.mathworks.com/matlabcentral/fileexchange/39905-distance-correlation
Jeśli znajdziesz inny (prosty do wdrożenia) test na niezależność, daj nam znać.
źródło
Związek między odległością kowariancji a testami jądra (opartymi na kryterium niezależności Hilberta-Schmidta) podano w pracy:
Sejdinovic, D., Sriperumbudur, B., Gretton, A., i Fukumizu, K., Równoważność statystyk opartych na odległości i RKHS w testowaniu hipotez, Annals of Statistics, 41 (5), str. 2263-2702, 2013
Wykazano, że kowariancja odległości jest szczególnym przypadkiem statystyki jądra dla konkretnej rodziny jąder.
Jeśli zamierzasz korzystać z wzajemnych informacji, test oparty na podzielonym oszacowaniu MI to:
Gretton, A. i Gyorfi, L., Spójne nieparametryczne testy niezależności, Journal of Machine Learning Research, 11, ss.1131--1423, 2010.
Jeśli chcesz uzyskać najlepszą moc testową, lepiej skorzystaj z testów jądra, niż binowania i wzajemnych informacji.
To powiedziawszy, biorąc pod uwagę, że twoje zmienne są jednowymiarowe, klasyczne nieparametryczne testy niezależności, takie jak Hoeffdinga, są prawdopodobnie w porządku.
źródło
Rzadko (nigdy?) W statystykach możesz wykazać, że twoja przykładowa statystyka = wartość punktowa. Możesz przetestować wartości punktowe i albo je wykluczyć, albo nie. Ale natura statystyki polega na tym, że chodzi o badanie zmiennych danych. Ponieważ zawsze istnieje rozbieżność, niekoniecznie nie będzie sposobu, aby dowiedzieć się, że coś nie jest ze sobą powiązane, normalne, gaussowskie itp. Możesz poznać tylko zakres wartości. Możesz wiedzieć, czy wartość jest wykluczona z zakresu wiarygodnych wartości. Na przykład łatwo jest wykluczyć brak relacji i podać zakres wartości określających wielkość relacji.
Dlatego też, próbując wykazać brak związku, w zasadzie wartość punktowa nie odniesie
relationship = 0
sukcesu. Jeśli masz szereg miar relacji, które są akceptowalne jako około 0. Wtedy byłoby możliwe opracowanie testu.Zakładając, że możesz zaakceptować to ograniczenie, byłoby pomocne dla osób próbujących pomóc ci w dostarczeniu wykresu rozrzutu z krzywą mniejszej wartości. Ponieważ szukasz rozwiązań R, spróbuj:
W oparciu o ograniczone informacje, które do tej pory podałeś, uważam, że uogólniony model dodatku może być najlepszą rzeczą do testowania nie-niezależności. Jeśli spiszesz to z CI wokół przewidywanych wartości, możesz być w stanie wypowiedzieć się na temat przekonania o niezależności. Sprawdź
gam
w pakiecie mgcv. Pomoc jest całkiem dobra i tutaj jest pomoc dotycząca CI .źródło
To może być interesujące ...
Garcia, JE; Gonzalez-Lopez, VA (2014) Testy niezależności dla ciągłych zmiennych losowych w oparciu o najdłuższe wzrastające podsekwencje. Journal of Multivariate Analysis, v. 127 s. 126–146.
http://www.sciencedirect.com/science/article/pii/S0047259X14000335
źródło