Nieparametryczna miara siły powiązania między porządkową i ciągłą zmienną losową

12

Rzucam tutaj problem tak, jak go otrzymałem.

Mam dwie zmienne losowe. Jeden z nich jest ciągły (Y), a drugi dyskretny i zostanie przyjęty jako porządkowy (X). Umieściłem poniżej wątku, który otrzymałem wraz z zapytaniem.

wprowadź opis zdjęcia tutaj

Osoba, która przesłała mi dane, chce zmierzyć siłę powiązania między X i Y. Poszukuję pomysłów, które nie byłyby napełnione założeniami dotyczącymi tego, jaki proces wygenerował dane. Zauważ, że nie chodzi tu o znalezienie nieparametrycznego sposobu testowania siły związku (jak w bootstrapie), ale o znalezienie nieparametrycznego sposobu jej pomiaru .

Z drugiej strony wydajność nie stanowi problemu, ponieważ istnieje wiele punktów danych.

użytkownik603
źródło
1
Czy X (zmienna dyskretna) jest porządkowy, czy nie?
Peter Flom - Przywróć Monikę
@PeterFlom: Dzięki. Tak. Dodaję to do pytania.
user603
Czy przez „nieparametryczny” rozumiesz tutaj, że nie jest dozwolone obliczanie średniej lub wariancji?
ttnphns

Odpowiedzi:

7

Z definicji skala porządkowa jest miernikiem, w którym rzeczywiste odległości między wycięciami 1 2 3 4są nieznane. To tak, jakbyś widział władcę pod narkotykami / alkoholem. Rzeczywiste odległości mogą być dowolne. To może być 1 2 3 4lub 1 2 3 4czy cokolwiek innego. Nie możemy obliczyć statystyki - takiej jak korelacja - chyba że zdecydujemy o odległościach, naprawimy je.

rrhorrhor

rr". Optymalne skalowanie można przeprowadzić w regresji kategorycznej (CATREG). Jednak regresja kategoryczna wymaga, aby inna zmienna wejściowa była dyskretna (niekoniecznie porządkowa), a więc jeśli jest ciągła i ma wiele unikalnych wartości, będzie musiała zostać przez ciebie dowolnie spakowana .

Istnieją również inne podejścia. Ale w jakikolwiek sposób przekształcamy skalę porządkową monotonicznie „tak, aby ...” (jakieś założenie lub cel), ponieważ skala porządkowa jest dla nas zniekształcona w nieznany sposób. Zasadniczo inną decyzją byłoby najpierw „wytrzeźwienie” i zadecydowanie, że albo nie jest on zniekształcony (tj. Jest to interwał), albo jest zniekształcony w znany sposób (jest nieokreślony) lub jest nominalny.

Niektóre podejścia asymetryczne mogą obejmować regresję porządkową zmiennej porządkowej przez drugą (przedziałową / ciągłą). Lub regresja liniowa tego ostatniego przez porządkową, z modelem, w którym predyktor jest przyjmowany jako kontrast wielomianowy (to znaczy wprowadzany jako b1X + b2X^2 + b3X^3,...). Słabość tych podejść polega na tym, że są one asymetryczne: jedna zmienna jest zależna, a druga niezależna.

ttnphns
źródło
dzięki; bardzo dobry pomysł, aby obliczyć szeregi tylko na jednej zmiennej.
user603
6

reja=xja-yjaxjayja

rS.=1-6ja=1nreja2)n(n2)-1)

XY


Bibliografia

Reshef, D., Reshef, Y., Finucane, H., Grossman, S., McVean, G., Turnbaugh, P., Lander, E., Mitzenmacher, M., i Sabeti, P. (2011). Wykrywanie nowych skojarzeń w dużych zestawach danych. Science , 334 (6062): 1518–1524.

Reshef, D., Reshef, Y., Mitzenmacher, M., i Sabeti, P. (2013). Analiza równoważności maksymalnego współczynnika informacyjnego z porównaniami . arXiv , 14 sierpnia.

Alexis
źródło
Oba wyglądają jak bardzo dobre pomysły. W rzeczywistości dwa proponowane przez ciebie podejścia nawet się uzupełniają . Pozostawię pytanie otwarte jeszcze przez chwilę.
user603