Jeśli regresja liniowa jest powiązana z korelacją Pearsona, czy istnieją jakieś techniki regresji związane z korelacjami Kendalla i Spearmana?

27

Może to pytanie jest naiwne, ale:

Jeśli regresja liniowa jest ściśle związana ze współczynnikiem korelacji Pearsona, czy istnieją jakieś techniki regresji ściśle związane ze współczynnikami korelacji Kendalla i Spearmana?

Miroslav Sabo
źródło
3
W prostym przykładzie, gdzie trzeba objaśniający i zmienną zależną: regresji liniowej z szeregu z i Y dałoby współczynnik korelacji Spearmana tak, współczynnik regresji. I w tym przypadku x i y są wymienne w regresji. xyxy
COOLSerdash
2
Kilka myśli. Zarówno Kendalla, jak i ρ Spearmana są współczynnikami korelacji opartymi na rangach. Poszukiwany związek między x i y musiałby wówczas obejmować ich szeregi. Jednak obliczanie rang wprowadza zależność między obserwacjami, co z kolei narzuca zależność między terminami błędów, eliminując regresję liniową. Jednakże, w innym otoczeniu, modelowanie struktury zależności między X i Y z copulas stałaby związek z Kendalla τ i / lub Spearmana ρ to możliwe, w zależności od wyboru kopułą. τρxyxyτρ
QuantIbex,
1
@QuantIbex czy ta zależność z konieczności oznacza ? E[εiεj]0
shadowtalker

Odpowiedzi:

21

Istnieje bardzo prosty sposób użycia prawie dowolnej miary korelacji w celu dopasowania do regresji liniowych i który odtwarza najmniejsze kwadraty, gdy używasz korelacji Pearsona.

βyβxx0

0

β~yβ~xx0

Ta definicja działa na przykład z wszystkimi rodzajami korelacji opartych na rangach. Można go również wykorzystać do uzyskania odstępu dla nachylenia (w zwykły sposób - poprzez znalezienie nachyleń, które wyznaczają granicę między tylko znaczącymi korelacjami a tylko nieistotnymi korelacjami).

yβ~x

Oto wykreślona korelacja względem nachylenia cardanych w R:

wprowadź opis zdjęcia tutaj

Korelacja Pearsona przecina 0 na zboczu co najmniej kwadratów, 3,932
Korelacja Kendalla przecina 0 na zboczu Theil-Sen, 3,667
Korelacja Spearmana przecina 0, dając nachylenie „linii włóczni” 3,714

Są to trzy szacunkowe wartości nachylenia dla naszego przykładu. Teraz potrzebujemy przechwyceń. Dla uproszczenia użyję średniej resztkowej dla pierwszego przechwytywania i mediany dla pozostałych dwóch (w tym przypadku nie ma to większego znaczenia):

           intercept
 Pearson:  -17.573 *     
 Kendall:  -15.667
 Spearman: -16.285

* (niewielka różnica od najmniejszych kwadratów wynika z błędu zaokrąglania w oszacowaniu nachylenia; bez wątpienia w innych oszacowaniach występuje podobny błąd zaokrąglania)

Odpowiednie dopasowane linie (przy użyciu tego samego schematu kolorów co powyżej) to:

wprowadź opis zdjęcia tutaj

Edycja: Dla porównania nachylenie kwadrantu-korelacji wynosi 3,333

Zarówno korelacja Kendalla, jak i nachylenie Spearmana są znacznie bardziej odporne na wpływowe wartości odstające niż najmniejsze kwadraty. Zobacz tutaj dramatyczny przykład w przypadku Kendall.

Glen_b - Przywróć Monikę
źródło
(+1) Świetne wyjaśnienie! Czy jest jakiś powód, dla którego Kendall wydaje się w tym kontekście bardziej preferowany od Spearmana (przynajmniej sądząc z faktu, że korelacja Kendalla odpowiada estymatorowi nachylenia, który ma nazwę, Theil-Sen, podczas gdy Spearmana nie jest)?
ameba mówi Przywróć Monikę
4
Istnieje wiele powodów, dla których wydaje się, że tak jest. Po pierwsze, linia Theil-Sen ma prosto opisany estymator (mediana par w zboczach), którego brakuje Spearmanowi; w małych próbkach jest bardzo odpowiedni do obliczeń ręcznych. Korelacja Kendalla szybciej zbliża się do normalności i jest łatwiejsza do obliczenia matematycznego . Zobacz także tutaj i tutaj .
Glen_b
20

XYY

χ2

Model PO jest szczególnym przypadkiem bardziej ogólnej rodziny modeli skumulowanego prawdopodobieństwa (niektóre połączenia skumulowane połączenie), w tym probit, proporcjonalnych zagrożeń i uzupełniających modeli log-log. Studium przypadku znajduje się w rozdziale 15 moich materiałów informacyjnych .

Frank Harrell
źródło
4

Aaron Han (1987 w ekonometrii) zaproponował estymator maksymalnej korelacji rang, który pasuje do modeli regresji poprzez maksymalizację tau. Dougherty i Thomas (2012 w literaturze psychologicznej) zaproponowali ostatnio bardzo podobny algorytm. Istnieje wiele prac nad MRC ilustrujących jego właściwości.

Aaron K. Han, Analiza nieparametryczna uogólnionego modelu regresji: estymator maksymalnej korelacji rang, Journal of Econometrics, tom 35, wydania 2–3, lipiec 1987, strony 303-316, ISSN 0304-4076, http: // dx.doi.org/10.1016/0304-4076(87)90030-3 . ( http://www.sciencedirect.com/science/article/pii/0304407687900303 )

Dougherty, MR i Thomas, RP (2012). Solidne podejmowanie decyzji w świecie nieliniowym. Przegląd psychologiczny, 119 (2), 321. Źródło: http://damlab.umd.edu/pdf%20articles/DoughertyThomas2012Rev.pdf .

rankingman
źródło