Jak porównują gamma Goodmana-Kruskala i korelacje tau Kendalla lub Spearmana rho?

31

W mojej pracy porównujemy przewidywane rankingi z prawdziwymi rankingami dla niektórych zestawów danych. Do niedawna korzystaliśmy z Kendall-Tau sam. Grupa pracująca nad podobnym projektem zasugerowała, że zamiast tego próbujemy użyć gammy Goodmana-Kruskala i wolą ją. Zastanawiałem się, jakie były różnice między różnymi algorytmami korelacji rang.

Najlepszą, jaką znalazłem, była ta odpowiedź , która twierdzi, że Spearman jest używany zamiast zwykłych korelacji liniowych, i że Kendall-Tau jest mniej bezpośredni i bardziej przypomina Goodmana-Kruskala Gamma. Dane, z którymi pracuję, nie wydają się mieć żadnych oczywistych korelacji liniowych, a dane są mocno wypaczone i nietypowe.

Ponadto Spearman generalnie zgłasza wyższą korelację dla naszych danych niż Kendall-Tau, a ja zastanawiałem się, co to konkretnie mówi o danych. Nie jestem statystykiem, więc niektóre artykuły, które czytam na ten temat, wydają mi się żargonem, przepraszam.

Poik
źródło
3
Spearman ogólnie zgłasza lepszą korelację naszych danych niż Kendall-Tau, a ja zastanawiałem się, co to konkretnie mówi o danych ”… prawdopodobnie nic; Kendall jest często bliżej 0 niż Spearmana gdy korelacje nie są naprawdę blisko do lub - mierzy stowarzyszenie inaczej; fakt, że zazwyczaj jest mniejszy, nie oznacza, że ​​korelacja Spearmana jest „lepsza”; po prostu mierzą różne rzeczy na temat danych. Co skłoniłoby cię do powiedzenia „lepsza korelacja”? τ0 ± 1ρ0±1
Glen_b
1
To było pośrednio takie samo jak moje pytanie, @Glen_b; poza tym pytałem, dlaczego algorytmy zgłosiły wyższą korelację i co by to spowodowało. Zamienię „lepszy” na „wyższy”, aby moje znaczenie było bardziej jasne. Masz rację, że mierzą różne rzeczy i że liczby tak naprawdę nie mają ze sobą zbyt wiele wspólnego, ale chciałem wiedzieć, co tak naprawdę oznaczają, na co szczegółowo odpowiedzieliśmy poniżej.
Poik

Odpowiedzi:

29

Spearman rho vs Kendall tau . Te dwa są tak bardzo różne obliczeniowo, że nie można bezpośrednio porównać ich wielkości. Spearman jest zwykle wyższy o 1/4 do 1/3, co prowadzi do błędnego wniosku, że Spearman jest „lepszy” dla określonego zestawu danych. Różnica między rho i tau polega na ich ideologii, proporcji wariancji dla rho i prawdopodobieństwie dla tau. Rho jest zwykłym r Pearsona stosowanym do danych rankingowych i podobnie jak r, jest bardziej wrażliwy na punkty o dużych momentach (to znaczy odchylenia od centrum chmury) niż na punkty o małych momentach. Dlatego rho jest dość wrażliwe na kształt chmury po rankinguzrobione: współczynnik podłużnej chmury rombowej będzie wyższy niż współczynnik podłużnej chmury z hantlami (ponieważ ostre krawędzie pierwszego to duże momenty). Tau jest rozszerzeniem gamma i jest równie wrażliwe na wszystkie punkty danych , więc jest mniej wrażliwe na osobliwości w kształcie chmurki rankingowej. Tau jest bardziej „ogólne” niż rho, ponieważ rho jest uzasadnione tylko wtedy, gdy uważasz, że podstawowy (model lub funkcjonalny w populacji) związek między zmiennymi jest ściśle monotoniczny. Podczas gdy Tau pozwala na niemonotoniczną krzywą bazową i miary, które monotoniczny „trend”, dodatni lub ujemny, przeważają tam ogólnie. Rho jest porównywalne z r pod względem wielkości; tau nie jest.

Kendall tau jako Gamma . Tau jest tylko znormalizowaną formą gamma. Wszystkie powiązane miary mają licznik ale różnią się mianownikiem normalizującym :PQ

  • Gamma: P+Q
  • Somers 'D („zależne od x”): P+Q+Tx
  • Somers 'D („zależny od y”): P+Q+Ty
  • Somers 'D („symetryczny”): średnia arytmetyczna z powyższych dwóch
  • Kendall's Tau-b corr. (najbardziej odpowiedni dla tabel kwadratowych): średnia geometryczna tych dwóch
  • Kendall's Tau-c corr. (najbardziej odpowiedni do stołów prostokątnych): N2(k1)/(2k)
  • Tau-a corr Kendalla. (dokonuje korekty NO dla krawatów): N(N1)/2=P+Q+Tx+Ty+Txy

gdzie - liczba par obserwacji z „zgodnością”, Q - z „inwersją”; T x - liczba powiązań według zmiennej X, T y - według zmiennej Y, T x y - według obu zmiennych; N - liczba obserwacji, k - liczba różnych wartości w tej zmiennej, gdy liczba ta jest mniejsza.PQTxTyTxyNk

Zatem tau jest bezpośrednio porównywalne teoretycznie i pod względem wielkości z gamma. Rho jest bezpośrednio porównywalny pod względem teorii i wielkości z Pearsonem . Ładna odpowiedź Nicka Staunera tutaj mówi, jak można pośrednio porównać rho i tau.r

Zobacz także o tau i rho.

ttnphns
źródło
14

Oto cytat z Andrew Gilpin (1993) opowiadający się za Maurice'a Kendalla nad ρ Spearmana z powodów teoretycznych:τρ

[ Kendalla zbliża się do rozkładu normalnego szybciej niż ρ , ponieważ N zwiększa wielkość próbki; i τ jest również łatwiejsze w matematyce, szczególnie gdy występują więzi. τρNτ

Nie mogę dodać wiele o Goodmanie-Kruskalu , poza tym, że wydaje się on dostarczać coraz tak nieco większe szacunki niż τ Kendalla w próbce danych ankietowych, z którymi ostatnio pracowałem ... i oczywiście zauważalnie niższe oszacowania niż ρ Spearmana . Jednak próbowałem też obliczyć kilka częściowych szacunków γ (Foraita i Sobotka, 2012), a te okazały się bliższe częściowemu ρ niż częściowemu τ ... Jednak zajęło to sporo czasu, więc odejdę testy symulacyjne lub porównania matematyczne z kimś innym ... (kto by wiedział, jak je wykonać ...)γτργρτ

Jak sugeruje ttnphns , nie można wnioskować, że twoje szacunki są lepsze niż twoje τ pod względem samej wielkości, ponieważ ich skale różnią się (chociaż granice nie). Gilpin cytuje Kendalla (1962) jako opisujący stosunek ρ do τ jako około 1,5 w większości zakresu wartości. Zbliżają się stopniowo wraz ze wzrostem ich wielkości, więc gdy oba zbliżają się do 1 (lub -1), różnica staje się nieskończenie mała. Gilpin podaje ładną dużą tabelę równoważnych wartości ρ , r , r 2 , d i Z r out do trzeciej cyfry dla τρτρτρrr2Zrτz każdym przyrostem 0,01 w całym zakresie, tak jak można się spodziewać na okładce podręcznika statystyk wprowadzających. Oparł te wartości na specyficznych formułach Kendalla, które są następujące: (i uproszczone tego wzoru dopod postaci, w jakiej Gilpin scenariusza, który był w zakresie Pearsonar).

r=sin(τπ2)ρ=6π(τarcsin(sin(τπ2)2))
ρr

Może warto byłoby zamienić na ρτρ i zobaczyć, jak zmiana obliczeniowa wpływa na oszacowanie wielkości efektu. Wydaje się, że to porównanie dałoby pewne wskazanie, w jakim stopniu problemy, na które Spearmana jest bardziej wrażliwy, występują w twoich danych, jeśli w ogóle. Z pewnością istnieją bardziej bezpośrednie metody indywidualnego identyfikowania każdego konkretnego problemu; moja sugestia przyniosłaby bardziej szybki i brudny rozmiar efektu omnibus dla tych problemów. Jeśli nie ma różnicy (po skorygowaniu różnicy skali), można argumentować, że nie trzeba szukać dalej problemów, które dotyczą tylko ρρρ. Jeśli istnieje znacząca różnica, prawdopodobnie nadszedł czas, aby rozbić soczewkę powiększającą, aby ustalić, co jest odpowiedzialne.

Nie jestem pewien, w jaki sposób ludzie zwykle zgłaszają rozmiary efektów, gdy używają Kendalla (w niestety ograniczonym stopniu, że ludzie martwią się raportowaniem rozmiarów efektów w ogóle), ale ponieważ wydaje się prawdopodobne, że nieznani czytelnicy spróbowaliby interpretować to na skalę Pearsona r , to może być mądry, aby zgłosić zarówno swoją τ statystyki i jej wpływ na wielkość skali r stosując powyższy wzór konwersji ... a przynajmniej zwrócić uwagę na różnicę w skali i dać okrzyk Gilpin jego poręcznej tabeli konwersji .τrτr

Referencje

Foraita, R., i Sobotka, F. (2012). Walidacja modeli graficznych. Pakiet gmvalid, v1.23. Kompleksowa sieć archiwów R. URL: http://cran.r-project.org/web/packages/gmvalid/gmvalid.pdf

Gilpin, AR (1993). Tabela konwersji Tau Kendalla na Rho Spearmana w kontekście miar wielkości efektu dla metaanalizy. Pomiary edukacyjne i psychologiczne, 53 (1), 87-92.

Kendall, MG (1962). Metody korelacji rang (wydanie trzecie). Londyn: Griffin.

Nick Stauner
źródło
9

Są to wszystkie dobre wskaźniki asocjacji monotonicznych. Spearmana jest związane z prawdopodobieństwem zgodności większości wśród losowych trojaczków obserwacji, a τ (Kendall) i γ (Goodman-Kruskal) są powiązane z parą zgodności. Głównym podjąć decyzję w wyborze γ vs. τ jest to, czy chcesz, aby karać za więzi w X i / lub Y . γ nie penalizuje żadnego z tych związków, więc porównanie zdolności przewidywania X 1 i X 2 w przewidywaniu Y nie wynagrodzi jednego z XρτγγτXYγX1X2YXXXγ

Frank Harrell
źródło
2
Frank, czy możesz to wyjaśnić Spearman's ρ is related to the probability of majority concordance among random triplets of observationsbardziej szczegółowo, jeśli nie jest to zbyt trudne matematycznie? Dzięki.
ttnphns
1
Przeczytałem to wiele lat temu, prawdopodobnie w tekście statystyki nieparametrycznej. Nie udało mi się znaleźć referencji.
Frank Harrell,
1
Niefortunne ... :-( Ponieważ samo zdanie jest bardzo intrygujące.
ttnphns