W mojej pracy porównujemy przewidywane rankingi z prawdziwymi rankingami dla niektórych zestawów danych. Do niedawna korzystaliśmy z Kendall-Tau sam. Grupa pracująca nad podobnym projektem zasugerowała, że zamiast tego próbujemy użyć gammy Goodmana-Kruskala i wolą ją. Zastanawiałem się, jakie były różnice między różnymi algorytmami korelacji rang.
Najlepszą, jaką znalazłem, była ta odpowiedź , która twierdzi, że Spearman jest używany zamiast zwykłych korelacji liniowych, i że Kendall-Tau jest mniej bezpośredni i bardziej przypomina Goodmana-Kruskala Gamma. Dane, z którymi pracuję, nie wydają się mieć żadnych oczywistych korelacji liniowych, a dane są mocno wypaczone i nietypowe.
Ponadto Spearman generalnie zgłasza wyższą korelację dla naszych danych niż Kendall-Tau, a ja zastanawiałem się, co to konkretnie mówi o danych. Nie jestem statystykiem, więc niektóre artykuły, które czytam na ten temat, wydają mi się żargonem, przepraszam.
Odpowiedzi:
Spearman rho vs Kendall tau . Te dwa są tak bardzo różne obliczeniowo, że nie można bezpośrednio porównać ich wielkości. Spearman jest zwykle wyższy o 1/4 do 1/3, co prowadzi do błędnego wniosku, że Spearman jest „lepszy” dla określonego zestawu danych. Różnica między rho i tau polega na ich ideologii, proporcji wariancji dla rho i prawdopodobieństwie dla tau. Rho jest zwykłym r Pearsona stosowanym do danych rankingowych i podobnie jak r, jest bardziej wrażliwy na punkty o dużych momentach (to znaczy odchylenia od centrum chmury) niż na punkty o małych momentach. Dlatego rho jest dość wrażliwe na kształt chmury po rankinguzrobione: współczynnik podłużnej chmury rombowej będzie wyższy niż współczynnik podłużnej chmury z hantlami (ponieważ ostre krawędzie pierwszego to duże momenty). Tau jest rozszerzeniem gamma i jest równie wrażliwe na wszystkie punkty danych , więc jest mniej wrażliwe na osobliwości w kształcie chmurki rankingowej. Tau jest bardziej „ogólne” niż rho, ponieważ rho jest uzasadnione tylko wtedy, gdy uważasz, że podstawowy (model lub funkcjonalny w populacji) związek między zmiennymi jest ściśle monotoniczny. Podczas gdy Tau pozwala na niemonotoniczną krzywą bazową i miary, które monotoniczny „trend”, dodatni lub ujemny, przeważają tam ogólnie. Rho jest porównywalne z r pod względem wielkości; tau nie jest.
Kendall tau jako Gamma . Tau jest tylko znormalizowaną formą gamma. Wszystkie powiązane miary mają licznik ale różnią się mianownikiem normalizującym :P−Q
gdzie - liczba par obserwacji z „zgodnością”, Q - z „inwersją”; T x - liczba powiązań według zmiennej X, T y - według zmiennej Y, T x y - według obu zmiennych; N - liczba obserwacji, k - liczba różnych wartości w tej zmiennej, gdy liczba ta jest mniejsza.P Q Tx Ty Txy N k
Zatem tau jest bezpośrednio porównywalne teoretycznie i pod względem wielkości z gamma. Rho jest bezpośrednio porównywalny pod względem teorii i wielkości z Pearsonem . Ładna odpowiedź Nicka Staunera tutaj mówi, jak można pośrednio porównać rho i tau.r
Zobacz także o tau i rho.
źródło
Oto cytat z Andrew Gilpin (1993) opowiadający się za Maurice'a Kendalla nad ρ Spearmana z powodów teoretycznych:τ ρ
Nie mogę dodać wiele o Goodmanie-Kruskalu , poza tym, że wydaje się on dostarczać coraz tak nieco większe szacunki niż τ Kendalla w próbce danych ankietowych, z którymi ostatnio pracowałem ... i oczywiście zauważalnie niższe oszacowania niż ρ Spearmana . Jednak próbowałem też obliczyć kilka częściowych szacunków γ (Foraita i Sobotka, 2012), a te okazały się bliższe częściowemu ρ niż częściowemu τ ... Jednak zajęło to sporo czasu, więc odejdę testy symulacyjne lub porównania matematyczne z kimś innym ... (kto by wiedział, jak je wykonać ...)γ τ ρ γ ρ τ
Jak sugeruje ttnphns , nie można wnioskować, że twoje szacunki są lepsze niż twoje τ pod względem samej wielkości, ponieważ ich skale różnią się (chociaż granice nie). Gilpin cytuje Kendalla (1962) jako opisujący stosunek ρ do τ jako około 1,5 w większości zakresu wartości. Zbliżają się stopniowo wraz ze wzrostem ich wielkości, więc gdy oba zbliżają się do 1 (lub -1), różnica staje się nieskończenie mała. Gilpin podaje ładną dużą tabelę równoważnych wartości ρ , r , r 2 , d i Z r out do trzeciej cyfry dla τρ τ ρ τ ρ r r2 Zr τ z każdym przyrostem 0,01 w całym zakresie, tak jak można się spodziewać na okładce podręcznika statystyk wprowadzających. Oparł te wartości na specyficznych formułach Kendalla, które są następujące:
(i uproszczone tego wzoru dopod postaci, w jakiej Gilpin scenariusza, który był w zakresie Pearsonar).
Może warto byłoby zamienić na ρτ ρ i zobaczyć, jak zmiana obliczeniowa wpływa na oszacowanie wielkości efektu. Wydaje się, że to porównanie dałoby pewne wskazanie, w jakim stopniu problemy, na które Spearmana jest bardziej wrażliwy, występują w twoich danych, jeśli w ogóle. Z pewnością istnieją bardziej bezpośrednie metody indywidualnego identyfikowania każdego konkretnego problemu; moja sugestia przyniosłaby bardziej szybki i brudny rozmiar efektu omnibus dla tych problemów. Jeśli nie ma różnicy (po skorygowaniu różnicy skali), można argumentować, że nie trzeba szukać dalej problemów, które dotyczą tylko ρρ ρ . Jeśli istnieje znacząca różnica, prawdopodobnie nadszedł czas, aby rozbić soczewkę powiększającą, aby ustalić, co jest odpowiedzialne.
Nie jestem pewien, w jaki sposób ludzie zwykle zgłaszają rozmiary efektów, gdy używają Kendalla (w niestety ograniczonym stopniu, że ludzie martwią się raportowaniem rozmiarów efektów w ogóle), ale ponieważ wydaje się prawdopodobne, że nieznani czytelnicy spróbowaliby interpretować to na skalę Pearsona r , to może być mądry, aby zgłosić zarówno swoją τ statystyki i jej wpływ na wielkość skali r stosując powyższy wzór konwersji ... a przynajmniej zwrócić uwagę na różnicę w skali i dać okrzyk Gilpin jego poręcznej tabeli konwersji .τ r τ r
Referencje
Foraita, R., i Sobotka, F. (2012). Walidacja modeli graficznych. Pakiet gmvalid, v1.23. Kompleksowa sieć archiwów R. URL: http://cran.r-project.org/web/packages/gmvalid/gmvalid.pdf
Gilpin, AR (1993). Tabela konwersji Tau Kendalla na Rho Spearmana w kontekście miar wielkości efektu dla metaanalizy. Pomiary edukacyjne i psychologiczne, 53 (1), 87-92.
Kendall, MG (1962). Metody korelacji rang (wydanie trzecie). Londyn: Griffin.
źródło
Są to wszystkie dobre wskaźniki asocjacji monotonicznych. Spearmana jest związane z prawdopodobieństwem zgodności większości wśród losowych trojaczków obserwacji, a τ (Kendall) i γ (Goodman-Kruskal) są powiązane z parą zgodności. Głównym podjąć decyzję w wyborze γ vs. τ jest to, czy chcesz, aby karać za więzi w X i / lub Y . γ nie penalizuje żadnego z tych związków, więc porównanie zdolności przewidywania X 1 i X 2 w przewidywaniu Y nie wynagrodzi jednego z Xρ τ γ γ τ X Y γ X1 X2 Y X X X γ
źródło
Spearman's ρ is related to the probability of majority concordance among random triplets of observations
bardziej szczegółowo, jeśli nie jest to zbyt trudne matematycznie? Dzięki.