Mam dane, dla których obliczyłem korelację Spearmana i chcę ją wizualizować dla publikacji. Zmienna zależna jest uszeregowana, zmienna niezależna nie jest. To, co chcę zwizualizować, to bardziej ogólny trend niż faktyczne nachylenie, więc uszeregowałem niezależność i zastosowałem korelację / regresję Spearmana. Ale kiedy sporządziłem swoje dane i miałem zamiar wstawić je do mojego rękopisu, natknąłem się na to oświadczenie (na tej stronie internetowej ):
Prawie nigdy nie użyjesz linii regresji ani do opisu, ani do prognozy podczas korelacji rang Spearmana, więc nie obliczaj ekwiwalentu linii regresji .
i później
Możesz wykreślić dane korelacji rang Spearmana w taki sam sposób, jak w przypadku regresji liniowej lub korelacji. Nie należy jednak umieszczać linii regresji na wykresie ; wprowadzanie liniowej linii regresji na wykresie byłoby mylące, gdy analizowałbyś ją za pomocą korelacji rang.
Chodzi o to, że linie regresji nie różnią się tak bardzo, jak kiedy nie oceniam niezależności i nie obliczam korelacji Pearsona. Trend jest taki sam, ale z powodu wygórowanych opłat za kolorową grafikę w czasopismach poszedłem z monochromatyczną reprezentacją, a rzeczywiste punkty danych nakładają się tak bardzo, że nie można ich rozpoznać.
Mógłbym oczywiście obejść ten problem, tworząc dwa różne wykresy: jeden dla punktów danych (w rankingu) i jeden dla linii regresji (nierankingowany), ale jeśli okaże się, że podane przeze mnie źródło jest nieprawidłowe lub problem w moim przypadku nie jest to problematyczne, ułatwiłoby mi to życie. (Widziałem też to pytanie , ale to mi nie pomogło).
Edytuj, aby uzyskać dodatkowe informacje:
Zmienna niezależna na osi x reprezentuje liczbę cech, a zmienna zależna na osi y reprezentuje pozycję algorytmów klasyfikacji w porównaniu z ich wydajnością. Teraz mam kilka algorytmów, które są porównywalne średnio, ale chcę powiedzieć z moją fabułą: „Podczas gdy klasyfikator A staje się lepszy, tym więcej funkcji jest obecnych, klasyfikator B jest lepszy, gdy obecnych jest mniej funkcji”
Edytuj 2, aby uwzględnić moje wykresy:
Przedstawiono rangi algorytmów w zależności od liczby cech
Przedstawiono rangi algorytmów w stosunku do liczby funkcji w rankingu
Tak więc, aby powtórzyć pytanie z tytułu:
Czy można sporządzić linię regresji dla danych rankingowych korelacji / regresji Spearmana?
Odpowiedzi:
Korelacja rang może być wykorzystana do ustalenia monotonicznego związku między zmiennymi, jak zauważasz; jako taki, normalnie nie rysowałbyś linii do tego.
Są sytuacje, w których sensowne jest użycie korelacji rang, aby faktycznie dopasować linie do liczbowego-y vs numerycznego-x, czy to Kendalla, czy Spearmana (lub innego). Zobacz dyskusję (w szczególności ostatnią fabułę) tutaj .
Ale to nie twoja sytuacja. W twoim przypadku chciałbym przedstawić wykres rozrzutu oryginalnych danych, być może z płynną relacją (np. Przez LOESS).
Oczekujesz, że związek będzie monotoniczny; być może możesz spróbować oszacować i wykreślić monotoniczny związek. [Omówiono tutaj funkcję R , która może pasować do regresji izotonicznej - podczas gdy na przykładzie unimodal nie jest izotoniczny, funkcja może wykonywać dopasowania izotoniczne.]
Oto przykład tego, co mam na myśli:
Wykres pokazuje monotoniczną zależność między xiy; czerwona krzywa jest gładka lessowa (w tym przypadku generowana w R przez
scatter.smooth
), która również jest montoniczna (istnieją sposoby na uzyskanie gładkich dopasowań, które są gwarantowane jako monotoniczne, ale w tym przypadku domyślna gładka lessowa była monotoniczna, więc Nie czułem potrzeby się martwić.Wykres rangi (y) vs ranga (x), wskazujący na związek monotoniczny. Zielona linia pokazuje rangi dopasowanych wartości krzywej lessowej względem rangi (x).
Korelacja między rzędami xiy (tj. Korelacja Spearmana) wynosi 0,892 - wysoki związek monotoniczny. Podobnie korelacja Spearmana między (montoniczną) dopasowaną krzywą wygładzoną metodą lessową ( ) a wartościami y wynosi również 0,892. [Nie jest to jednak zaskakujące, ponieważ byłoby tak w przypadku każdej krzywej, która jest monotoniczną funkcją x, z których wszystkie odpowiadałyby również zielonej linii. Zielona linia nie jest linią regresji między rangą (x) a rangą (y), ale jest linią odpowiadającą monotonicznemu dopasowaniu na oryginalnym wykresie. „Linia regresji” dla danych rankingowych ma nachylenie 0,892, a nie 1, więc jest trochę „bardziej płaska”.]y^
Jeśli nie wyświetlasz nic oprócz rangi (Y) vs X, myślę, że unikałbym używania linii na wykresach; o ile widzę, nie przekazują one zbyt wiele wartości powyżej współczynnika korelacji. I już powiedziałem, że interesuje Cię tylko ten trend.
[Nie wiem, czy źle jest wykreślić linię regresji na wykresie ranking-y vs ranking-x, trudność polegałaby na jej interpretacji.]
źródło
Zastosowanie Spearmana jest równoważne użyciu proporcjonalnych kursy porządkowej modelu logistycznego, jeśli jeden z nich rangi wektor podczas modelowania. Model PO zazwyczaj modeluje w oryginalnej skali i może zawierać terminy nieliniowe. Aby uzyskać prognozy, korzystne jest zastosowanie podejścia opartego na modelu. Możesz na przykład wykreślić względem przewidywanej średniej lub przewidywanej mediany z dopasowania modelu PO. Przykłady znajdują się w materiałach informacyjnych z http://biostat.mc.vanderbilt.edu/rms .ρ X X X Y Y
źródło