Szybko ocenić (wizualnie) korelacje między uporządkowanymi danymi kategorialnymi w R?

11

Szukam korelacji między odpowiedziami na różne pytania w ankiecie („umm, zobaczmy, czy odpowiedzi na pytanie 11 korelują z odpowiedziami na pytanie 78”). Wszystkie odpowiedzi są kategoryczne (większość z nich „od bardzo nieszczęśliwych” do „bardzo szczęśliwych”), ale kilka z nich ma inny zestaw odpowiedzi. Większość z nich można uznać za porządkowe, więc rozważmy ten przypadek tutaj.

Ponieważ nie mam dostępu do komercyjnego programu statystycznego, muszę używać R.

Próbowałem Rattle (darmowy pakiet do eksploracji danych dla R, bardzo fajny), ale niestety nie obsługuje danych kategorycznych. Jednym z hacków, których mógłbym użyć, jest zaimportowanie w R zakodowanej wersji ankiety, która ma liczby (1..5) zamiast „bardzo nieszczęśliwego” ... „szczęśliwego” i niech Rattle uwierzy, że są to dane liczbowe.

Myślałem o zrobieniu wykresu rozrzutu i mieć wielkość kropki proporcjonalną do liczby liczb dla każdej pary. Po pewnym googlowaniu znalazłem http://www.r-statistics.com/2010/04/correlation-scatter-plot-matrix-for-ordered-categorical-data/, ale wydaje mi się to bardzo skomplikowane (dla mnie).

Nie jestem statystykiem (ale programistą), ale przeczytałem trochę w tej sprawie i, jeśli dobrze rozumiem, rho Spearmana byłoby tutaj odpowiednie.

Krótka wersja pytania dla tych, którym się spieszy: czy istnieje sposób na szybkie wykreślenie rho Spearmana w R ? Fabuła jest lepsza niż matryca liczb, ponieważ łatwiej jest spojrzeć na nią, a także może być zawarta w materiałach.

Z góry dziękuję.

PS Zastanawiałem się przez chwilę, czy opublikować to na głównej stronie SO czy tutaj. Po przeszukaniu obu stron pod kątem korelacji R, czułem, że ta strona lepiej nadaje się do tego pytania.

wishihadabettername
źródło
2
Brzmisz, jakby R był gorszy od oprogramowania zapewniającego odpowiedniość. :)
Roman Luštrik
Dla mnie całkowicie uzasadnione jest zastosowanie w twoim przypadku korelacji iloczynu momentu Pearsona (zakładając ciągłe dane) (zakładając wystarczającą liczbę punktów na skali i nie znając punktu środkowego). Całe pola w psychologii (np. Psychologia osobowości lub społeczna) spoczywają (z powodzeniem) przy założeniu, że odpowiedzi na pojedynczy element w skali np. Pięciopunktowej (lub siedmiopunktowej), od bardzo nie-X do bardzo X, mogą być traktowane jako ciągłe. Zobacz także ten wątek: stats.stackexchange.com/questions/539/…
Henrik
@romunov: Nie jestem pewien, jak odniosłeś wrażenie, że uważam, że R jest gorszy od innych s / w. Ale wcale tak nie jest.
wishihadabettername
Byłem po prostu mądrym dupkiem. Mam nadzieję, że nie ma ciężkich uczuć. :)
Roman Luštrik

Odpowiedzi:

19

Kolejna dobra wizualizacja korelacji jest oferowana przez pakiet corrplot , oferując takie rzeczy: alternatywny tekst

To świetny pakiet.

Spójrz również na odpowiedź tutaj , być może warto wiedzieć.

Na koniec, jeśli masz sugestie, w jaki sposób kod we wskazanym przez Ciebie poście może być prostszy - daj mi znać.

Tal Galili
źródło
1
Dzięki Tal, spróbuję teraz Corrplot. Chciałbym również wiedzieć, jak uprościć twoje rozwiązanie (do którego podłączyłem pytanie), ale jestem tylko nowicjuszem w R, więc wiesz więcej niż ja. Zaktualizuję pytanie, aby wyjaśnić, że rozwiązanie wydaje mi się
wishihadabettername
Corrplot wygląda dobrze. Daje świetny obraz wielkości i kierunku korelacji. W przypadku 5-punktowych zmiennych kategorialnych przydatne może być podanie innej miary powiązania oprócz korelacji Pearsona: np. Korelacji polichorycznych. Na wielkość standardowych korelacji Pearsona uporządkowanych zmiennych kategorialnych ma nieco wpływ średnia z dwóch zmiennych.
Jeromy Anglim
3

Kilka dodatkowych pomysłów na spiskowanie to:

Jeromy Anglim
źródło
Słonecznik to zabawne rozwiązanie. Używając jittera, próbowałem, kiedy po raz pierwszy spojrzałem na ten temat, ale okazało się, że nie jest wystarczająco skuteczny do wykreślania macierzy korelacji ...
Tal Galili
Tak, jitter może stać się dość nieporządny z macierzą rozrzutu z dużą ilością zmiennych. Podejrzewam, że zaletą jittera i słonecznika jest to, że można zobaczyć surowe dane (choć zaburzone w przypadku jittera).
Jeromy Anglim
Zgadzam się (uwielbiam zdenerwowanie, po prostu nie do tego :))
Tal Galili,