Przeczytałem już wszystkie strony w tej witrynie, próbując znaleźć odpowiedź na mój problem, ale wydaje się, że nikt nie jest właściwy dla mnie ...
Najpierw wyjaśnię ci dane, z którymi pracuję ...
Powiedzmy, że mam wektor tablicowy z kilkoma nazwami miast, po jednym dla każdego z 300 użytkowników. Mam też inny wektor tablicowy z odpowiedzią na wyniki ankiety każdego użytkownika lub ciągłą wartością dla każdego użytkownika.
Chciałbym wiedzieć, czy istnieje współczynnik korelacji, który oblicza korelację między tymi dwiema zmiennymi, a więc między zmienną nominalną a zmienną liczbową / ciągłą lub porządkową.
Szukałem w Internecie i na niektórych stronach sugerują użycie współczynnika awaryjności lub V Cramera lub współczynnika lambda lub Eta. Dla każdej z tych miar wystarczy powiedzieć, że można je zastosować do takich danych, w których mamy zmienną nominalną i zmienną przedziałową lub liczbową. Chodzi o to, że wyszukiwanie i wyszukiwanie, próba zrozumienia każdego z nich, kiedyś jest napisane lub oglądanie przykładów, że można z nich korzystać, jeśli masz dychotomiczną zmienną nominalną, z wyjątkiem V Cramera, w innym przypadku nie jest napisane żadne wymaganie rodzaj danych. Wiele innych stron twierdzi, że zamiast tego należy zastosować regresję, to prawda, ale chciałbym po prostu wiedzieć, czy istnieje współczynnik taki jak pearson / spearman dla tego rodzaju danych.
Myślę też, że nie jest tak właściwie używać współczynnika korelacji Spearmana, ponieważ miast nie da się posortować.
Zbudowałem również funkcję Cramer'sV i Eta (pracuję z Matlab), ale dla Eta nie mówią o żadnej wartości p, aby sprawdzić, czy współczynnik jest statystycznie istotny ...
Na stronie matlabWorks znajduje się również ładny zestaw narzędzi, który mówi, aby obliczyć eta ^ 2, ale rodzaj danych wejściowych, których potrzebuje, nie jest zrozumiały.
Czy jest tu ktoś, kto wykonał taki test jak mój? Jeśli potrzebujesz więcej informacji, aby zrozumieć rodzaj danych, których używam, po prostu zapytaj mnie, a ja postaram się ci lepiej wyjaśnić.
Odpowiedzi:
Nominalny vs interwał
Najbardziej klasyczną miarą „korelacji” między zmienną nominalną a interwałem („numeryczną”) jest Eta , zwana także współczynnikiem korelacji, i równa pierwiastkowi R-kwadrat jednokierunkowej ANOVA (z wartością p = wartość ANOVA). Eta może być postrzegana jako symetryczna miara asocjacji, podobnie jak korelacja, ponieważ Eta z ANOVA (z nominalną jako niezależną, liczbową jako zależną) jest równa śladowi Pillai regresji wielowymiarowej (z liczbową jako niezależną, zbiorem zmiennych zastępczych odpowiadających nominalny jako zależny).
Bardziej subtelną miarą jest współczynnik korelacji wewnątrzklasowej ( ICC ). Podczas gdy Eta chwyta jedynie różnicę między grupami (zdefiniowaną przez zmienną nominalną) w odniesieniu do zmiennej liczbowej, ICC jednocześnie mierzy również koordynację lub zgodność między wartościami liczbowymi wewnątrz grup; innymi słowy, ICC (szczególnie oryginalna bezstronna wersja „parowania” ICC) pozostaje na poziomie wartości, podczas gdy Eta działa na poziomie statystyki (średnia grupowa vs. wariancje grupowe).
Nominalny vs porządkowy
Pytanie o miarę „korelacji” między zmienną nominalną a zmienną porządkową jest mniej oczywiste. Powodem trudności jest to, że skala porządkowa jest z natury bardziej „mistyczna” lub „skręcona” niż skala przedziałowa lub nominalna. Nic dziwnego, że analizy statystyczne specjalnie dla danych porządkowych są dotychczas stosunkowo słabo sformułowane.
Jednym ze sposobów może być konwersja danych porządkowych na szeregi, a następnie obliczenie Eta tak, jakby szeregi były danymi przedziałowymi. Wartość p takiego Eta = wartość analizy Kruskala-Wallisa. Podejście to wydaje się uzasadnione z tego samego powodu, dla którego rho Spearmana służy do korelacji dwóch zmiennych porządkowych. Logika ta brzmi: „gdy nie znasz szerokości przedziałów na skali, odetnij węzeł gordyjski poprzez linearyzację jakiejkolwiek możliwej monotoniczności: przejdź do rankingu danych”.
Innym podejściem (być może bardziej rygorystycznym i elastycznym) byłoby użycie porządkowej regresji logistycznej ze zmienną porządkową jako DV i nominalną jako IV. Pierwiastek kwadratowy z pseudo R-kwadrat Nagelkerke'a (z wartością p regresji) jest dla ciebie kolejną miarą korelacji. Pamiętaj, że możesz eksperymentować z różnymi funkcjami łączenia w regresji porządkowej. Powiązanie to nie jest jednak symetryczne: nominał przyjmuje się jako niezależny.
Jeszcze innym podejściem może być znalezienie takiej monotonicznej transformacji danych porządkowych na interwał - zamiast uszeregowania przedostatniego akapitu - która maksymalizuje dla Ciebie R (tj. Eta ). Jest to regresja kategoryczna (= regresja liniowa z optymalnym skalowaniem).
Jeszcze innym podejściem jest wykonanie drzewa klasyfikacji , takiego jak CHAID, ze zmienną porządkową jako predyktorem. Procedura ta będzie łączyć razem (stąd podejście przeciwne do poprzedniego) sąsiednich uporządkowanych kategorii, które nie rozróżniają kategorii nominalnych predyktorów. Następnie możesz polegać na miarach asocjacji opartych na chi-kwadratach (takich jak Cramer V), tak jakbyś korelował zmienne nominalne z nominalnymi.
A @Michael w swoim komentarzu sugeruje jeszcze jeden sposób - specjalny współczynnik zwany Theta Freemana .
Do tej pory doszliśmy do tych możliwości: (1) Ranga, a następnie oblicz Eta; (2) Użyj regresji porządkowej; (3) Użyj regresji kategorycznej („optymalnie” przekształcającej zmienną porządkową w interwał); (4) Użyj drzewa klasyfikacji („optymalnie” zmniejszając liczbę uporządkowanych kategorii); (5) Użyj Theta Freemana.
źródło
źródło