Korelacja między kategoriami między jakościowymi zmiennymi nominalnymi

9

Mam zestaw danych z dwiema kategorycznymi zmiennymi nominalnymi (obie z 5 kategoriami). Chciałbym wiedzieć, czy (i jak) jestem w stanie zidentyfikować potencjalne korelacje między kategoriami na podstawie tych dwóch zmiennych.

Innymi słowy, czy na przykład wyniki kategorii w zmiennej 1 wykazują silną korelację z określoną kategorią zmiennej 2. Ponieważ mam dwie zmienne z 5 kategoriami, całkowita analiza korelacji dla wszystkich kategorii spadłaby do 25 wyników (przynajmniej jeśli działa tak, jak mam nadzieję / oczekuję, że zadziała).ij

Próbowałem sformułować problem na konkretne pytania:

Pytanie 1: Powiedzmy, że przenoszę zmienną kategorialną na 5 różnych zmiennych zastępczych na wartość (kategorię). Tę samą procedurę uruchamiam również dla drugiej zmiennej. Następnie chcę ustalić korelację między manekinem 1.i a 2.i (na przykład). Czy wykonanie tej procedury jest statystycznie poprawne za pomocą zwykłej procedury współczynnika korelacji? Czy współczynnik korelacji wynikający z tej procedury zapewnia właściwy wgląd w korelację między dwiema zmiennymi obojętnymi?

Pytanie 2: Jeśli procedura opisana w pytaniu pierwszym jest prawidłową procedurą, czy istnieje sposób na przeprowadzenie tej analizy dla wszystkich kategorii 2 (lub więcej) zmiennych jakościowych jednocześnie?

Program, którego używam, to SPSS (20).

użytkownik32378
źródło
Punkty uzyskane przez @Michaela Mayera dotyczą zmienionego pytania.
Nick Cox,
1
Jeśli dwie zmienne nie są skorelowane, miałbyś 1/25 w każdej komórce macierzy częstotliwości 5x5. Stąd statystyki , gdzie i - obserwowana częstotliwość dla dowolnego z Odpowiednie powinno być 5 wartości dwóch zmiennych. χ2xy(OE)2EE=xyOxy/25Oxy
Aksakal
3
@Aksakal „Brak korelacji” jest tutaj złym terminem; zmienne są nominalne, więc korelacje nie są zdefiniowane. Myślę, że masz na myśli niezależność, ale niezależność również nie oznacza równych częstotliwości. Częstotliwości komórki pod niezależnością zależą od częstotliwości krańcowych.
Nick Cox,

Odpowiedzi:

6

„Centralne” powiązanie między kategorią jednej zmiennej nominalnej a kategoriąijdrugi jest wyrażony przez częstotliwość resztkową w komórceij, jak wiemy. Jeśli wartość resztkowa wynosi 0, oznacza to, że częstotliwość jest oczekiwana, gdy dwie zmienne nominalne nie są powiązane. Im większa reszta, tym większe jest skojarzenie z powodu nadmiernie reprezentowanej kombinacjiijw próbce. Duża ujemna reszta równoważnie mówi o niedostatecznie reprezentowanej kombinacji. Zatem częstotliwość resztkowa jest tym, czego chcesz.

Surowe pozostałości nie są jednak odpowiednie, ponieważ zależą od wartości krańcowych i ogólnej sumy oraz wielkości tabeli: wartość nie jest w żaden sposób znormalizowana. Ale SPSS może wyświetlać znormalizowane resztki zwane również resztkami Pearsona. St. residual jest resztą podzieloną przez oszacowanie jej odchylenia standardowego (równego pierwiastkowi kwadratowemu oczekiwanej wartości). St resztki tabeli mają średnią 0 i st. dev. 1; dlatego św. reszta służy wartości z, podobnie jak wartość z w rozkładzie zmiennej ilościowej (w rzeczywistości jest to z w rozkładzie Poissona). Pozostałości St. są porównywalne między różnymi tabelami o tej samej wielkości i tej samej sumieN. Statystyka chi-kwadrat tabeli awaryjnej jest sumą kwadratu st. pozostałości w nim. Porównywanie ul. reszty w tabeli i w tabelach o tej samej objętości pomagają zidentyfikować poszczególne komórki, które najbardziej przyczyniają się do statystyki chi-kwadrat.

SPSS wyświetla również skorygowane wartości resztkowe (= skorygowane znormalizowane wartości resztkowe). Adj. reszta to reszta podzielona przez oszacowanie błędu standardowego. Ciekawe, że to przym. reszta jest po prostu równaNrij, gdzie N jest sumą całkowitą i rijto korelacja Pearsona (alias korelacja Phi) między zmiennymi obojętnymi odpowiadającymi kategoriomi i jdwóch zmiennych nominalnych. Torjest dokładnie tym, co chcesz obliczyć. Adj. Resztka jest bezpośrednio z tym związana.

W przeciwieństwie do św. residual, przym. resztkowy jest również znormalizowane wrt do kształtu brzegowych rozkładów w tabeli (bierze pod uwagę oczekiwaną częstotliwość nie tylko w tej komórce, ale także w komórkach poza jego wiersz i kolumnę), a więc można bezpośrednio zobaczyć siłę z następujących powiązać kategoriei i j- bez obawy o to, czy ich krańcowe sumy są duże czy małe względem innych kategorii ”. Adj. wartość rezydualna jest również jak wynik Z, ale teraz jest jak Z rozkładu normalnego (nie Poissona). Jeśli przym. wartość rezydualna jest wyższa niż 2 lub niższa niż -2, można stwierdzić, że jest znacząca na p<0.05poziomie1. Adj. Resztki są nadal realizowane przezN; rnie są, ale możesz uzyskać wszystkie rs z przym. reszty, zgodnie z powyższą formułą, bez poświęcania czasu na tworzenie zmiennych zastępczych.2

W odniesieniu do twojego drugiego pytania dotyczącego 3-kierunkowych powiązań kategorii - jest to możliwe w ramach ogólnej analizy loglinearnej, która wyświetla również resztki. Praktyczne wykorzystanie resztek komórek 3-kierunkowych jest jednak niewielkie: miary asocjacyjne 3 (+) nie są łatwo standaryzowane i trudne do interpretacji.


1W ul. krzywa normalna1.962 jest punktem odcięcia 2,5% ogona, więc 5%, jeśli weźmie się pod uwagę oba ogony, jak w przypadku dwustronnej hipotezy alternatywnej.

2 Wynika z tego, że znaczenie skorygowanej pozostałości w komórce ij równa się znaczeniu rij. Poza tym, jeśli w tabeli są tylko 2 kolumny i wykonujesz test Z proporcji pomiędzyPr(i,1) i Pr(i,2), proporcje kolumny dla wiersza i, wartość p tego testu jest równa znaczeniu obu (dowolnych) dostosowań. reszty w rzędziei 2-kolumnowej tabeli.

ttnphns
źródło
1

Bezpośrednio pochodzi z dokumentu dotyczącego statystyki dwuwymiarowej w SPSS, który tutaj znajduje się :

Chi-kwadrat jest przydatną techniką, ponieważ można go użyć, aby sprawdzić, czy istnieje związek między dwiema zmiennymi porządkowymi, dwiema zmiennymi nominalnymi lub między zmienną porządkową i zmienną nominalną. Patrzysz na assymp. Kolumna Sig i jeśli jest mniejsza niż 0,05, związek między dwiema zmiennymi jest statystycznie istotny.

Zhubarb
źródło
4
OK, ale trzy narzekania, jeden poważny, dwa bardzo niewielkie. Chi-kwadrat na dwóch zmiennych porządkowych ignoruje kolejność. To nie jest dokument SPSS, ale elementarne wprowadzenie przez kogoś innego, a oni nadmierne uproszczenie, jak już wspomniano. Nie skopiowali „Asymp”. poprawnie (przykład na poprzedniej stronie). Większy problem dla PO polega na tym, że korelacja jest tutaj niewłaściwym słowem: „skojarzenie” jest słowem kluczowym pod względem pomiaru, testowania i (najlepiej ze wszystkich) modelowania powiązania.
Nick Cox,
1
Dzięki, the SPSS documenttrochę zredagowałem , nie było moim zamiarem dołączanie do niej nadmiernej autentyczności.
Zhubarb,