Mam zestaw danych z dwiema kategorycznymi zmiennymi nominalnymi (obie z 5 kategoriami). Chciałbym wiedzieć, czy (i jak) jestem w stanie zidentyfikować potencjalne korelacje między kategoriami na podstawie tych dwóch zmiennych.
Innymi słowy, czy na przykład wyniki kategorii w zmiennej 1 wykazują silną korelację z określoną kategorią zmiennej 2. Ponieważ mam dwie zmienne z 5 kategoriami, całkowita analiza korelacji dla wszystkich kategorii spadłaby do 25 wyników (przynajmniej jeśli działa tak, jak mam nadzieję / oczekuję, że zadziała).
Próbowałem sformułować problem na konkretne pytania:
Pytanie 1: Powiedzmy, że przenoszę zmienną kategorialną na 5 różnych zmiennych zastępczych na wartość (kategorię). Tę samą procedurę uruchamiam również dla drugiej zmiennej. Następnie chcę ustalić korelację między manekinem 1.i a 2.i (na przykład). Czy wykonanie tej procedury jest statystycznie poprawne za pomocą zwykłej procedury współczynnika korelacji? Czy współczynnik korelacji wynikający z tej procedury zapewnia właściwy wgląd w korelację między dwiema zmiennymi obojętnymi?
Pytanie 2: Jeśli procedura opisana w pytaniu pierwszym jest prawidłową procedurą, czy istnieje sposób na przeprowadzenie tej analizy dla wszystkich kategorii 2 (lub więcej) zmiennych jakościowych jednocześnie?
Program, którego używam, to SPSS (20).
źródło
Odpowiedzi:
„Centralne” powiązanie między kategorią jednej zmiennej nominalnej a kategoriąi j drugi jest wyrażony przez częstotliwość resztkową w komórceij , jak wiemy. Jeśli wartość resztkowa wynosi 0, oznacza to, że częstotliwość jest oczekiwana, gdy dwie zmienne nominalne nie są powiązane. Im większa reszta, tym większe jest skojarzenie z powodu nadmiernie reprezentowanej kombinacjiij w próbce. Duża ujemna reszta równoważnie mówi o niedostatecznie reprezentowanej kombinacji. Zatem częstotliwość resztkowa jest tym, czego chcesz.
Surowe pozostałości nie są jednak odpowiednie, ponieważ zależą od wartości krańcowych i ogólnej sumy oraz wielkości tabeli: wartość nie jest w żaden sposób znormalizowana. Ale SPSS może wyświetlać znormalizowane resztki zwane również resztkami Pearsona. St. residual jest resztą podzieloną przez oszacowanie jej odchylenia standardowego (równego pierwiastkowi kwadratowemu oczekiwanej wartości). St resztki tabeli mają średnią 0 i st. dev. 1; dlatego św. reszta służy wartości z, podobnie jak wartość z w rozkładzie zmiennej ilościowej (w rzeczywistości jest to z w rozkładzie Poissona). Pozostałości St. są porównywalne między różnymi tabelami o tej samej wielkości i tej samej sumieN . Statystyka chi-kwadrat tabeli awaryjnej jest sumą kwadratu st. pozostałości w nim. Porównywanie ul. reszty w tabeli i w tabelach o tej samej objętości pomagają zidentyfikować poszczególne komórki, które najbardziej przyczyniają się do statystyki chi-kwadrat.
SPSS wyświetla również skorygowane wartości resztkowe (= skorygowane znormalizowane wartości resztkowe). Adj. reszta to reszta podzielona przez oszacowanie błędu standardowego. Ciekawe, że to przym. reszta jest po prostu równaN−−√rij , gdzie N jest sumą całkowitą i rij to korelacja Pearsona (alias korelacja Phi) między zmiennymi obojętnymi odpowiadającymi kategoriomi i j dwóch zmiennych nominalnych. Tor jest dokładnie tym, co chcesz obliczyć. Adj. Resztka jest bezpośrednio z tym związana.
W przeciwieństwie do św. residual, przym. resztkowy jest również znormalizowane wrt do kształtu brzegowych rozkładów w tabeli (bierze pod uwagę oczekiwaną częstotliwość nie tylko w tej komórce, ale także w komórkach poza jego wiersz i kolumnę), a więc można bezpośrednio zobaczyć siłę z następujących powiązać kategoriei i j - bez obawy o to, czy ich krańcowe sumy są duże czy małe względem innych kategorii ”. Adj. wartość rezydualna jest również jak wynik Z, ale teraz jest jak Z rozkładu normalnego (nie Poissona). Jeśli przym. wartość rezydualna jest wyższa niż 2 lub niższa niż -2, można stwierdzić, że jest znacząca na 1 . Adj. Resztki są nadal realizowane przezN ; r nie są, ale możesz uzyskać wszystkie r s z przym. reszty, zgodnie z powyższą formułą, bez poświęcania czasu na tworzenie zmiennych zastępczych.2
p<0.05
poziomieW odniesieniu do twojego drugiego pytania dotyczącego 3-kierunkowych powiązań kategorii - jest to możliwe w ramach ogólnej analizy loglinearnej, która wyświetla również resztki. Praktyczne wykorzystanie resztek komórek 3-kierunkowych jest jednak niewielkie: miary asocjacyjne 3 (+) nie są łatwo standaryzowane i trudne do interpretacji.
źródło
Bezpośrednio pochodzi z dokumentu dotyczącego statystyki dwuwymiarowej w SPSS, który tutaj znajduje się :
źródło
the SPSS document
trochę zredagowałem , nie było moim zamiarem dołączanie do niej nadmiernej autentyczności.