Buduję model regresji i muszę obliczyć poniżej, aby sprawdzić korelacje
- Korelacja między 2 wielopoziomowymi zmiennymi kategorialnymi
- Korelacja między wielopoziomową zmienną kategorialną a zmienną ciągłą
- VIF (współczynnik inflacji wariancji) dla zmiennych kategorialnych wielopoziomowych
Uważam, że niewłaściwe jest stosowanie współczynnika korelacji Pearsona w powyższych scenariuszach, ponieważ Pearson działa tylko dla 2 zmiennych ciągłych.
Odpowiedz na poniższe pytania
- Który współczynnik korelacji działa najlepiej w powyższych przypadkach?
- Obliczenia VIF działają tylko dla ciągłych danych, więc jaka jest alternatywa?
- Jakie założenia muszę sprawdzić, zanim użyję zaproponowanego przez ciebie współczynnika korelacji?
- Jak wdrożyć je w SAS & R?
r
statistics
correlation
GeorgeOfTheRF
źródło
źródło
Odpowiedzi:
Dwie zmienne kategoryczne
Sprawdzanie, czy dwie zmienne kategorialne są niezależne, można wykonać za pomocą testu niezależności Chi-Squared.
Jest to typowy test chi-kwadrat : jeśli założymy, że dwie zmienne są niezależne, wówczas wartości tabeli kontyngencji dla tych zmiennych powinny być równomiernie rozłożone. A następnie sprawdzamy, jak daleko od jednolitości są rzeczywiste wartości.
Istnieje również Crammer V, który jest miarą korelacji wynikającą z tego testu
Przykład
Załóżmy, że mamy dwie zmienne
Zaobserwowaliśmy następujące dane:
Czy płeć i miasto są niezależne? Wykonajmy test Chi-Squred. Hipoteza zerowa: są niezależne, hipoteza alternatywna polega na tym, że są one w jakiś sposób skorelowane.
Zgodnie z hipotezą zerową zakładamy równomierny rozkład. Zatem nasze oczekiwane wartości są następujące
Przeprowadzamy więc test chi-kwadrat, a uzyskaną tutaj wartość p można postrzegać jako miarę korelacji między tymi dwiema zmiennymi.
Aby obliczyć V Crammera, najpierw znajdujemy współczynnik normalizujący chi-kwadrat-max, który zazwyczaj jest wielkością próbki, dzielimy przez nią chi-kwadrat i przyjmujemy pierwiastek kwadratowy
R
Tutaj wartość p wynosi 0,08 - dość mała, ale wciąż niewystarczająca, aby odrzucić hipotezę niezależności. Możemy więc powiedzieć, że „korelacja” wynosi tutaj 0,08
Obliczamy również V:
I uzyskaj 0,14 (im mniejsze v, tym mniejsza korelacja)
Rozważ inny zestaw danych
W tym celu dałoby to następujące
Wartość p wynosi 0,72, co jest znacznie bliższe 1, a v wynosi 0,03 - bardzo blisko 0
Zmienne kategoryczne a liczbowe
Dla tego typu zazwyczaj wykonujemy jednokierunkowy test ANOVA : obliczamy wariancję wewnątrzgrupową i wariancję wewnątrzgrupową, a następnie porównujemy.
Przykład
Chcemy zbadać związek między wchłoniętym tłuszczem z pączków a rodzajem tłuszczu używanego do produkcji pączków (przykład wzięty tutaj )
Czy istnieje zależność między zmiennymi? W tym celu przeprowadzamy test ANOVA i widzimy, że wartość p wynosi zaledwie 0,007 - nie ma korelacji między tymi zmiennymi.
R
Dane wyjściowe to
Możemy więc również wziąć tutaj wartość p jako miarę korelacji.
Bibliografia
źródło
kruskal-wallic
je wykorzystać zamiastone-way anova
? Z góry dziękuję.