Mam zmienną nominalną (różne tematy konwersacji, zakodowane jako topic0 = 0 itd.) I kilka zmiennych skalowych (DV), takich jak długość konwersacji.
Jak mogę ustalić korelacje między zmiennymi nominalnymi i skalowanymi?
correlation
continuous-data
categorical-data
Paul Miller
źródło
źródło
Odpowiedzi:
Tytuł tego pytania sugeruje podstawowe nieporozumienie. Najbardziej podstawową ideą korelacji jest „w miarę wzrostu jednej zmiennej, czy druga zmienna rośnie (korelacja dodatnia), maleje (korelacja ujemna) lub pozostaje taka sama (brak korelacji)” w skali takiej, że idealna korelacja dodatnia wynosi +1, brak korelacji wynosi 0, a idealna korelacja ujemna wynosi -1. Znaczenie „idealna” zależy od zastosowanej miary korelacji: dla korelacji Pearsona oznacza to, że punkty na wykresie rozrzutu leżą dokładnie na linii prostej (nachylone w górę dla +1 i w dół dla -1), dla korelacji Spearmana, że szeregi dokładnie się zgadzają (lub dokładnie się nie zgadzają, więc pierwszy jest łączony z ostatnim, dla -1), a dla tau Kendallaże wszystkie pary obserwacji mają zgodne szeregi (lub niezgodne dla -1). Intuicyjność tego, jak to działa w praktyce, można uzyskać na podstawie korelacji Pearsona dla następujących wykresów rozrzutu ( uznanie obrazu ):
Co daje:
Używając „Plotki” jako poziomu odniesienia dla „Tematu” i definiując binarne zmienne zmienne dla „Sportu” i „Pogody”, możemy wykonać regresję wielokrotną.
Zauważ, że 0,825 nie jest korelacją między czasem trwania a tematem - nie możemy skorelować tych dwóch zmiennych, ponieważ temat jest nominalny. To, co faktycznie reprezentuje, to korelacja między obserwowanymi czasami trwania a przewidywanymi (dopasowanymi) przez nasz model. Obie te zmienne są numeryczne, więc jesteśmy w stanie je skorelować. W rzeczywistości dopasowane wartości są tylko średnimi czasami trwania dla każdej grupy:
Aby to sprawdzić, korelacja Pearsona między wartościami zaobserwowanymi i dopasowanymi wynosi:
Możemy to sobie wyobrazić na wykresie punktowym:
Siła tego związku jest wizualnie bardzo podobna do tych z wykresów Kwartetu Anscombe, co nie jest zaskakujące, ponieważ wszyscy mieli korelacje Pearsona około 0,82.
Możesz być zaskoczony, że z kategoryczną zmienną niezależną wybrałem regresję (wielokrotną) zamiast ANOVA jednokierunkowej . Ale w rzeczywistości okazuje się to równoważnym podejściem.
To daje podsumowanie z identyczną statystyką F i wartością p :
Ponownie, model ANOVA pasuje do średnich grupy, podobnie jak regresja:
Jest jednak całkiem możliwe, że ani „korelacja”, ani „wyjaśniona proporcja wariancji” nie jest miarą wielkości efektu, której chcesz użyć. Na przykład możesz skupić się bardziej na tym, jak różnią się środki między grupami. To pytanie i odpowiedź zawierają więcej informacji na temat kwadratu eta, kwadratu częściowego eta i różnych alternatyw.
źródło