To trochę kontrola, proszę, pomóżcie mi zobaczyć, czy nie rozumiem tej koncepcji iw jaki sposób.
Mam funkcjonalne zrozumienie korelacji, ale czuję się trochę wyłapany, aby naprawdę pewnie wyjaśnić zasady tego funkcjonalnego zrozumienia.
Jak rozumiem, korelacja statystyczna (w przeciwieństwie do bardziej ogólnego użycia tego terminu) jest sposobem na zrozumienie dwóch ciągłych zmiennych i sposobu, w jaki one rosną lub nie mają tendencji do wzrostu lub spadku w podobny sposób.
Powodem, dla którego nie można uruchomić korelacji, powiedzmy, jednej zmiennej ciągłej i jednej zmiennej kategorialnej, jest to, że nie można obliczyć kowariancji między nimi, ponieważ zmienna kategoryczna z definicji nie może dać średniej, a zatem nie może nawet wejść do pierwszej etapy analizy statystycznej.
Czy to prawda?
Odpowiedzi:
Korelacja jest standaryzowany kowariancji, czyli kowariancjix i y podzielona przez odchylenie standardowe x i y . Pozwól mi to zilustrować.
Mówiąc luźniej, statystyki można podsumować jako dopasowanie modeli do danych i ocenę, jak dobrze model opisuje te punkty danych ( Wynik = Model + Błąd ). Jednym ze sposobów jest obliczenie sum odchyleń lub reszt (res) z modelu:
Wiele obliczeń statystycznych opiera się na tym, w tym. współczynnik korelacji (patrz poniżej).
Oto przykładowy zestaw danych
R
(reszty są oznaczone czerwonymi liniami, a ich wartości dodane obok nich):Patrząc na każdy punkt danych indywidualnie i odejmując jego wartość od modelu (np. Średnią; w tym przypadkuS.S. ):
X=11
iY=5.4
), można ocenić dokładność modelu. Można powiedzieć, że model zawyżał / nie doceniał rzeczywistej wartości. Jednak sumując wszystkie odchylenia od modelu, całkowity błąd ma tendencję do zera , wartości się znoszą, ponieważ istnieją wartości dodatnie (model nie docenia konkretnego punktu danych) i wartości ujemne (model przecenia określone dane punkt). Aby rozwiązać ten problem, sumy odchyleń są podniesione do kwadratu i teraz nazywane są sumami kwadratów (Dla wygody można przyjąć pierwiastek kwadratowy wariancji próbki, który jest znany jako standardowe odchylenie próbki:
Teraz kowariancja ocenia, czy dwie zmienne są ze sobą powiązane. Wartość dodatnia wskazuje, że gdy jedna zmienna odbiega od średniej, druga zmienna odchyla się w tym samym kierunku.
Poprzez standaryzację wyrażamy kowariancję na jednostkę odchylenia standardowego, która jest współczynnikiem korelacji Pearsonar . This allows comparing variables with each other that were measured in different units. The correlation coefficient is a measure of the strength of a relationship ranging from -1 (a perfect negative correlation) to 0 (no correlation) and +1 (a perfect positive correlation).
In this, case the Pearson correlation coefficient isr=0.87 , which can be considered a strong correlation (although this is also relative depending on the field of study). To check this, here another plot with
X
on the x-axis andY
on the y axis:Tak krótka historia, tak, masz rację, ale mam nadzieję, że moja odpowiedź da kontekst.
źródło
Masz (prawie) rację. Kowariancję (a zatem i korelację) można obliczyć tylko między zmiennymi numerycznymi. Obejmuje to zmienne ciągłe, ale także dyskretne zmienne numeryczne.
Zmienne kategorialne można wykorzystać do obliczenia korelacji, podając tylko użyteczny dla nich kod numeryczny, ale nie jest to prawdopodobne, aby przyniosło to praktyczną przewagę - być może może być przydatne dla niektórych zmiennych kategorialnych na dwóch poziomach, ale inne narzędzia mogą być bardziej odpowiednie.
źródło
Nie ma absolutnie nic złego w obliczaniu korelacji, w których jedna ze zmiennych jest kategoryczna. Silna dodatnia korelacja oznaczałaby, że włączenie zmiennej kategorialnej (lub wyłączenie w zależności od konwencji) powoduje wzrost odpowiedzi. Może się to na przykład zdarzyć przy obliczaniu regresji logistycznej, w której zmienne są kategoryczne: przewidywanie szansy na zawał serca w przypadku chorób współistniejących, takich jak cukrzyca i bmi. W takim przypadku BMI miałby bardzo silną korelację z atakami serca. Czy doszedłbyś do wniosku, że to nie jest przydatne?
źródło