Obliczyłem macierz korelacji zbioru danych, który zawiera 455 punktów danych, każdy punkt danych zawiera 14 charakterystyk. Zatem wymiar macierzy korelacji wynosi 14 x 14.
Zastanawiałem się, czy istnieje próg wartości współczynnika korelacji, który wskazuje, że istnieje znacząca korelacja między dwiema tymi cechami.
Mam wartość w zakresie od -0,2 do 0,85 i myślałem, że ważnymi są te, które są powyżej 0,7.
- Czy istnieje ogólna wartość współczynnika korelacji, którą należy wziąć pod uwagę dla progu, czy też kontekst zależy od typu danych, który badam?
Odpowiedzi:
Testy istotności dla korelacji
Istnieją testy o znaczeniu statystycznym, które można zastosować do poszczególnych korelacji, które wskazują prawdopodobieństwo uzyskania korelacji tak dużej lub większej niż korelacja próbki, przy założeniu, że hipoteza zerowa jest prawdziwa.
Kluczową kwestią jest to, że to, co stanowi statystycznie istotny współczynnik korelacji, zależy od:
W typowych okolicznościach, gdy alfa wynosi 0,05, przy zastosowaniu testu dwustronnego, z korelacją Pearsona, i gdzie normalność jest co najmniej odpowiednim przybliżeniem, głównym czynnikiem wpływającym na wartość odcięcia jest wielkość próbki.
cor.test
obliczy istotność statystyczną korelacji w RPróg ważności
Innym sposobem interpretacji pytania jest rozważenie, czy nie jesteś zainteresowany tym, czy korelacja jest istotna statystycznie, ale raczej, czy jest ona praktycznie ważna.
Niektórzy badacze zaproponowali praktyczne reguły interpretacji znaczenia współczynników korelacji, ale te reguły są specyficzne dla danej dziedziny.
Testy wielokrotnego znaczenia
Jak zauważył @ user603, kwestie te zostały dobrze omówione we wcześniejszym pytaniu .
Zasadniczo uważam, że przydatne jest interpretowanie macierzy korelacji w celu skupienia się na strukturze wyższego poziomu. Można to zrobić w nieformalny sposób, patrząc na ogólne wzorce w macierzy korelacji. Można to zrobić bardziej formalnie, stosując techniki takie jak PCA i analiza czynnikowa. Takie podejście pozwala uniknąć wielu problemów związanych z testowaniem wielu znaczeń.
źródło
Jedną z opcji byłoby testowanie symulacji lub permutacji. Jeśli znasz rozkład, z którego pochodzą twoje dane, możesz symulować z tego rozkładu, ale niezależnie od wszystkich obserwacji. Jeśli nie znasz rozkładu, możesz permutować każdą ze swoich zmiennych niezależnie od siebie, co da ci taki sam ogólny rozkład krańcowy każdej zmiennej, ale z usuniętą korelacją.
Wykonaj jedną z powyższych czynności (zachowując ten sam rozmiar próbki i wymiary matrycy) całą masę razy (około 10 000) i spójrz na maksymalną bezwzględną korelację lub inny wysoki kwantyl, który może być interesujący. To da ci rozkład z hipotezy zerowej, że możesz następnie porównać maksimum rzeczywistych obserwowanych korelacji z (i innymi wysokimi kwantylami zainteresowania).
źródło
Możesz pokazać, że błąd standardowy w korelacji Pearsona dwóch wektorów niezależnych stochastycznie próbkowanych z rozkładu normalnego wynosin- 2 , gdzie n jest długością wektora. Tak więc miałaby statystycznie istotna korelacja dwóch wektorówC O R R > > N- 2
źródło