Wiem empirycznie, że tak jest. Właśnie opracowałem modele, które wpadają w tę zagadkę. Podejrzewam również, że niekoniecznie jest to odpowiedź tak / nie. Rozumiem przez to, że zarówno A, jak i B są skorelowane z C, może to mieć pewne implikacje dotyczące korelacji między A i B. Ale ta implikacja może być słaba. Może to być tylko znak kierunku i nic więcej.
Oto, co mam na myśli ... Powiedzmy, że zarówno A, jak i B mają korelację 0,5 z C. Biorąc to pod uwagę, korelacja między A i B może wynosić 1,0. Myślę, że może to być również 0,5 lub nawet mniej. Ale myślę, że jest mało prawdopodobne, aby był negatywny. Zgadzasz się z tym?
Czy ma to również wpływ na rozważenie standardowego współczynnika korelacji Pearsona, czy zamiast tego współczynnika korelacji Spearmana (ranga)? Moje ostatnie obserwacje empiryczne były związane ze współczynnikiem korelacji Spearmana.
Odpowiedzi:
Ponieważ korelacja jest matematyczną właściwością rozkładów wielowymiarowych, pewien wgląd można uzyskać wyłącznie poprzez obliczenia, niezależnie od statystycznej genezy tych rozkładów.
Dla korelacji Pearsona , należy rozważyć zmienne multinormal , Y , Z . Przydają się one do pracy, ponieważ każda nieujemna określona macierz faktycznie jest macierzą kowariancji niektórych rozkładów wielomianowych, rozwiązując w ten sposób pytanie o istnienie. Jeśli trzymamy się macierzy z 1 na przekątnej, nieprzekątne wpisy macierzy kowariancji będą ich korelacjami. Zapisywanie korelacji X i Y jako ρ , korelacji Y i Z jako τ oraz korelacji X i σX Y Z 1 X Y ρ Y Z τ X jakoZ σ obliczamy to
(ponieważ jest to wyznacznik macierzy korelacji i nie może być ujemna).1+2ρστ−(ρ2+σ2+τ2)≥0
Gdy oznacza to, że ρ 2 + τ 2 ≤ 1 . Innymi słowy: gdy zarówno ρ, jak i τ są duże, X i Z muszą mieć niezerową korelację.σ=0 ρ2+τ2≤1 ρ τ X Z
Jeśli , to dowolna nieujemną wartość Ď (pomiędzy 0 i 1ρ2=τ2=1/2 σ 0 1 , oczywiście) jest możliwe.
Gdy , dopuszczalne są ujemne wartości σ . Na przykład, gdy ρ = τ = 1 / 2 , σ mogą być w dowolnym miejscu pomiędzy - 1 / 2 i 1 .ρ2+τ2<1 σ ρ = τ= 1 / 2 σ - 1 / 2 1
Te rozważania sugerują, że rzeczywiście istnieją pewne ograniczenia we wzajemnych korelacjach. Ograniczenia (które zależą tylko od nieujemnej definitywności macierzy korelacji, a nie od faktycznych rozkładów zmiennych) można zaostrzyć w zależności od założeń dotyczących rozkładów jednowymiarowych. Na przykład łatwo jest zobaczyć (i udowodnić), że gdy rozkłady i Y nie należą do tej samej rodziny o skali lokalizacji, ich korelacje muszą być ściśle mniejsze niż 1 . (Dowód: korelacja ± 1 implikuje X iX Y 1 ± 1 X są liniowo powiązane jako)Y
Miarę Spearman Rank korelacje przejść, za trzy uwagi trivariate , ( 2 , 3 , 1 ) i ( 3 , 2 , 3 ) z ( X , Y , Z ) . Ich wzajemne korelacje są Rank 1 / 2 , 1 / 2 , oraz - 1 /( 1 , 1 , 2 ) ( 2 , 3 , 1 ) (3,2,3) (X,Y,Z) 1 / 2 1 / 2 . Tak więc nawet znak korelacji rangowej- 1 / 2 i Z mogą być odwrotnością znaki korelacji X i Y i X i Z .Y Z X Y X Z
źródło
Jestem teraz na corocznej wyprawie rybackiej. Istnieje korelacja między porą dnia, w której łowię, a ilością ryb, które łowię. Istnieje również korelacja między wielkością używanej przeze mnie przynęty a ilością złowionych przeze mnie ryb. Nie ma korelacji między wielkością przynęty a porą dnia.
źródło
Korelacja to cosinus kąta między dwoma wektorami. W opisanej sytuacji (A, B, C) jest potrojem obserwacji, wykonanych n razy, przy czym każda obserwacja jest liczbą rzeczywistą. Korelacja między A i B jest cosinus kąta między i V B = B - E ( B ), mierzone w n-wymiarowej przestrzeni euklidesowej. Nasza sytuacja sprowadza się więc do rozważenia 3 wektorów V A , V B i VVA=A−E(A) VB=B−E(B) VA VB VC w n przestrzeni wymiarowej. Mamy 3 pary wektorów, a zatem 3 kąty. Jeśli dwa kąty są małe (wysoka korelacja), trzeci również będzie mały. Ale powiedzenie „skorelowany” nie stanowi większego ograniczenia: oznacza, że kąt wynosi od 0 do . Zasadniczo nie daje to żadnych ograniczeń w odniesieniu do trzeciego kąta. Innymi słowy, zacznij od dowolnego kąta mniejszego niż π między V A i V B (dowolna korelacja oprócz -1). Niech V C podział na pół kąt pomiędzy V A i V B . Wtedy C będzie skorelowane zarówno z A, jak i B.π/2 π VA VB VC VA VB
źródło
Jako dodatek do odpowiedzi Whubera: przedstawiona formuła
.1+2ρστ−(ρ2+σ2+τ2)≥0
można przekształcić w następującą nierówność (Olkin, 1981):
Graficznym przedstawieniem górnych i dolnych granic dla wygląda następująco:ρ
Olkin, I. (1981). Ograniczenia zakresu dla macierzy korelacji momentu produktu. Psychometrika, 46, 469–472. doi: 10.1007 / BF02293804
źródło
Myślę, że lepiej zapytać „dlaczego POWINNY być skorelowane?” lub może „Dlaczego warto mieć jakąś konkretną korelację?”
Poniższy kod R pokazuje przypadek, w którym oba x1 i x2 są skorelowane z Y, ale mają ze sobą korelację 0
Korelację z Y można wzmocnić, zmniejszając .3 do .1 lub cokolwiek innego
źródło
Demonstrację statystyczną pozostawię tym, którzy są do tego bardziej odpowiedni niż ja ... ale intuicyjnie mówię, że zdarzenie A generuje proces X, który przyczynia się do wygenerowania zdarzenia C. Następnie A jest skorelowany z C (poprzez X). Z drugiej strony B generuje Y, który również kształtuje C. Dlatego A jest skorelowane z C, B jest skorelowane z C, ale A i B nie są skorelowane.
źródło
Dla tych, którzy chcą intuicji, korelację można postrzegać jako cosinus pod pewnym kątem. Rozważmy trzy wektory w 3D, powiedzmy A, B i C, każdy odpowiadający jednej zmiennej. Pytanie polega na określeniu zakresu możliwych kątów między A i C, gdy znany jest kąt między A i B, a także kąt między B i C. W tym celu możesz grać za pomocą narzędzia online bez instalowania żadnego oprogramowania. Wystarczy wejść na stronę http://www.montefiore.ulg.ac.be/~pierard/chained_correlations.php
źródło
Weźmy jeden przykład:
Dla niektórych x, A i B będą miały znaczącą korelację, podobnie A i C będą również miały znaczącą korelację, ale korelacja B i C nie będzie znacząca.
Zatem niekoniecznie jest prawdą, że jeśli A i B są skorelowane, a A i C są skorelowane, to B i C są również skorelowane.
Uwaga: Aby uzyskać głębokie zrozumienie, pomyśl o tym przykładzie dotyczącym dużych danych.
źródło