Jaka jest korelacja, jeśli odchylenie standardowe jednej zmiennej wynosi 0?

15

Jak rozumiem, możemy uzyskać korelację poprzez normalizację kowariancji za pomocą równania

ρi,j=cov(Xi,Xj)σiσj

gdzie to odchylenie standardowe . Xiσi=E[(Xiμi)2]Xi

Moje obawy dotyczą tego, czy odchylenie standardowe wynosi zero? Czy jest jakiś warunek, który gwarantuje, że nie może wynosić zero?

Dzięki.

Chepukha
źródło
11
Żadna zmienna, która ma odchylenie standardowe 0, nie może być skorelowana z inną (niestałą) zmienną. Korelacja jest miarą tego, jak duże / małe wartości w jednej zmiennej odpowiadają dużym / małym wartościom w innej zmiennej - jeśli jedna ze zmiennych jest równa stałej z prawdopodobieństwem 1 (konsekwencja posiadania odchylenia standardowego 0), to może „ t ewentualnie podać informacje, czy druga zmienna jest mała czy duża. Nie wiem, na czym polega konwencja, ale wydaje się, że w takim przypadku korelację należy zdefiniować jako 0.
Makro
Wielkie dzięki Makro. Myślę, że twój pomysł jest taki sam jak odpowiedź poniżej. Nie mogłem jednak głosować za twoim komentarzem z powodu ograniczeń punktowych. Dzięki.
chepukha
4
Zaakceptowałeś już odpowiedź, więc napiszę tylko komentarz. Jeśli zmienna losowa ma odchylenie standardowe , to dla dowolnej innej zmiennej losowej (od z prawdopodobieństwem ). Zatem definicja współczynnika korelacji daje nieokreśloną formę . Zwykle definiuje się, że ma być równe , i można tego bronić na podstawie wartości granicznej jakoσ Y = 0 cov ( X , Y ) = E [ ( X - μ X ) ( Y - μ Y ) ] = 0 X ( Y - μ Y ) = 0 1 ρ X , Y = cov ( X , Y )YσY=0
cov(X,Y)=E[(XμX)(YμY)]=0
X(YμY)=01 0ρX,Y=cov(X,Y)σXσY00 ρX,Y0ρX,YσY0 itd.
Dilip Sarwate
6
@Dipip, jeśli jest to odpowiedź, powinna przejść jako odpowiedź. Nie powinno mieć znaczenia, czy odpowiedź została już zaakceptowana.
Andy W
1
@Dilip Problem z formularzem polega na tym, że nawet jeśli można sprawić, by miała określoną wartość za pomocą operacji ograniczania, wartość zależy od tego , jak przyjmujesz limit. Skąd argument, że jest niekompletny (i nieprzekonujący). Czy możesz podać źródło, które przyjmuje tę konwencję i popiera ją z ważnego powodu? 00ρX,Y=0
whuber

Odpowiedzi:

14

Prawdą jest, że jeśli jedno z twoich SD ma wartość 0, równanie to jest niezdefiniowane. Jednak lepszym sposobem myślenia o tym jest to, że jeśli jedna z twoich SD ma wartość 0, nie ma korelacji. W luźnych pojęciach korelacja mówi ci o tym, jak jedna zmienna porusza się, podczas gdy druga zmienna się porusza. SD 0 oznacza, że ​​zmienna nie „porusza się”. Musisz mieć wektor stałej, takiej jak rep(constant, n_times).

gung - Przywróć Monikę
źródło
Wielkie dzięki. Myślę, że to ma sens. Interesujące jest to, że nie widziałem w żadnym podręczniku wzmianki o tej sprawie.
chepukha
@ gung Więc to jest ograniczenie w definicji współczynnika korelacji, to znaczy, że równanie korelacji może mieć dwie wartości, jedna jest taka, jak podano w równaniu powyżej, a 0, gdy SD jednej ze zmiennych wynosi 0.
prashanth
@prashanth, jak sądzę.
Gung - Przywróć Monikę
2

Inną rzeczą do przemyślenia są podstawowe założenia, kiedy mówimy o średnich i odchyleniach standardowych oraz korelacjach.

Jeśli mówimy o próbce danych, jednym z powszechnych założeń jest to, że dane są (przynajmniej w przybliżeniu) normalnie dystrybuowane lub mogą być transformowane w taki sposób (np. Poprzez transformację logów). Jeśli zaobserwujesz odchylenie standardowe wynoszące zero, istnieją dwa scenariusze: albo odchylenie standardowe jest w rzeczywistości niezerowe, ale bardzo małe, a zatem zestaw danych, który masz, zawiera próbki, które są na wartości średniej (może to na przykład się zdarzyć jeśli mierzysz dane z grubym poziomem dokładności); lub model jest źle określony.

W tym drugim scenariuszu odchylenie standardowe, a w konsekwencji korelacja, jest miarą bez znaczenia.

Mówiąc bardziej ogólnie, oba leżące u podstaw rozkłady muszą mieć skończone drugie chwile, a zatem niezerowe odchylenia standardowe, aby korelacja była prawidłową koncepcją.

tdc
źródło
Warto zauważyć, że pierwotne pytanie dotyczy rozkładów (teoretycznych), a nie danych.
whuber
W takim przypadku odchylenie standardowe równe zero oznaczałoby rozkład zdegenerowany z pomiarem tylko przy średniej (tj. Funkcji stałej) ... znowu odchylenie standardowe ma sens tylko, że rozkład leżący u podstaw jest normalny. Jeśli odchylenie standardowe wynosi zero, plik PDF Gaussa nie jest poprawnie zdefiniowany, a zatem niedopuszczalny w modelu.
tdc
Jestem zaskoczony pojawieniem się Gaussian w twoim komentarzu, Tom. To wydaje się niepotrzebnym ograniczeniem. Wymaganie istnienia pdf również wydaje się restrykcyjne (w końcu żadna dyskretna dystrybucja nie ma pdf). Zauważ też, że SD jest dobrze zdefiniowane - „znaczące” - zawsze, gdy druga chwila jest skończona, i obejmuje to atomy prawdopodobieństwa (funkcje „delty Diraca”).
whuber
Ok, zgadzam się, że prawdopodobnie był zbyt restrykcyjny, ale ogólnie to ludzie rozumieją przez SD. np. z Wolfram: „Odchylenie standardowe można zdefiniować dla dowolnego rozkładu ze skończonymi pierwszymi dwoma momentami, ale najczęściej przyjmuje się, że podstawowy rozkład jest normalny”. Czy uważasz, że jeśli SD = 0 dla jednej ze zmiennych, podstawowe założenia leżące u podstaw statystycznej koncepcji korelacji nie są spełnione?
tdc
Tak, Tom, twoje ostatnie oświadczenie jest na miejscu i chętnie je akceptuję. Jednak pomysł, który wyraża, nie pojawia się bardzo wyraźnie w twojej odpowiedzi; jeśli tam jest, jest zakopany w uwagach o normalnych dystrybucjach, logach, funkcjach delta i skupieniu się na danych, a nie na samych dystrybucjach. BTW, należy zachować ostrożność, aby na stronie Wolfram pojawiały się stwierdzenia statystyczne: jest on tak mocno zorientowany na matematykę, że jego charakterystyki dotyczące praktyki statystycznej mogą być wątpliwe. Tutaj jest to całkowicie błędne: użycie SD wykracza daleko poza ustawienia dystrybucji normalnej.
whuber
2

Korelacja to cosinus kąta między dwoma wektorami. Stwierdzenie, że odchylenie standardowe dla Y wynosi zero, jest tym samym, co powiedzenie, że wektor Y-średnia (Y) wynosi zero (lub, bardziej rygorystycznie, że reprezentuje zero w odpowiedniej przestrzeni wektorowej). Powstaje więc pytanie: „Co można powiedzieć o (cosinusie) kąta między wektorem zerowym a wektorem X-średnia (X)?”. Mówiąc bardziej ogólnie, w jakiejkolwiek przestrzeni wektorowej z iloczynem wewnętrznym, co oznacza kąt między wektorem zerowym a jakimś innym wektorem? Moim zdaniem jest na to tylko jedna odpowiedź, a mianowicie, że pojęcie „kąta” w tej sytuacji jest pozbawione znaczenia, a zatem pojęcie korelacji w tej sytuacji jest bez znaczenia.

David Epstein
źródło
0

Zastrzeżenie, zdaję sobie sprawę, że istnieje już akceptowana odpowiedź jakościowa, więc powinna to być odpowiedź, ale nie mam punktów doświadczenia, aby na to pozwolić. @Dilip wspomniał, że można zdefiniować korelację jako 0 dla konwencji, ale wydaje się to problematyczne, ponieważ miałaby zupełnie inną interpretację niż korelacja, która jest naprawdę zerowa (z niezerowymi SD). Pierwotne pytanie brzmi „jeśli SD jednej zmiennej wynosi zero”. Jeśli zatrzymamy się i pomyślimy o definicji „zmiennej”, otrzymamy znacznie bardziej bezpośrednią ścieżkę do odpowiedzi. Zmienna z 0 SD wcale nie jest zmienną, jest stałą. W takim przypadku nie masz dwóch zmiennych, więc koncepcyjnie nie ma sensu definiowanie korelacji.

Skye Buckner-Petty
źródło
Jeśli nie masz wystarczającej liczby punktów do skomentowania, nie powinieneś komentować odpowiedzi.
Michael R. Chernick