Przyjmowanie korelacji przed lub po transformacji logarytmicznej zmiennych

9

Czy istnieje ogólna zasada określająca, czy należy obliczyć korelację Pearsona dla dwóch zmiennych losowych X i Y przed podjęciem ich transformacji logicznej, czy po niej? Czy istnieje procedura sprawdzania, która jest bardziej odpowiednia? Dają podobne, ale różne wartości, ponieważ transformacja logarytmiczna jest nieliniowa. Czy zależy to od tego, czy X lub Y są bliższe normalności po zalogowaniu? Jeśli tak, dlaczego to ma znaczenie? Czy to oznacza, że ​​należy wykonać test normalności X i Y względem log (X) i log (Y) i na tej podstawie zdecydować, czy pearson (x, y) jest bardziej odpowiedni niż pearson (log (x), log ( y))?

użytkownik9097
źródło
@vinux ma fajną odpowiedź i zapewnia link informacyjny do zrozumienia roli normalności w korelacji. Chciałem tylko wskazać na to pytanie: stats.stackexchange.com/questions/298, które jest bardzo dobre do zrozumienia, co logi robią w regresji.
gung - Przywróć Monikę

Odpowiedzi:

5

Ponieważ i są monotonicznymi transformacjami danych i , możesz również wybrać korelację rang Spearmana ( ) i nie martwić się o przekształcenie danych, tak jak byś otrzymałlog(X)log(Y)XYρS.ρS.(X,Y)=ρS.(log(X),log(Y))

Kawka
źródło
4

Korelacja (pearsona) mierzy liniową zależność między dwiema zmiennymi ciągłymi. Nie ma takiego wyboru dla (X, Y) lub (log X, log Y). Wykres rozproszenia zmiennych można wykorzystać do zrozumienia zależności.

Poniższy link może odpowiedzieć na pytanie dotyczące normalności. połączyć

vinux
źródło
-3

Korelacja Pearsona służy do testowania parametrycznego i ma większą moc niż test nieparametryczny. Dlatego wybieramy transformację przed wszelkimi nieparametrycznymi procedurami. Przekształć swoje dane i uzyskaj korelację gruszek. Otóż ​​to.

abi
źródło
@ abi: W zależności od wielkości próbki współczynniki Spearmana i Kendalla są względnie podobne pod względem mocy i MSE do współczynników Pearsona przy normalnie rozłożonych danych i są znacznie lepsze nawet przy niewielkim zanieczyszczeniu danych.
Patrick