Dlaczego współczynnik zmienności nie jest prawidłowy, gdy wykorzystuje się dane o wartościach dodatnich i ujemnych?

Nie mogę znaleźć ostatecznej odpowiedzi na moje pytanie.

Moje dane składają się z kilku wykresów, których zmierzone średnie wahają się od 0,27 do 0,57. W moim przypadku wszystkie wartości danych są dodatnie, ale sam pomiar opiera się na stosunku wartości współczynnika odbicia, który może wynosić od -1 do +1. Wykresy reprezentują wartości NDVI , zdalnie uzyskanego wskaźnika „produktywności” roślinności.

Moim zamiarem było porównanie zmienności wartości na każdym wykresie, ale ponieważ każdy wykres ma inną średnią, zdecydowałem się użyć CV do oceny względnego rozrzutu wartości NDVI na wykres.

Z tego co rozumiem, wzięcie CV tych wykresów nie jest koszerne, ponieważ każdy wykres może mieć zarówno wartości dodatnie, jak i ujemne. Dlaczego korzystanie z CV w takich przypadkach nie jest właściwe? Jakie byłyby realne alternatywy (np. Podobny test względnego rozproszenia, transformacji danych itp.)?

descriptive-statistics Prophet60091
źródło

Jaki jest cel porównania zmienności? Dlaczego po prostu nie porównasz miar rzeczywistej zmienności, takich jak SD, MAD, zasięg itp., Zamiast miar względnych, takich jak CV (co tutaj nie ma sensu)?

whuber

Używam CV, aby uwzględnić różnice w środkach między wykresami. Czy to nie ma sensu, ponieważ wartości mieszczą się w zakresie od -1 do +1 na wszystkich wykresach? tzn. „faktyczna zmienność” byłaby bardziej wskazująca na różnice między wykresami?

Prorok60091

CV jest z definicji względną miarą zmienności. Daje bezsensowne wyniki dla jakiejkolwiek średniej ujemnej (nie można interpretować ujemnej wielkości dyspersji lub spreadu). Dla dodatnich środków sprawia, że dana rozpiętość wydaje się znacznie większa, gdy średnia jest mała. Gdy jest to potrzebne, to, co robisz, jest faktycznie równoważne porównywaniu danych w skali logarytmicznej - i to nie ma sensu, gdy którakolwiek z danych może być zerowa lub ujemna. Możliwe, że twoje dane mogą wymagać pewnego rodzaju ponownego wyrażenia, aby umożliwić dobre porównanie zmienności; zależy to od sposobu ich generowania.

whuber

+1 za wyjaśnienie. Chociaż wszystkie moje wykresy są dodatnie, w każdym wykresie mogą znajdować się wartości ujemne. W oparciu o powyższe i poniższą odpowiedź Piotra, wydaje się, że użycie CV nie jest uzasadnione. Przyjrzę się potencjalnie przeskalowaniu wartości i / lub zastosowaniu miar rzeczywistej zmienności.

Prophet60091 17.04.13

Jeśli możesz rozsądnie przeskalować swoje dane, dodając stałą, oznacza to również, że CV nie jest dobrym pomysłem. Wynika to z faktu, że dodanie stałej zmieni CV, ale nie zmieni wariacji.

Peter Flom

Odpowiedzi:

Zastanów się, czym jest CV: stosunek odchylenia standardowego do średniej. Ale jeśli zmienna może mieć wartości dodatnie i ujemne, średnia może być bardzo bliska 0; w związku z tym CV nie robi już tego, co powinno: to znaczy, w jaki sposób rozmiar sd jest większy w porównaniu ze średnią.

EDYCJA: W komentarzu powiedziałem, że jeśli można rozsądnie dodać stałą do zmiennej, CV nie jest dobre. Oto przykład:

set.seed(239920)
x <- rnorm(100, 10, 2)
min(x)#To check that none are negative
(CVX <- sd(x)/mean(x))
x2 <- x + 10
(CVX2 <- sd(x2)/mean(x2))

x2 to po prostu x + 10. Myślę, że intuicyjnie jasne jest, że są one jednakowo zmienne; ale CV jest inne.

Przykładem tego może być fakt, że x to temperatura w stopniach C, a x2 to temperatura w stopniach K (chociaż można argumentować, że K jest właściwą skalą, ponieważ ma zdefiniowane 0).

Peter Flom
źródło

dzięki! Dlatego chodzi przede wszystkim o to, by mieć średnią bliską zera i niekoniecznie mieć dodatnie i ujemne wartości w swoich danych. Jeśli tak, to jak blisko średniej zero uważa się za „bardzo blisko”? W moim przypadku powiedziałbym, że daleko mi do środków bliskich zera. Czy istnieje ostateczny sposób na określenie tego?

Prorok60091

Nie, problemem jest to, że CV nie robi już tego, co powinno, nawet jeśli jest tylko 1 wartość ujemna. Jeśli masz wartości ujemne, nie używaj CV. Ponadto, jeśli twoje wartości mają dowolną skalę, nie używaj CV.

Peter Flom

Dla kompletności, czy mógłbyś podać nieco więcej wyjaśnień, dlaczego użycie dowolnej skali unieważnia użycie CV? Dzięki!

Prophet60091 18.04.13

Szczerze mówiąc, myślę, że @whuber nie zalecał porównywania danych transformowanych i nietransformowanych, ale twój punkt widzenia jest nadal brany pod uwagę: skalowanie wpłynie na CV, gdy można by pomyśleć, że wyniki powinny pozostać takie same. +1 za zabawkowy kod R!

Prophet60091 19.04.13

Nie mam argumentów z komentarzami @whuber do tego wątku.

Peter Flom

Myślę o nich jako o różnych modelach zmienności. Istnieją modele statystyczne, w których CV jest stałe. Tam, gdzie pracują, można zgłosić CV. Istnieją modele, w których odchylenie standardowe jest funkcją mocy średniej. Istnieją modele, w których odchylenie standardowe jest stałe. Z reguły model o stałym CV jest lepszym początkowym odgadnięciem niż model o stałej SD, dla zmiennych w skali współczynnika. Możesz spekulować, dlaczego tak jest, być może na podstawie częstości interakcji multiplikatywnych, a nie addytywnych.

Modelowanie ze stałym CV często wiąże się z transformacją logarytmiczną. (Ważnym wyjątkiem jest nieujemna odpowiedź, która czasami wynosi zero). Jest na to kilka sposobów. Po pierwsze, jeśli CV jest stały, wówczas logi są konwencjonalną transformacją stabilizującą wariancję. Alternatywnie, jeśli twój model błędu jest logarytmiczny ze stałą SD w skali logu, wtedy CV jest prostą transformacją tego SD. CV jest mniej więcej równe logarytmicznej SD, gdy oba są małe.

Dwa sposoby zastosowania metod statystycznych 101, takich jak odchylenie standardowe, to dane w sposób, w jaki je otrzymałeś lub (zwłaszcza jeśli są to skala stosunku) do ich dzienników. Na pierwszy rzut oka starasz się wiedzieć, że natura może być bardziej skomplikowana i że dalsze badania mogą być w porządku. Nie bierz pod uwagę tego, co ludzie wcześniej produktywnie wykorzystali do twoich danych.

Oto przypadek, w którym te rzeczy są ważne. Stężenia chemiczne są czasami podsumowywane za pomocą CV lub modelowane w skali logarytmicznej. Jednak pH jest logarytmicznym stężeniem.

hotgas
źródło

Dziękujemy za Twój wkład i witamy na naszej stronie! Czy możesz wyjaśnić, w jaki sposób twoja odpowiedź odpowiada na pytanie o zasadność używania CV w ogóle do scharakteryzowania danych, które mogą mieć wartości ujemne? Ta sytuacja wydaje się nie być objęta żadną z twoich uwag.

whuber