Nie mogę znaleźć ostatecznej odpowiedzi na moje pytanie.
Moje dane składają się z kilku wykresów, których zmierzone średnie wahają się od 0,27 do 0,57. W moim przypadku wszystkie wartości danych są dodatnie, ale sam pomiar opiera się na stosunku wartości współczynnika odbicia, który może wynosić od -1 do +1. Wykresy reprezentują wartości NDVI , zdalnie uzyskanego wskaźnika „produktywności” roślinności.
Moim zamiarem było porównanie zmienności wartości na każdym wykresie, ale ponieważ każdy wykres ma inną średnią, zdecydowałem się użyć CV do oceny względnego rozrzutu wartości NDVI na wykres.
Z tego co rozumiem, wzięcie CV tych wykresów nie jest koszerne, ponieważ każdy wykres może mieć zarówno wartości dodatnie, jak i ujemne. Dlaczego korzystanie z CV w takich przypadkach nie jest właściwe? Jakie byłyby realne alternatywy (np. Podobny test względnego rozproszenia, transformacji danych itp.)?
źródło
Odpowiedzi:
Zastanów się, czym jest CV: stosunek odchylenia standardowego do średniej. Ale jeśli zmienna może mieć wartości dodatnie i ujemne, średnia może być bardzo bliska 0; w związku z tym CV nie robi już tego, co powinno: to znaczy, w jaki sposób rozmiar sd jest większy w porównaniu ze średnią.
EDYCJA: W komentarzu powiedziałem, że jeśli można rozsądnie dodać stałą do zmiennej, CV nie jest dobre. Oto przykład:
x2 to po prostu x + 10. Myślę, że intuicyjnie jasne jest, że są one jednakowo zmienne; ale CV jest inne.
Przykładem tego może być fakt, że x to temperatura w stopniach C, a x2 to temperatura w stopniach K (chociaż można argumentować, że K jest właściwą skalą, ponieważ ma zdefiniowane 0).
źródło
Myślę o nich jako o różnych modelach zmienności. Istnieją modele statystyczne, w których CV jest stałe. Tam, gdzie pracują, można zgłosić CV. Istnieją modele, w których odchylenie standardowe jest funkcją mocy średniej. Istnieją modele, w których odchylenie standardowe jest stałe. Z reguły model o stałym CV jest lepszym początkowym odgadnięciem niż model o stałej SD, dla zmiennych w skali współczynnika. Możesz spekulować, dlaczego tak jest, być może na podstawie częstości interakcji multiplikatywnych, a nie addytywnych.
Modelowanie ze stałym CV często wiąże się z transformacją logarytmiczną. (Ważnym wyjątkiem jest nieujemna odpowiedź, która czasami wynosi zero). Jest na to kilka sposobów. Po pierwsze, jeśli CV jest stały, wówczas logi są konwencjonalną transformacją stabilizującą wariancję. Alternatywnie, jeśli twój model błędu jest logarytmiczny ze stałą SD w skali logu, wtedy CV jest prostą transformacją tego SD. CV jest mniej więcej równe logarytmicznej SD, gdy oba są małe.
Dwa sposoby zastosowania metod statystycznych 101, takich jak odchylenie standardowe, to dane w sposób, w jaki je otrzymałeś lub (zwłaszcza jeśli są to skala stosunku) do ich dzienników. Na pierwszy rzut oka starasz się wiedzieć, że natura może być bardziej skomplikowana i że dalsze badania mogą być w porządku. Nie bierz pod uwagę tego, co ludzie wcześniej produktywnie wykorzystali do twoich danych.
Oto przypadek, w którym te rzeczy są ważne. Stężenia chemiczne są czasami podsumowywane za pomocą CV lub modelowane w skali logarytmicznej. Jednak pH jest logarytmicznym stężeniem.
źródło