Jak interpretować współczynnik zmienności?

33

Próbuję zrozumieć współczynnik zmienności . Kiedy próbuję zastosować go do następujących dwóch próbek danych, nie jestem w stanie zrozumieć, jak interpretować wyniki.

Powiedzmy, że próbka 1 to a próbka 2 to {10, 15, 17, 22, 21, 27} . Tutaj próbka 2 = próbka 1 + \ 10, jak widać.0,5,7,12,11,1710,15,17,22,21,27=+ 10

Oba mają takie samo odchylenie standardowe σ2)=σ1=5,95539 ale μ2)=18,67 i μ1=8,666667 .

Teraz współczynnik zmienności σ/μ będzie inny. Dla próbki 2 będzie mniej niż dla próbki 1. Ale jak interpretować ten wynik? Pod względem wariancji oba są takie same; tylko ich środki są różne. Jaki jest więc tutaj współczynnik zmienności? To mnie po prostu wprowadza w błąd, a może nie jestem w stanie zinterpretować wyników.

Durin
źródło
Jeśli zamiast dodania 10 dodasz 1000, drugi zestaw liczb będzie różnić się o wiele mniej, w stosunku do średniej, niż pierwszy zestaw. Współczynnik zmienności jest tego wyrazem.
Bardzo ściśle związane: stats.stackexchange.com/questions/113437/... .
whuber

Odpowiedzi:

42

W przykładach takich jak twoje, gdy dane różnią się tylko addytywnie, tj. Dodajemy do wszystkiego pewną stałą , a następnie, jak zauważysz, standardowe odchylenie pozostaje niezmienione, średnia zmienia się dokładnie o tę stałą, a więc współczynnik zmienności zmienia się z do , co nie jest ani interesujące, ani użyteczne.σ / μ σ / ( μ + k )kσ/μσ/(μ+k)

Interesująca jest multiplikatywna zmiana, w której pewien współczynnik zmienności ma pewne zastosowanie. Pomnożenie wszystkiego przez jakąś stałą oznacza, że ​​współczynnik zmienności staje się , tj. Pozostaje taki sam jak poprzednio. Przykładem jest zmiana jednostek miary, jak w odpowiedziach @Aksalal i @Macond.k σ / k μkkσ/kμ

Ponieważ współczynnik zmienności jest wolny od jednostek, więc również nie ma wymiarów, ponieważ wszelkie jednostki lub wymiary posiadane przez zmienną podstawową są wymywane przez podział. To sprawia, że ​​współczynnik zmienności jest miarą względnej zmienności , więc względną zmienność długości można porównać z wagą i tak dalej. Jednym z obszarów, w którym współczynnik zmienności znalazł pewne zastosowanie opisowe, jest morfometria wielkości organizmu w biologii.

W zasadzie i praktyce współczynnik zmienności jest definiowany tylko w pełni i w ogóle użyteczny dla zmiennych, które są całkowicie dodatnie. Dlatego też twoja pierwsza próbka o wartości nie jest odpowiednim przykładem. Innym sposobem dostrzeżenia tego jest odnotowanie, że gdyby średnia była zawsze zerowa, współczynnik byłby nieokreślony i gdyby średnia była zawsze ujemna, współczynnik byłby ujemny, zakładając w tym ostatnim przypadku, że odchylenie standardowe jest dodatnie. W obu przypadkach środek byłby bezużyteczny jako miara względnej zmienności, a nawet w jakimkolwiek innym celu. 0

Równoważnym stwierdzeniem jest to, że współczynnik zmienności jest interesujący i użyteczny tylko wtedy, gdy logarytmy są zdefiniowane w zwykły sposób dla wszystkich wartości, a faktycznie użycie współczynników zmienności jest równoważne spojrzeniu na zmienność logarytmów.

Chociaż dla czytelników powinno to wydawać się niewiarygodne, widziałem publikacje klimatologiczne i geograficzne, w których współczynniki zmienności temperatur Celsjusza zaskoczyły naiwnych naukowców, którzy zauważają, że współczynniki mogą eksplodować, gdy średnie temperatury zbliżają się do C i stają się ujemne dla średnie temperatury poniżej zera. Co dziwniejsze, widziałem sugestie, że problem został rozwiązany za pomocą Fahrenheita. I odwrotnie, współczynnik zmienności jest często wymieniany poprawnie jako miara podsumowująca określona wtedy i tylko wtedy, gdy skale pomiarowe kwalifikują się jako skala współczynników. Tak się składa, że ​​współczynnik zmienności nie jest szczególnie użyteczny nawet w temperaturach mierzonych w stopniach Kelvina, ale z przyczyn fizycznych, a nie matematycznych lub statystycznych.0

Podobnie jak w przypadku dziwnych przykładów z klimatologii, które pozostawiam bez odniesienia, ponieważ autorzy nie zasługują ani na uznanie, ani na wstyd, współczynnik zmienności został w niektórych dziedzinach nadmiernie wykorzystany. Czasami istnieje tendencja do postrzegania go jako pewnego rodzaju magicznego podsumowania, które zawiera zarówno średnią, jak i odchylenie standardowe. Jest to naturalnie prymitywne myślenie, ponieważ nawet gdy stosunek ma sens, nie można z niego odzyskać średniej i odchylenia standardowego.

W statystyce współczynnik zmienności jest dość naturalnym parametrem, jeśli zmiana wynika albo z gamma, albo z logarytmu normalnego, co można zobaczyć, patrząc na formę współczynnika zmienności dla tych rozkładów.

Chociaż współczynnik zmienności może być przydatny, w przypadkach, w których ma zastosowanie, bardziej użytecznym krokiem jest praca w skali logarytmicznej, albo przez transformację logarytmiczną, albo za pomocą funkcji połączenia logarytmicznego w uogólnionym modelu liniowym.

EDYCJA: Jeśli wszystkie wartości są ujemne, możemy uznać znak za zwykłą konwencję, którą można zignorować. Odpowiednio w takim przypadkujest faktycznie identycznym bliźniakiem współczynnika zmienności.σ/|μ|

Nick Cox
źródło
3
+1 Ten post zawiera kluczowe punkty dotyczące logarytmów i pozytywności, które powinny być częścią każdej dyskusji na ten temat. „Historie wojenne” sprawiają, że jest to również dobra lektura.
whuber
Myślałem, że nie możesz obliczyć CV, jeśli zmienna wynosi = 0?
1
@Jerf: Przemyśl to. Jeśli wszystkie wartości są równe 0, nie ma zmiany i nie ma nic do obliczenia. Nie ma problemu tylko dlatego, że niektóre indywidualne wartości wynoszą 0, ponieważ samo to nie wyklucza średniej równej 0. Jednak zawsze można znaleźć przykłady, w których niektóre wartości nie są równe zero, a średnia wynosi 0, np. -1, 0, 1 w w takim przypadku CV jest nieokreślone. Ale w praktyce CV jest najbardziej przydatne, gdy wszystkie wartości są dodatnie.
Nick Cox,
13

Wyobraź sobie, że powiedziałem: „W tym mieście jest 1 625 330 osób. Plus minus pięć”. Byłbyś pod wrażeniem mojej dokładnej wiedzy demograficznej.

Ale gdybym powiedział: „W tym domu jest pięć osób. Plus minus pięć”. Można by pomyśleć, że nie mam pojęcia, ile osób było w domu.

To samo odchylenie standardowe, bardzo różne CV.

Bart
źródło
1
Jest to rozsądny sposób wyjaśnienia, co to jest CoV, ale nie jest jasne, jak istotne jest to pytanie PO.
gung - Przywróć Monikę
OP pyta: „Pod względem wariancji oba są takie same; tylko ich średnie są różne. Więc jaki jest tutaj współczynnik współczynnika zmienności?” Myślę, że mój przykład ilustruje użycie CV jako sposobu interpretacji wariancji.
Bart
1
Nie głosowałem cię. Dwa wyraźne pytania PO to: „jak interpretować ten wynik?” I „jaki jest tutaj współczynnik współczynnika zmienności?”. Twoje wyjaśnienie jest dobre, ale zrozumienie, co to jest CoV, to tylko pierwszy krok w odpowiedzi na te pytania, a nie cała odpowiedź na te pytania.
gung - Przywróć Monikę
4

Zwykle używa się współczynnika zmienności dla zmiennej o różnych jednostkach miary lub bardzo różnych skalach. Można to traktować jako stosunek szumu do sygnału. Na przykład możesz porównać zmienność masy i wzrostu uczniów; zmienność PKB USA i Monako.

W twoim przypadku współczynnik zmienności może w ogóle nie mieć większego sensu, ponieważ wartości nie są bardzo różne.

Aksakal
źródło
2

s/x¯

Macond
źródło
2

W rzeczywistości obie statystyki mogą wprowadzać w błąd, jeśli nie znasz lub nie rozumiesz swojej hipotezy i eksperymentu. Rozważ ten makabryczny przykład ... Chodzenie po dwóch wysokich budynkach po linie, a nie chodzenie po desce. Powiedzmy, że linka ma średnicę 1 cala, podczas gdy deska ma 12 cali szerokości. 5 osób poproszono o przejście po linie, a 5 poproszono o przejście po desce. Znaleziono następujące wyniki:

Średnia odległość każdego kroku od krawędzi (lub boku) liny (cale): 0,5, 0,2, 0,3, 0,6, 0,1

Średnia odległość każdego stopnia od krawędzi (lub boku) deski (cale): 5,5, 5,2, 5,3, 5,6, 5,1

Podobnie jak w twoim przykładzie, ten przykład spowoduje równe odchylenia standardowe, ponieważ wartości deski są po prostu różnicą +5 do wartości dla linoskoczka. Gdybym jednak powiedział, że odchylenie standardowe dla każdego eksperymentu wynosi 0,2074, można powiedzieć, że dwa eksperymenty były równoważne. Jeśli jednak powiem ci, że CV dla eksperymentu z liną nośną wynosi prawie 61% w porównaniu do poniżej 4% dla deski, możesz zapytać mnie, ile osób spadło z liny.

użytkownik62371
źródło
0

CV jest zmiennością względną, która służy do porównywania zmienności różnych próbek danych. Na przykład ty, to samo odchylenie standardowe / wariancja z mniejszą średnią wygeneruje mniejsze CV. wskazuje, że mniejszy zestaw danych CV ma mniejszą zmienność względną. Załóżmy, że zarabiasz 10000 miesięcznie, a ja zarabiam 100. (inna średnia) wszyscy prawdopodobnie tracimy 100 miesięcznie (vriation), będę zraniony o wiele bardziej niż ty, ponieważ dostaję większe CV (cv = 1 w porównaniu do twojego 0,01), względnie większa zmienność.

Sun Ke
źródło
1
Muszę powiedzieć, że to nie dodaje niczego do istniejących odpowiedzi.
Nick Cox
0

w tym przypadku cv nie jest właściwym narzędziem statystycznym do wyjaśnienia wyniku.

w zależności od charakteru prowadzonych badań, stąd cel, badacz ma konkretną hipotezę lub wskazuje na dowód. Musi zaprojektować, przeprowadzić eksperyment i przeanalizować dane przy użyciu najlepszego i odpowiedniego narzędzia statystycznego, tj. Jeśli eksperyment ma na celu porównanie wzrostu grupy 1 i grupy 2, chociaż cv obu jest taki sam, ale przy użyciu testu T lub sparowanego T- test lub Anova (większy eksperyment) może łatwo udowodnić różnicę między dwiema grupami.

Kluczem tutaj jest zastosowanie odpowiedniego narzędzia statystycznego, aby uzyskać sensowne wyjaśnienie wyniku. Pamiętaj, że cv to tylko jedna z opcji statystyki opisowej.

moje 2 centy

lokmal
źródło