Próbuję zrozumieć współczynnik zmienności . Kiedy próbuję zastosować go do następujących dwóch próbek danych, nie jestem w stanie zrozumieć, jak interpretować wyniki.
Powiedzmy, że próbka 1 to a próbka 2 to {10, 15, 17, 22, 21, 27} . Tutaj próbka 2 = próbka 1 + \ 10, jak widać.
Oba mają takie samo odchylenie standardowe ale i .
Teraz współczynnik zmienności będzie inny. Dla próbki 2 będzie mniej niż dla próbki 1. Ale jak interpretować ten wynik? Pod względem wariancji oba są takie same; tylko ich środki są różne. Jaki jest więc tutaj współczynnik zmienności? To mnie po prostu wprowadza w błąd, a może nie jestem w stanie zinterpretować wyników.
Odpowiedzi:
W przykładach takich jak twoje, gdy dane różnią się tylko addytywnie, tj. Dodajemy do wszystkiego pewną stałą , a następnie, jak zauważysz, standardowe odchylenie pozostaje niezmienione, średnia zmienia się dokładnie o tę stałą, a więc współczynnik zmienności zmienia się z do , co nie jest ani interesujące, ani użyteczne.σ / μ σ / ( μ + k )k σ/ μ σ/ (μ+k)
Interesująca jest multiplikatywna zmiana, w której pewien współczynnik zmienności ma pewne zastosowanie. Pomnożenie wszystkiego przez jakąś stałą oznacza, że współczynnik zmienności staje się , tj. Pozostaje taki sam jak poprzednio. Przykładem jest zmiana jednostek miary, jak w odpowiedziach @Aksalal i @Macond.k σ / k μk k σ/ kμ
Ponieważ współczynnik zmienności jest wolny od jednostek, więc również nie ma wymiarów, ponieważ wszelkie jednostki lub wymiary posiadane przez zmienną podstawową są wymywane przez podział. To sprawia, że współczynnik zmienności jest miarą względnej zmienności , więc względną zmienność długości można porównać z wagą i tak dalej. Jednym z obszarów, w którym współczynnik zmienności znalazł pewne zastosowanie opisowe, jest morfometria wielkości organizmu w biologii.
W zasadzie i praktyce współczynnik zmienności jest definiowany tylko w pełni i w ogóle użyteczny dla zmiennych, które są całkowicie dodatnie. Dlatego też twoja pierwsza próbka o wartości nie jest odpowiednim przykładem. Innym sposobem dostrzeżenia tego jest odnotowanie, że gdyby średnia była zawsze zerowa, współczynnik byłby nieokreślony i gdyby średnia była zawsze ujemna, współczynnik byłby ujemny, zakładając w tym ostatnim przypadku, że odchylenie standardowe jest dodatnie. W obu przypadkach środek byłby bezużyteczny jako miara względnej zmienności, a nawet w jakimkolwiek innym celu.0
Równoważnym stwierdzeniem jest to, że współczynnik zmienności jest interesujący i użyteczny tylko wtedy, gdy logarytmy są zdefiniowane w zwykły sposób dla wszystkich wartości, a faktycznie użycie współczynników zmienności jest równoważne spojrzeniu na zmienność logarytmów.
Chociaż dla czytelników powinno to wydawać się niewiarygodne, widziałem publikacje klimatologiczne i geograficzne, w których współczynniki zmienności temperatur Celsjusza zaskoczyły naiwnych naukowców, którzy zauważają, że współczynniki mogą eksplodować, gdy średnie temperatury zbliżają się do C i stają się ujemne dla średnie temperatury poniżej zera. Co dziwniejsze, widziałem sugestie, że problem został rozwiązany za pomocą Fahrenheita. I odwrotnie, współczynnik zmienności jest często wymieniany poprawnie jako miara podsumowująca określona wtedy i tylko wtedy, gdy skale pomiarowe kwalifikują się jako skala współczynników. Tak się składa, że współczynnik zmienności nie jest szczególnie użyteczny nawet w temperaturach mierzonych w stopniach Kelvina, ale z przyczyn fizycznych, a nie matematycznych lub statystycznych.0∘
Podobnie jak w przypadku dziwnych przykładów z klimatologii, które pozostawiam bez odniesienia, ponieważ autorzy nie zasługują ani na uznanie, ani na wstyd, współczynnik zmienności został w niektórych dziedzinach nadmiernie wykorzystany. Czasami istnieje tendencja do postrzegania go jako pewnego rodzaju magicznego podsumowania, które zawiera zarówno średnią, jak i odchylenie standardowe. Jest to naturalnie prymitywne myślenie, ponieważ nawet gdy stosunek ma sens, nie można z niego odzyskać średniej i odchylenia standardowego.
W statystyce współczynnik zmienności jest dość naturalnym parametrem, jeśli zmiana wynika albo z gamma, albo z logarytmu normalnego, co można zobaczyć, patrząc na formę współczynnika zmienności dla tych rozkładów.
Chociaż współczynnik zmienności może być przydatny, w przypadkach, w których ma zastosowanie, bardziej użytecznym krokiem jest praca w skali logarytmicznej, albo przez transformację logarytmiczną, albo za pomocą funkcji połączenia logarytmicznego w uogólnionym modelu liniowym.
EDYCJA: Jeśli wszystkie wartości są ujemne, możemy uznać znak za zwykłą konwencję, którą można zignorować. Odpowiednio w takim przypadkujest faktycznie identycznym bliźniakiem współczynnika zmienności.σ/ | μ |
źródło
Wyobraź sobie, że powiedziałem: „W tym mieście jest 1 625 330 osób. Plus minus pięć”. Byłbyś pod wrażeniem mojej dokładnej wiedzy demograficznej.
Ale gdybym powiedział: „W tym domu jest pięć osób. Plus minus pięć”. Można by pomyśleć, że nie mam pojęcia, ile osób było w domu.
To samo odchylenie standardowe, bardzo różne CV.
źródło
Zwykle używa się współczynnika zmienności dla zmiennej o różnych jednostkach miary lub bardzo różnych skalach. Można to traktować jako stosunek szumu do sygnału. Na przykład możesz porównać zmienność masy i wzrostu uczniów; zmienność PKB USA i Monako.
W twoim przypadku współczynnik zmienności może w ogóle nie mieć większego sensu, ponieważ wartości nie są bardzo różne.
źródło
źródło
W rzeczywistości obie statystyki mogą wprowadzać w błąd, jeśli nie znasz lub nie rozumiesz swojej hipotezy i eksperymentu. Rozważ ten makabryczny przykład ... Chodzenie po dwóch wysokich budynkach po linie, a nie chodzenie po desce. Powiedzmy, że linka ma średnicę 1 cala, podczas gdy deska ma 12 cali szerokości. 5 osób poproszono o przejście po linie, a 5 poproszono o przejście po desce. Znaleziono następujące wyniki:
Średnia odległość każdego kroku od krawędzi (lub boku) liny (cale): 0,5, 0,2, 0,3, 0,6, 0,1
Średnia odległość każdego stopnia od krawędzi (lub boku) deski (cale): 5,5, 5,2, 5,3, 5,6, 5,1
Podobnie jak w twoim przykładzie, ten przykład spowoduje równe odchylenia standardowe, ponieważ wartości deski są po prostu różnicą +5 do wartości dla linoskoczka. Gdybym jednak powiedział, że odchylenie standardowe dla każdego eksperymentu wynosi 0,2074, można powiedzieć, że dwa eksperymenty były równoważne. Jeśli jednak powiem ci, że CV dla eksperymentu z liną nośną wynosi prawie 61% w porównaniu do poniżej 4% dla deski, możesz zapytać mnie, ile osób spadło z liny.
źródło
CV jest zmiennością względną, która służy do porównywania zmienności różnych próbek danych. Na przykład ty, to samo odchylenie standardowe / wariancja z mniejszą średnią wygeneruje mniejsze CV. wskazuje, że mniejszy zestaw danych CV ma mniejszą zmienność względną. Załóżmy, że zarabiasz 10000 miesięcznie, a ja zarabiam 100. (inna średnia) wszyscy prawdopodobnie tracimy 100 miesięcznie (vriation), będę zraniony o wiele bardziej niż ty, ponieważ dostaję większe CV (cv = 1 w porównaniu do twojego 0,01), względnie większa zmienność.
źródło
w tym przypadku cv nie jest właściwym narzędziem statystycznym do wyjaśnienia wyniku.
w zależności od charakteru prowadzonych badań, stąd cel, badacz ma konkretną hipotezę lub wskazuje na dowód. Musi zaprojektować, przeprowadzić eksperyment i przeanalizować dane przy użyciu najlepszego i odpowiedniego narzędzia statystycznego, tj. Jeśli eksperyment ma na celu porównanie wzrostu grupy 1 i grupy 2, chociaż cv obu jest taki sam, ale przy użyciu testu T lub sparowanego T- test lub Anova (większy eksperyment) może łatwo udowodnić różnicę między dwiema grupami.
Kluczem tutaj jest zastosowanie odpowiedniego narzędzia statystycznego, aby uzyskać sensowne wyjaśnienie wyniku. Pamiętaj, że cv to tylko jedna z opcji statystyki opisowej.
moje 2 centy
źródło