W dyskusji po ostatnim pytaniu o to, czy odchylenie standardowe może przekroczyć średnią, krótko postawiono jedno pytanie, ale nigdy w pełni nie udzielono odpowiedzi. Więc pytam o to tutaj.
Rozważ zestaw nieujemnych liczb gdzie dla . Nie jest wymagane, aby były odrębne, to znaczy, że zestaw może być multiset. Średnia i wariancja zestawu są zdefiniowane jako a odchylenie standardowe to . Zauważ, że zestaw liczb nie jest
Jaka jest maksymalna wartość , współczynnika zmienności, dla wszystkich wyborów w przedziale ?
Maksymalna wartość, którą mogę znaleźć dla to która jest osiągana, gdy z ma wartość a pozostałe (odstające) ma wartość , dając
Jakieś pomysły? Jestem pewien, że pytanie to zostało już wcześniej zbadane w literaturze statystycznej, a zatem odniesienia, jeśli nie rzeczywiste wyniki, byłyby bardzo mile widziane.
źródło
Odpowiedzi:
Geometria zapewnia wgląd, a klasyczne nierówności zapewniają łatwy dostęp do dyscypliny.
Rozwiązanie geometryczne
Wiemy z geometrii najmniejszych kwadratów , że jest rzutem ortogonalnym wektora danych w liniowej podprzestrzeni generowanej przez wektor stały i że jest wprost proporcjonalna do odległości (euklidesowej) między i Ograniczenia nieujemnościowe są liniowe, a odległość jest funkcją wypukłą, dlatego skrajności odległości muszą zostać osiągnięte na krawędziach stożka określonych przez ograniczenia. Ten stożek jest dodatnim ortantem wx=(x1,x2,…,xn)(1,1,…,1)σxx ˉ x . Rnxiσx/ ˉ x =√x¯=(x¯,x¯,…,x¯) x=(x1,x2,…,xn) (1,1,…,1) σx x x¯. Rn a jego krawędzie są osiami współrzędnych, z których natychmiast wynika, że wszystkie z wyjątkiem muszą być zerowe w maksymalnych odległościach. Dla takiego zestawu danych bezpośrednie (proste) obliczenie pokazujexi σx/x¯=n−−√.
Rozwiązanie wykorzystujące klasyczne nierówności
(Wzór na może wyglądać tajemniczo, dopóki nie uświadomisz sobie, że rejestruje tylko kroki, które należy wykonać algebraicznie, manipulując aby uzyskać prosty wygląd, czyli po lewej stronie.)f σx/x¯
Łatwy sposób zaczyna się od Nierówności Posiadacza ,
(Nie wymaga to specjalnego dowodu w tym prostym kontekście: wystarczy zastąpić jeden czynnik każdego wyrażenia maksymalnym składnikiem : oczywiście suma kwadratów nie spadnie. Faktoring wspólny termin zwraca prawą stronę nierówności.)x2i=xi×xi max({xi}) max({xi})
Ponieważ to nie wszystkie (co pozostawiłoby niezdefiniowany), dzielenie przez kwadrat ich sumy jest poprawne i daje równoważną nierównośćxi 0 σx/x¯
Ponieważ mianownik nie może być mniejsza niż liczniku (który sam w sobie jest po prostu jednym z warunków w mianowniku), prawa strona jest zdominowany przez wartość , co osiąga się tylko wtedy, gdy wszystkie, ale jeden z równa . Skąd1 xi 0
Alternatywne podejście
Ponieważ są nieujemne i nie mogą sumować się do , wartości określają rozkład prawdopodobieństwa na . Pisząc jako sumę , rozpoznajemyxi 0 p(i)=xi/(x1+x2+…+xn) F {1,2,…,n} s xi
Aksjomatyczny fakt, że żadne prawdopodobieństwo nie może przekraczać implikuje, że to oczekiwanie również nie może przekroczyć , ale łatwo jest uczynić go równym , ustawiając wszystkie z równe a zatem dokładnie jeden z jest niezerowy. Obliczyć współczynnik zmienności jak w ostatnim wierszu rozwiązania geometrycznego powyżej.1 1 1 pi 0 xi
źródło
Niektóre referencje, takie jak małe świece na torcie innych:
Katsnelson i Kotz (1957) udowodnili, że dopóki wszystkie , współczynnik zmienności nie może przekroczyć . Wynik ten został wspomniany wcześniej przez Longley (1952). Cramér (1946, s. 357) okazał się mniej ostry, a Kirby (1974) okazał się mniej ogólny.xi≥0 n−1−−−−−√
Cramér, H. 1946. Matematyczne metody statystyki . Princeton, NJ: Princeton University Press.
Katsnelson, J. i S. Kotz. 1957. W sprawie górnych granic niektórych miar zmienności. Archiv für Meteorologie, Geophysik und Bioklimatologie , Series B 8: 103–107.
Kirby, W. 1974. Algebraiczne ograniczenie statystyk przykładowych. Badania zasobów wodnych 10: 220–222.
Longley, RW 1952. Miary zmienności opadów. Miesięczny przegląd pogody 80: 111–117.
W pracy natknąłem się na te dokumenty
Cox, NJ 2010. Granice skośności próbki i kurtozy. Stata Journal 10: 482–495.
który omawia zasadniczo podobne granice skośności i kurtozy opartej na momentach.
źródło
Dwie liczby , niektóre i dowolne :xi≥xj δ>0 μ
Stosując to do nieujemnych punktów danych, oznacza to, że o ile wszystkie oprócz jednej z liczb są zerowe i nie można ich dalej zmniejszyć, możliwe jest zwiększenie wariancji i odchylenia standardowego poprzez zwiększenie odstępu między dowolną parą punktów danych zachowując tę samą średnią, zwiększając w ten sposób współczynnik zmienności. Zatem maksymalny współczynnik zmienności dla zestawu danych jest taki, jak sugerujesz: .n n n−1−−−−−√
źródło