Co można wnioskować na temat danych, gdy średnia arytmetyczna jest bardzo zbliżona do średniej geometrycznej?

24

Czy jest coś istotnego w średniej geometrycznej i średniej arytmetycznej, które są bardzo blisko siebie, powiedzmy ~ 0,1%? Jakie są domysły na temat takiego zbioru danych?

Pracowałem nad analizą zestawu danych i zauważam, że jak na ironię wartości są bardzo, bardzo bliskie. Nie do końca, ale blisko. Szybka kontrola rozsądności arytmetycznej nierówności średniej geometrycznej oraz przegląd akwizycji danych ujawniają, że nie ma nic podejrzanego w integralności mojego zbioru danych pod względem tego, jak wymyśliłem wartości.

użytkownik12289
źródło
6
Mała uwaga: najpierw sprawdź, czy wszystkie twoje dane są pozytywne; parzysta liczba wartości ujemnych może dać ci pozytywny produkt, a niektóre pakiety mogą nie oznaczać potencjalnego problemu (nierówność AM-GM polega na tym, że wszystkie wartości są dodatnie). Zobacz na przykład (w R): (podczas gdy średnia arytmetyczna wynosi 1)x=c(-5,-5,1,2,3,10); prod(x)^(1/length(x)) [1] 3.383363
Glen_b
1
Aby rozwinąć punkt @ Glen_b, zbiór danych zawsze ma równą średnią arytmetyczną i geometryczną, a mianowicie zero. Możemy jednak rozłożyć te trzy wartości tak daleko, jak tylko chcemy. {x,0,x}
hardmath
Zarówno średnie arytmetyczne, jak i geometryczne mają tę samą uogólnioną formułę , przy czym daje pierwsze, a daje drugie. Następnie intuicyjnie staje się jasne, że oba stają się coraz bliższe, gdy wartości danych są coraz bardziej równe, zbliżając się do stałej. p=1p0x
ttnphns

Odpowiedzi:

29

Średnia arytmetyczna jest powiązana ze średnią geometryczną poprzez nierówność średnią arytmetyczną-średnią geometryczną (AMGM), która stwierdza, że:

x1+x2++xnnx1x2xnn,

gdzie osiągnięta jest równość iff . Prawdopodobnie więc twoje punkty danych są bardzo blisko siebie.x1=x2==xn

Alex R.
źródło
4
To prawda. Zazwyczaj im mniejsza wariancja wartości, tym bliższe są te dwa środki.
Michael M,
16
Wariancja musiałaby być niewielka W PORÓWNANIU do rozmiarów obserwacji. Zatem współczynnik zmienności musiałby być mały.σ/μ
Michael Hardy
1
Czy AMGM oznacza coś? Jeśli tak, byłoby miło to wyrazić.
Richard Hardy
@RichardHardy: AMGM oznacza „średnią arytmetyczną - średnią geometryczną”
1
@ user1108, dzięki, właściwie to dostałem po przeczytaniu innych postów. Po prostu myślę, że można to wyrazić w odpowiedzi (nie tylko w komentarzach).
Richard Hardy
15

Opracowując odpowiedź @Alex R, jednym ze sposobów dostrzeżenia nierówności AMGM jest efekt nierówności Jensena. Według nierówności Jensena : Następnie weź wykładniczy z obu stron: 1

log(1nixi)1nilogxi
1nixiexp(1nilogxi)

Prawa strona jest średnią geometryczną, ponieważ (x1x2xn)1/n=exp(1nilogxi)

Kiedy nierówności AMGM utrzymują się na niemal równym poziomie? Kiedy efekt nierówności Jensena jest niewielki. To, co napędza tutaj efekt nierówności Jensena, to wklęsłość, krzywizna logarytmu. Jeśli twoje dane są rozproszone w obszarze, w którym logarytm ma krzywiznę, efekt będzie duży. Jeśli dane są rozproszone w regionie, w którym logarytm jest zasadniczo afiniczny, efekt będzie niewielki.

Na przykład, jeśli dane mają niewielką zmienność, są zlepione w wystarczająco małym sąsiedztwie, wówczas logarytm będzie wyglądał jak funkcja afiniczna w tym regionie (temat rachunku różniczkowego jest taki, że jeśli powiększysz wystarczająco płynnie, ciągłą funkcję, to będzie to wyglądać jak linia). W przypadku danych wystarczająco blisko siebie średnia arytmetyczna danych będzie zbliżona do średniej geometrycznej.

Matthew Gunn
źródło
12

Zbadajmy zakres biorąc pod uwagę, że ich średnia arytmetyczna (AM) jest małą wielokrotnością 1 + δ ich średniej geometrycznej (GM) (z δ 0 ). W pytaniu δ 0,001, ale nie wiemy n .x1x2xn1+δδ0δ0.001n

Ponieważ stosunek tych średnich nie zmienia się po zmianie jednostek miary, wybierz jednostkę, dla której GM wynosi . Zatem staramy się maksymalizować x n z zastrzeżeniem, że x 1 + x 2 + + x n = n ( 1 + δ ) i x 1x 2x n = 1 .1xnx1+x2++xn=n(1+δ)x1x2xn=1

Zostanie to wykonane przez utworzenie , powiedzmy, i x n = z x . A zatemx1=x2==xn1=xxn=zx

n(1+δ)=x1++xn=(n1)x+z

i

1=x1x2xn=xn1z.

Rozwiązanie jest pierwiastkiem między 0 a 1 zx01

(1n)xn+n(1+δ)xn11.

Łatwo go znaleźć iteracyjnie. Tutaj wykresy optymalnego i Z w funkcji hemibursztynianu dla n = 6 , 20 , 50 , 150 , od lewej do prawej:xzδn=6,20,50,150

Figure

Tak szybko, jak osiąga się każdy znaczący rozmiar nawet mały stosunek 1.001 jest zgodne z jednym dużym oddalonej X n (górne krzywe) i czerwony grupy szczelnie klastra x ı (niższe krzywe) niebieskim.n1.001xnxi

Z drugiej strony załóżmy, że jest parzyste (dla uproszczenia). Minimalny zakres uzyskuje się, gdy połowa x i równa jeden x 1 , a druga połowa jest równa inną wartość Z 1 . Teraz jest rozwiązanie (które można łatwo sprawdzić)n=2kxix1z1

xk=1+δ±δ2+2δ.

W przypadku malutkiego możemy zignorować δ 2 jako przybliżenie, a także przybliżać k- ty pierwiastek do pierwszego rzędu, dającδδ2kth

x1+δ2δk; z1+δ+2δk.

Zakres wynosi około .32δ/n

nδ

xi

Whuber
źródło
n=150,δ=0.002,x0.9954,z1.983,k=75x0.99918,z1.00087
n=150x149z=1149x+z=150(1.002)=150.3x=0.995416z=1.98308
I tried what looks to me like your z1+δ+2δk=1+0.002+2×0.002751.00087 and similarly for x. But now I see this is answering a different question
Henry
@Henry That solves a different problem: those are the values that give a minimum range. I did not post graphs for those. Indeed, with your x and z we have 75x+75z150.3 and x75z751, as required.
whuber