Dlaczego wariancji nie definiuje się jako różnicy między każdą kolejną wartością?

19

Dla wielu może to być proste pytanie, ale oto:

Dlaczego wariancja nie jest definiowana jako różnica między każdą kolejną wartością zamiast różnicy do średniej wartości?

Byłby to dla mnie bardziej logiczny wybór, myślę, że oczywiście nadzoruję pewne wady. Dzięki

EDYTOWAĆ:

Pozwól mi sformułować tak jasno, jak to możliwe. To mam na myśli:

  1. Załóżmy, że masz szereg liczb, uporządkowanych: 1,2,3,4,5
  2. Oblicz i zsumuj (bezwzględne) różnice (w sposób ciągły, między każdą kolejną wartością, a nie parami) między wartościami (bez użycia średniej).
  3. Podziel przez liczbę różnic
  4. (Kontynuacja: czy odpowiedź byłaby inna, gdyby numery nie były uporządkowane)

-> Jakie są wady tego podejścia w porównaniu ze standardową formułą wariancji?

użytkownik2305193
źródło
1
Być może zainteresuje Cię również lektura na temat autokorelacji (np. Stats.stackexchange.com/questions/185521/… ).
Tim
2
@ user2305193 odpowiedź Whubera jest poprawna, ale jego formuła wykorzystuje kwadratową odległość między uporządkowaniem danych, a uśrednieniem dla wszystkich porządków. Zgrabna sztuczka, jednak proces znajdowania wskazanej przez ciebie wariancji jest dokładnie tym, co próbowałem zastosować w mojej odpowiedzi i wykazałem, że nie będzie to dobra robota. Próbuję usunąć zamieszanie.
Greenparker
1
Dla zabawy sprawdź Allan Variance.
hobbs
z innej myśli, jak sądzę, skoro nie różnicujesz kwadratów (a potem nie bierzesz pierwiastka kwadratowego), ale bierzesz wartości bezwzględne, powinno to brzmieć raczej „dlaczego nie w ten sposób obliczamy odchylenie standardowe” zamiast „dlaczego nie tak obliczamy wariancję”. Ale teraz
odpocznę

Odpowiedzi:

27

Najbardziej oczywistym powodem jest to, że w wartościach często nie ma sekwencji czasowej. Więc jeśli zbierzesz dane, nie ma to znaczenia w informacjach przekazywanych przez dane. Jeśli zastosujemy twoją metodę, to za każdym razem, gdy zbierzesz dane, otrzymujesz inną wariancję próbki.

Bardziej teoretyczną odpowiedzią jest to, że wariancja próbki szacuje prawdziwą wariancję zmiennej losowej. Prawdziwa wariancja zmiennej losowej to E [ ( X - E X ) 2 ] .X

E[(XEX)2].

Tutaj oznacza oczekiwanie lub „wartość średnią”. Tak więc definicją wariancji jest średnia kwadratowa odległość między zmienną od jej średniej wartości. Gdy spojrzysz na tę definicję, nie ma tu „porządku czasowego”, ponieważ nie ma danych. Jest to tylko atrybut zmiennej losowej.E

Kiedy zbierasz dane z tej dystrybucji, masz realizacje . Najlepszym sposobem oszacowania oczekiwań jest pobranie średnich próbek. Kluczem tutaj jest to, że otrzymaliśmy dane ID, a zatem nie ma kolejności danych. Próbka x 1 , x 2 , , xx1,x2,,xn jest taka sama jak próbka x 2 , x 5 , x 1 , x n . .x1,x2),,xnx2),x5,x1,xn..

EDYTOWAĆ

Wariancja próbki mierzy określony rodzaj dyspersji dla próbki, która mierzy średnią odległość od średniej. Istnieją inne rodzaje rozproszenia, takie jak zakres danych i zakres między-kwantylowy.

Nawet jeśli posortujesz wartości w porządku rosnącym, nie zmieni to właściwości próbki. Próbki (dane), które otrzymujesz, są realizacjami ze zmiennej. Obliczanie wariancji próbki jest podobne do zrozumienia, ile dyspersji jest w zmiennej. Na przykład, jeśli próbkujesz 20 osób i obliczasz ich wysokość, to są to 20 „realizacji” ze zmiennej losowej wzrost ludzi. Teraz wariancja próbki ma ogólnie mierzyć zmienność wysokości osobników. Jeśli zamówisz dane 100 , 110 , 123 , 124 , ,X=

100,110,123,124,,

to nie zmienia informacji w próbce.

Spójrzmy na jeszcze jeden przykład. załóżmy, że masz 100 obserwacji z losowej zmiennej uporządkowanej w ten sposób Zatem średnia kolejna odległość wynosi 1 jednostki, więc według twojej metody wariancja będzie wynosić 1.

1,2,3,4,5,6,7,8,9,10,11,12,13,14,...100.

Sposób interpretacji „wariancji” lub „dyspersji” polega na zrozumieniu, jaki zakres wartości jest prawdopodobny dla danych. W takim przypadku otrzymasz zakres 0,99 jednostki, co oczywiście nie reprezentuje dobrze tej zmiany.

Jeśli zamiast przyjąć średnią, po prostu zsumujesz kolejne różnice, wówczas twoja wariancja wyniesie 99. Oczywiście, że nie reprezentuje to zmienności w próbce, ponieważ 99 daje zakres danych, a nie poczucie zmienności.

Greenparker
źródło
1
Z ostatnim akapitem, do którego do mnie dotarłeś, haha, dziękuję za tę oszałamiającą odpowiedź. Chciałbym mieć wystarczająco dużo przedstawicieli, aby ją głosować, proszę ludzi, zrób to dla mnie ;-) AKCEPTOWANO !!!
user2305193
Dalsze działania: naprawdę miałem na myśli (tak, przepraszam, zrozumiałem właściwe pytanie dopiero po przeczytaniu twojej odpowiedzi), że podsumowujesz różnice i dzielisz je przez liczbę próbek. W twoim ostatnim przykładzie byłby to 99/100 - czy możesz rozwinąć tę kwestię w celu uzyskania kompletnego oszołomienia?
user2305193
@ user2305193 Tak, powiedziałem średnio o 1 jednostce, co jest nieprawidłowe. Powinno to wynosić 0,99 jednostki. Zmieniłem to.
Greenparker
Aby uzyskać więcej informacji na temat serii 1-100: wariancja w 1-100 wynosiłaby 841,7, a źródło odchylenia standardowego 29.01 . Naprawdę zupełnie inny wynik.
user2305193
31

Tak jest zdefiniowane!

Oto algebra. Niech wartości będą . Oznacz przez F funkcję rozkładu empirycznego tych wartości (co oznacza, że ​​każdy x i wnosi masę prawdopodobieństwa 1 / n przy wartości x i ) i niech X i Y będą niezależnymi zmiennymi losowymi o rozkładziex=(x1,x2,,xn)Fxi1/nxiXY . Z powodu podstawowych właściwości wariancji (mianowicie jest to forma kwadratowa), a także definicji F i faktuFF i Y mają tę samą średnią,XY

Var(x)=Var(X)=12(Var(X)+Var(Y))=12(Var(XY))=12(E((XY)2)E(XY)2)=E(12(XY)2)0=1n2i,j12(xixj)2.

Ta formuła nie zależy od sposobu uporządkowania : wykorzystuje wszystkie możliwe pary komponentów, porównując je z wykorzystaniem połowy różnic kwadratowych. Może to być jednak powiązane ze średnią we wszystkich możliwych porządkach (grupa S ( n ) wszystkich n ! Permutacji indeksów 1 , 2 , , n ). Mianowicie,xS(n)n!1,2,,n

Var(x)=1n2i,j12(xixj)2=1n!σS(n)1ni=1n112(xσ(i)xσ(i+1))2.

To wewnętrzne sumowanie przyjmuje uporządkowane wartości i sumuje (pół) kwadratowe różnice między wszystkimi kolejnymi parami n - 1 . Podział przez n zasadniczo uśrednia te kolejne kwadratowe różnice . Oblicza tak zwaną semiwariancję lag-1 . Podsumowanie zewnętrzne robi to dla wszystkich możliwych porządków .xσ(1),xσ(2),,xσ(n)n1n


Te dwa równoważne algebraiczne widoki standardowej formuły wariancji dają nowy wgląd w znaczenie wariancji. Semiwariancja jest odwrotną miarą seryjnego kowariancji sekwencji: kowariancja jest wysoka (a liczby są dodatnio skorelowane), gdy semiwariancja jest niska i odwrotnie. Zatem wariant nieuporządkowanego zestawu danych jest rodzajemaverage of all possible semivariances obtainable under arbitrary reorderings.

whuber
źródło
1
@ Mur1lo Przeciwnie: uważam, że to wyprowadzenie jest poprawne. Zastosuj formułę do niektórych danych i zobacz!
whuber
1
Myślę, że Mur1lo mógł mówić nie o poprawności wzoru na wariancję, ale o przejściu bezpośrednio z oczekiwań zmiennych losowych do funkcji wielkości próbek.
Glen_b
1
@glen Ale właśnie to pozwala nam funkcja rozkładu empirycznego. To jest sedno tego podejścia.
whuber
3
Yes, that's clear to me; I was trying to point out where the confusion seemed to lay. Sorry to be vague. Hopefully it's clearer now why it only appears* to be a problem. *(this why I used the word "apparent" earlier, to emphasize it was just the out-of-context appearance of that step that was likely to be the cause of the confusion)
Glen_b -Reinstate Monica
2
@Mur1o The only thing I have done in any of these equations is to apply definitions. There is no passing from expectations to "sample quantities". (In particular, no sample of F has been posited or used.) Thus I am unable to identify what the apparent problem is, nor suggest an alternative explanation. If you could expand on your concern then I might be able to respond.
whuber
11

Just a complement to the other answers, variance can be computed as the squared difference between terms:

Var(X)=12n2injn(xixj)2=12n2injn(xix¯xj+x¯)2=12n2injn((xix¯)(xjx¯))2=1nin(xix¯)2

I think this is the closest to the OP proposition. Remember the variance is a measure of dispersion of every observation at once, not only between "neighboring" numbers in the set.


UPDATE

Using your example: X=1,2,3,4,5. We know the variance is Var(X)=2.

With your proposed method Var(X)=1, so we know beforehand taking the differences between neighbors as variance doesn't add up. What I meant was taking every possible difference squared then summed:

Var(X)==(51)2+(52)2+(53)2+(54)2+(55)2+(41)2+(42)2+(43)2+(44)2+(45)2+(31)2+(32)2+(33)2+(34)2+(35)2+(21)2+(22)2+(23)2+(24)2+(25)2+(11)2+(12)2+(13)2+(14)2+(15)2252==16+9+4+1+9+4+1+1+4+1+1+4+1+1+4+9+1+4+9+1650==2
Firebug
źródło
Now I'm seriously confused guys
user2305193
@user2305193 In your question, did you mean every pairwise difference or did you mean the difference between a value and the next in a sequence? Could you please clarify?
Firebug
2
@Mur1lo no one is though, I have no idea what you're referring to.
Firebug
2
@Mur1lo This is a general question, and I answered it generally. Variance is a computable parameter, which can be estimated from samples. This question isn't about estimation though. Also we are talking about discrete sets, not about continuous distributions.
Firebug
1
You showed how to estimate the variance by its U-statistic and its fine. The problem is when you write: Var("upper case"X) = things involving "lower case" x, you are mixing the two different notions of parameter and of estimator.
Mur1lo
6

Inni odpowiedzieli na pytanie o użyteczność wariancji zdefiniowanej jak zwykle. W każdym razie mamy tylko dwie uzasadnione definicje różnych rzeczy: zwykłą definicję wariancji i twoją definicję.

Zatem główne pytanie brzmi: dlaczego pierwszy nazywa się wariancją, a nie twoją. To tylko kwestia konwencji. Do 1918 r. Mogłeś wymyślić cokolwiek zechcesz i nazwałeś to „wariancją”, ale w 1918 r. Fisher użył tej nazwy do czegoś, co nadal nazywa się wariancją, a jeśli chcesz zdefiniować cokolwiek innego, będziesz musiał znaleźć inną nazwę, aby to nazwać.

Drugie pytanie dotyczy tego, czy zdefiniowana przez Ciebie rzecz może być do czegoś przydatna. Inni wskazywali, że jego problemy mogą być stosowane jako miara rozproszenia, ale od ciebie zależy znalezienie aplikacji. Być może znajdziesz tak przydatne aplikacje, że w ciągu stulecia Twoja rzecz jest bardziej znana niż wariancja.

Pere
źródło
I know every definition is up to the people deciding on it, I really was looking for help in up/downsides for each approaches. Usually there's good reason for people converging to a definition and as I suspected didn't see why straight away.
user2305193
1
Fisher introduced variance as a term in 1918 but the idea is older.
Nick Cox
As far as I know, Fisher was the first one to use the name "variance" for variance. That's why I say that before 1918 you could have use "variance" to name anything else you had invented.
Pere
3

@GreenParker answer is more complete, but an intuitive example might be useful to illustrate the drawback to your approach.

In your question, you seem to assume that the order in which realisations of a random variable appear matters. However, it is easy to think of examples in which it doesn't.

Consider the example of the height of individuals in a population. The order in which individuals are measured is irrelevant to both the mean height in the population and the variance (how spread out those values are around the mean).

Your method would seem odd applied to such a case.

Antoine Vernet
źródło
2

Although there are many good answers to this question I believe some important points where left behind and since this question came up with a really interesting point I would like to provide yet another point of view.

Why isn't variance defined as the difference between every value following    
each other instead of the difference to the average of the values?

The first thing to have in mind is that the variance is a particular kind of parameter, and not a certain type of calculation. There is a rigorous mathematical definition of what a parameter is but for the time been we can think of then as mathematical operations on the distribution of a random variable. For example if X is a random variable with distribution function FX then its mean μx, which is also a parameter, is:

μX=+xdFX(x)

and the variance of X, σX2, is:

σX2=+(xμX)2dFX(x)

The role of estimation in statistics is to provide, from a set of realizations of a r.v., a good approximation for the parameters of interest.

What I wanted to show is that there is a big difference in the concepts of a parameters (the variance for this particular question) and the statistic we use to estimate it.

Why isn't the variance calculated this way?

So we want to estimate the variance of a random variable X from a set of independent realizations of it, lets say x={x1,,xn}. The way you propose doing it is by computing the absolute value of successive differences, summing and taking the mean:

ψ(x)=1ni=2n|xixi1|

and the usual statistic is:

S2(x)=1n1i=in(xix¯)2,

where x¯ is the sample mean.

When comparing two estimator of a parameter the usual criterion for the best one is that which has minimal mean square error (MSE), and a important property of MSE is that it can be decomposed in two components:

MSE = estimator bias + estimator variance.

Using this criterion the usual statistic, S2, has some advantages over the one you suggests.

  • First it is a unbiased estimator of the variance but your statistic is not unbiased.

  • One other important thing is that if we are working with the normal distribution then S2 is the best unbiased estimator of σ2 in the sense that it has the smallest variance among all unbiased estimators and thus minimizes the MSE.

When normality is assumed, as is the case in many applications, S2 is the natural choice when you want to estimate the variance.

Mur1lo
źródło
3
Everything in this answer is well explained, correct, and interesting. However, introducing the "usual statistic" as an estimator confuses the issue, because the question is not about estimation, nor about bias, nor about the distinction between 1/n and 1/(n1). That confusion might be at the root of your comments to several other answers in this thread.
whuber
1

Lots of good answers here, but I'll add a few.

  1. The way it is defined now has proven useful. For example, normal distributions appear all the time in data and a normal distribution is defined by its mean and variance. Edit: as @whuber pointed out in a comment, there are various other ways specify a normal distribution. But none of them, as far as I'm aware, deal with pairs of points in sequence.
  2. Variance as normally defined gives you a measure of how spread out the data is. For example, lets say you have a lot of data points with a mean of zero but when you look at it, you see that the data is mostly either around -1 or around 1. Your variance would be about 1. However, under your measure, you would get a total of zero. Which one is more useful? Well, it depends, but its not clear to me that a measure of zero for its "variance" would make sense.
  3. It lets you do other stuff. Just an example, in my stats class we saw a video about comparing pitchers (in baseball) over time. As I remember it, pitchers appeared to be getting worse since the proportion of pitches that were hit (or were home-runs) was going up. One reason is that batters were getting better. This made it hard to compare pitchers over time. However, they could use the z-score of the pitchers to compare them over time.

Nonetheless, as @Pere said, your metric might prove itself very useful in the future.

roundsquare
źródło
1
A normal distribution can also be determined by its mean and fourth central moment, for that matter -- or by means of many other pairs of moments. The variance is not special in that way.
whuber
@whuber interesting. I'll admit I didn't realize that. Nonetheless, unless I'm mistaken, all the moments are "variance like" in that they are based on distances from a certain point as opposed to dealing with pairs of points in sequence. But I'll edit my answers to make note of what you said.
roundsquare
1
Could you explain the sense in which you mean "deal with pairs of points in sequence"? That's not a part of any standard definition of a moment. Note, too, that all the absolute moments around the mean--which includes all even moments around the mean--give a "measure of how spread out the data" are. One could, therefore, construct an analog of the Z-score with them. Thus, none of your three points appears to differentiate the variance from any absolute central moment.
whuber
@whuber yeah. The original question posited a 4 step sequence where you sort the points, take the differences between each point and the next point, and then average these. That's what I referred to as "deal[ing] with pairs of points in sequence". So you are right, none of the three points I gave distinguishes variance from any absolute central moment - they are meant to distinguish variance (and, I suppose, all absolute central moments) from the procedure described in the original question.
roundsquare