Mianownik (obiektywnego) estymatora wariancji jest ponieważ istnieje obserwacji i szacowany jest tylko jeden parametr.
Z tego samego powodu zastanawiam się, dlaczego mianownik kowariancji nie powinien wynosić gdy szacuje się dwa parametry?
Mianownik (obiektywnego) estymatora wariancji jest ponieważ istnieje obserwacji i szacowany jest tylko jeden parametr.
Z tego samego powodu zastanawiam się, dlaczego mianownik kowariancji nie powinien wynosić gdy szacuje się dwa parametry?
Odpowiedzi:
Kowariancje są wariancjami.
Od tożsamości polaryzacji
mianowniki muszą być takie same.
źródło
Specjalny przypadek powinien dać ci intuicję; pomyśl o następujących kwestiach:
Cieszysz się, że ten ostatni to powodu Korekta Bessela.∑ni=1(Xi−X¯¯¯¯¯)2n−1
Ale zastąpienie przez w dla pierwszego daje , więc jak myślisz, co może teraz najlepiej wypełnić puste miejsce?Y X Cov^(X,Y) ∑ni=1(Xi−X¯¯¯¯¯)(Xi−X¯¯¯¯¯)mystery denominator
źródło
Szybka i brudna odpowiedź ... Rozważmy najpierwvar(X) ; gdybyś miał n obserwacji o znanej oczekiwanej wartości E(X)=0 , użyłbyś aby oszacować wariancję.1n∑ni=1X2i
Ponieważ wartość oczekiwana jest nieznana, możesz przekształcić swoje obserwacji w n - 1 ze znaną wartością oczekiwaną, przyjmując A i = X i - X 1 dla i = 2 , … , n . Otrzymasz wzór z n - 1 w mianowniku - jednak A i nie są niezależne i musisz to wziąć pod uwagę; na końcu znajdziesz zwykłą formułę.n n−1 Ai=Xi−X1 i=2,…,n n−1 Ai
Teraz dla kowariancji możesz zastosować ten sam pomysł: jeśli oczekiwana wartość wynosiła ( 0 , 0 ) , miałbyś 1(X,Y) (0,0) we wzorze. Odejmując(X1,Y1)od wszystkich innych obserwowanych wartości, otrzymujeszn-1obserwacji o znanej oczekiwanej wartości ... i11n (X1,Y1) n−1 we wzorze - ponownie wprowadza to pewną zależność do wzięcia pod uwagę.1n−1
PS sposobem na to jest wybranie ortonormalnej podstawy ⟨ ( 1 , … , 1 ) ′ ⟩ ⊥ , czyli n - 1 wektorów c 1 , … , c n - 1 ∈ R n takich, że⟨(1,…,1)′⟩⊥ n−1 c1,…,cn−1∈Rn
Następnie można zdefiniować zmienne A i = ∑ j c i j X j oraz B i = ∑ j c i j Y j . Wartości ( A i , B i ) są niezależne, mają oczekiwaną wartość ( 0 , 0 ) i mają taką samą wariancję / kowariancję jak zmienne pierwotne.n−1 Ai=∑jcijXj Bi=∑jcijYj (Ai,Bi) (0,0)
Chodzi o to, że jeśli chcesz pozbyć się nieznanego oczekiwania, porzucisz jedną (i tylko jedną) obserwację. Działa to tak samo w obu przypadkach.
źródło
Oto dowód, że estymator kowariancji kowariancji p-variation próbki o mianowniku jest obiektywnym estymatorem macierzy kowariancji:1n−1
.x′=(x1,...,xp)
To show:E(S)=n−1nΣ
Proof:S=1n∑xix′i−x¯x¯′
Next:
(1)E(xix′i)=Σ+μμ′
(2)E(x¯x¯′)=1nΣ+μμ′
Therefore:E(S)=Σ+μμ′−(1nΣ+μμ′)=n−1nΣ
And soSu=nn−1S , with the final denominator 1n−1 , is unbiased. The off-diagonal elements of Su are your individual sample covariances.
Additional remarks:
The n draws are independent. This is used in (2) to calculate the covariance of the sample mean.
Step (1) and (2) use the fact thatCov(x)=E[xx′]−μμ′
Step (2) uses the fact thatCov(x¯)=1nΣ
źródło
I guess one way to build intuition behind using 'n-1' and not 'n-2' is - that for calculating co-variance we do not need to de-mean both X and Y, but either of the two, i.e.
źródło
1) Startdf=2n .
2) Sample covariance is proportional toΣni=1(Xi−X¯)(Yi−Y¯) . Lose two df ; one from X¯ , one from Y¯ resulting in df=2(n−1) .
3) However,Σni=1(Xi−X¯)(Yi−Y¯) only contains n separate terms, one from each product. When two numbers are multiplied together the independent information from each separate number disappears.
As a trite example, consider that
and that does not include irrationals and fractions, e.g.24=26–√∗26–√ , so that when we multiply two number series together and examine their product, all we see are the df=n−1 from one number series, as we have lost half of the original information, that is, what those two numbers were before the pair-wise grouping into one number (i.e., multiplication) was performed.
In other words, without loss of generality we can write
i.e.,zi=XiYi−X¯Yi−XiY¯ , and, z¯=X¯Y¯ . From the z 's, which then clearly have df=n−1 , the covariance formula becomes
Thus, the answer to the question is that thedf are halved by grouping.
źródło
Hold
?