Korekta odchylenia w wariancji ważonej

22

Dla wariancji nieważonej istnieje wariancja próbki skorygowana o błąd systematyczny, gdy średnią oszacowano na podstawie tych samych danych: Var(X):=1

Var(X): =1nja(xja-μ)2)
Var(X): =1n-1ja(xja-mi[X])2)

Patrzę na ważoną średnią i wariancję i zastanawiam się, jaka jest odpowiednia korekta odchylenia dla ważonej wariancji. Używając:

oznaczać(X): =1jaωjajaωjaxja

„Naiwna”, niepoprawiona wariancja, której używam, jest następująca:

Var(X):=1iωiiωi(ximean(X))2

Zastanawiam się więc, czy poprawny jest sposób korygowania błędu systematycznego

A)

Var(X):=1iωi1iωi(ximean(X))2

lub B)

Var(X): =nn-11jaωjajaωja(xja-oznaczać(X))2)

lub C)

Var(X): =jaωja(jaωja)2)-jaωja2)jaωja(xja-oznaczać(X))2)

A) nie ma dla mnie sensu, gdy ciężary są małe. Wartość normalizacyjna może wynosić 0 lub nawet być ujemna. Ale co powiesz na B) ( to liczba obserwacji) - czy jest to prawidłowe podejście? Czy masz jakieś referencje, które to pokazują? Wierzę „Aktualizacja szacunków średnich i wariancji: ulepszona metoda”, DHD West, 1979 używa tego. Trzeci, C) to moja interpretacja odpowiedzi na to pytanie: /mathpro/22203/un Niezależnie- oszacowanie-wariancji-----minormalizowanej- ważonej-n

Dla C) Właśnie zdałem sobie sprawę, że mianownik wygląda bardzo podobnie . Czy jest tu jakieś ogólne połączenie? Myślę, że to nie do końca się zgadza; i oczywiście istnieje związek, który próbujemy obliczyć wariancję ...Var(Ω)

Wszystkie trzy wydają się „przetrwać” kontrolę rozsądku ustawienia wszystkich . Którego powinienem użyć, w jakich lokalach? '' Aktualizacja: '' whuber zasugerował, aby również przeprowadzić kontrolę poczytalności z ω 1 = ω 2 = .5 i wszystkimi pozostałymi ωωja=1ω1=ω2)=.5 małe. Wydaje się, że wyklucza to A i B.ωja=ϵ

Anony-Mus
źródło
Jeśli weźmiesz pod uwagę przypadki, w których dwie największe wagi są równe, a cała reszta staje się znikomo mała, zarówno (A), jak i (B) spadają ze sporu (ponieważ nie zgadzają się ze znanymi wynikami dla ). (C) wydaje się być przybliżeniem; Podejrzewam, że poprawny czynnik jest znacznie bardziej skomplikowaną funkcją wag. n=2)
whuber
@whuber ThePawn poniżej sugeruje, że jest to C. Czy masz bardziej szczegółowe obawy?
Anony-Mousse,
1
Rozwiązanie (A) działa, wdrożyłem je w przeszłości i mogę potwierdzić z testów empirycznych, że daje prawidłowe wyniki. Musisz jednak używać tylko liczb całkowitych dla wag i> 0
gaboryczny
Dzięki! To bardzo pomogło mi wejść na właściwy tor, gdy ciężary są wykładniczą średnią ruchomą! Okazuje się, że naiwny sposób obliczania wariancji faktycznie przecenia ją o stały współczynnik 2, oprócz małej korekty (1-1 / n), która pokazuje się analogicznie do prostej kalkulacji średniej ruchomej. To szczególnie szalony specjalny przypadek!
saolof

Odpowiedzi:

10

Przeszedłem matematykę i skończyłem z wariantem C:

V.zar(X)=(jaωja)2)(jaωja)2)-jaωja2)V.¯
V.¯ωja

λja=ωjajaωja

V.¯=jaλja(xja-jotλjotxjot)2)

(xja-jotλjotxjot)2)=xja2)+jot,kλjotλkxjotxk-2)jotλjotxjaxjot

mi[xjaxjot]=V.zar(X)1ja=jot+mi[X]2)mi[X] jest obecny w każdym z nich, to ulega skasowaniu i otrzymujemy:

mi[V.¯]=V.zar(X)jaλja(1+jotλjot2)-2)λja)
mi[V.¯]=V.zar(X)(1-jotλjot2))
λjaωja
ThePawn
źródło
To jest wariant C powyżej, prawda?
Anony-Mousse,
O tak, to jest wariant C.
ThePawn
Sprawdziłem to rozwiązanie empirycznie i NIE działa ... Jedyne, które to robi, to rozwiązanie (A), które sam
wdrożyłem
2
To równanie jest błędne według Wikipedii, Matlaba, R i innych, którzy wdrażają to równanie. Licznik tutaj jest podniesiony do kwadratu, ale NIE powinien, powinien być taki sam jak (C) zaproponowany przez PO. Zobacz en.wikipedia.org/wiki/…
gaborous
1
@rajatkhanduja Nie mówiłem o dowodzie, ale o ostatecznym równaniu pochodnym (najwyższym w tej odpowiedzi). Ale rzeczywiście jest poprawny, licznik jest po prostu podniesiony do kwadratu, ponieważ mnożymy przez V, więc licznik kończy się bez sprawdzenia. W każdym razie ten estymator pozostaje stronniczy, jak wyjaśniam w mojej odpowiedzi poniżej, ponieważ opiera się na wagach typu „niezawodność”.
gaboryczny
7

Zarówno A, jak i C są poprawne, ale to, którego użyjesz, zależy od rodzaju używanych wag:

  • Musi używać wag typu „powtórz” (liczby całkowite zliczające liczbę wystąpień dla każdej obserwacji) i jest bezstronna .
  • C wymaga użycia wag typu „niezawodność” (normalizowanych lub każdej wariancji dla każdej obserwacji) i jest tendencyjny . To nie może być bezstronne.

Powodem, dla którego C jest koniecznie stronniczy, jest to, że jeśli nie użyje się wag typu „powtórz”, tracisz możliwość zliczenia całkowitej liczby obserwacji (wielkości próbki), a zatem nie możesz użyć współczynnika korekcji.

Aby uzyskać więcej informacji, sprawdź niedawno opublikowany artykuł w Wikipedii: http://en.wikipedia.org/wiki/Weighted_arithmetic_mean#Weighted_sample_variance

gaboryczny
źródło