Co oznacza „rzeczywista” suma wariancji?

15

Jestem statystą noob, więc proszę, pomóżcie mi tutaj.

Moje pytanie brzmi: co właściwie oznacza łączna wariancja ?

Kiedy szukam formuły dla wariancji zbiorczej w Internecie, znajduję dużo literatury przy użyciu następującej formuły (na przykład tutaj: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistic_Tests/thispage/newnode19.html ):

Sp2=S12(n11)+S22(n21)n1+n22

Ale co to właściwie oblicza? Ponieważ kiedy używam tej formuły do ​​obliczania mojej łącznej wariancji, daje to złą odpowiedź.

Rozważmy na przykład te „próbki nadrzędne”:

2,2,2,2,2,8,8,8,8,8

Wariacja tej próbki nadrzędnej wynosi , a jej średnia to .ˉ x p = 5Sp2=10x¯p=5

Załóżmy teraz, że podzieliłem tę próbkę nadrzędną na dwie podpróbki:

  1. Pierwsza podpróbka to 2,2,2,2,2 ze średnią i wariancją .S 2 1 =0x¯1=2S12=0
  2. Druga podpróbka to 8,8,8,8,8 ze średnią i wariancją .x¯2=8S22=0

Oczywiście, użycie powyższego wzoru do obliczenia wariancji zbiorczej / macierzystej tych dwóch podprób da zero, ponieważ i . Co tak naprawdę oblicza ta formuła ?S1=0S2=0

Z drugiej strony, po dłuższej derywacji, znalazłem formułę, która daje prawidłową wariancję puli / rodzica:

Sp2=S12(n11)+n1d12+S22(n21)+n2d22n1+n21

W powyższym wzorze, i .d1=x1¯x¯pd2=x2¯x¯p

Znalazłem podobną formułę z moją, na przykład tutaj: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html, a także w Wikipedii. Chociaż muszę przyznać, że nie wyglądają dokładnie tak samo jak moje.

A więc, co właściwie oznacza łączna wariancja? Czy nie powinno to oznaczać wariancji próbki macierzystej z dwóch podpróbek? Czy całkowicie się mylę?

Z góry dziękuję.


EDYCJA 1: Ktoś mówi, że moje dwie podpróbki powyżej są patologiczne, ponieważ mają zerową wariancję. Cóż, mogę podać inny przykład. Rozważ tę próbkę nadrzędną:

1,2,3,4,5,46,47,48,49,50

Wariacja tej próbki nadrzędnej wynosi , a jej średnia to .Sp2=564.7x¯p=25.5

Załóżmy teraz, że podzieliłem tę próbkę nadrzędną na dwie podpróbki:

  1. Pierwsza podpróbka to 1,2,3,4,5 ze średnią i wariancją .x¯1=3S12=2.5
  2. Druga podpróbka wynosi 46,47,48,49,50 ze średnią i wariancją .x¯2=48S22=2.5

Teraz, jeśli użyjesz „formuły literatury”, aby obliczyć wariancję z puli, otrzymasz wartość 2,5, co jest całkowicie błędne, ponieważ wariancja nadrzędna / z puli powinna wynosić 564,7. Zamiast tego, jeśli użyjesz „mojej formuły”, otrzymasz poprawną odpowiedź.

Proszę zrozumieć, używam tutaj ekstremalnych przykładów, aby pokazać ludziom, że formuła rzeczywiście jest zła. Jeśli użyję „normalnych danych”, które nie mają wielu odmian (ekstremalne przypadki), wówczas wyniki z tych dwóch formuł będą bardzo podobne, a ludzie mogą zignorować różnicę z powodu błędu zaokrąglenia, a nie dlatego, że sama formuła jest źle.

Hanciong
źródło

Odpowiedzi:

13

Mówiąc prościej, połączona wariancja jest (obiektywnym) oszacowaniem wariancji w każdej próbce, przy założeniu / ograniczeniu, że wariancje są równe.

Jest to wyjaśnione, zmotywowane i szczegółowo przeanalizowane we wpisie w Wikipedii pod kątem wariancji zbiorczej .

Robi nie oszacować wariancję nowej „meta-sample” utworzonego przez złączenie dwóch pojedynczych próbek, tak jak przypuszczano. Jak już odkryłeś, szacowanie wymaga zupełnie innej formuły.

Jake Westfall
źródło
Założenie „równości” (to znaczy ta sama populacja zdała sobie sprawę z tych próbek) nie jest na ogół konieczne do zdefiniowania, co to jest - „połączone”. Łączone oznacza po prostu uśrednione, omnibus (patrz mój komentarz do Tima).
ttnphns
@ttnphns Myślę, że założenie równości jest konieczne do nadania zbiorczej wariancji znaczenia koncepcyjnego (o które poprosił PO), który wykracza poza opisanie werbalnej operacji matematycznej, którą wykonuje na przykładowych wariancjach. Jeśli wariancje populacji nie są równe, nie jest jasne, co można by uznać za łączną wariancję za wartość szacunkową. Oczywiście moglibyśmy po prostu myśleć o tym jako o połączeniu dwóch wariancji i zostawmy to w tym miejscu, ale nie jest to wcale pouczające z powodu braku jakiejkolwiek motywacji, aby chcieć połączyć wariancje w pierwszej kolejności.
Jake Westfall,
Jake, nie zgadzam się z tym, biorąc pod uwagę konkretne pytanie PO, ale chciałem porozmawiać o definicji słowa „połączone”, dlatego powiedziałem „ogólnie”.
ttnphns
@JakeWestfall Twoja odpowiedź jest jak dotąd najlepszą odpowiedzią. Dziękuję Ci. Chociaż nadal nie mam jasności co do jednej rzeczy. Według Wikipedii łączna wariancja jest metodą szacowania wariancji kilku różnych populacji, gdy średnia dla każdej populacji może być inna , ale można założyć, że wariancja dla każdej populacji jest taka sama .
Hanciong
@JakeWestfall: Jeśli więc obliczamy wariancję zbiorczą z dwóch różnych populacji przy użyciu różnych środków, co ona w rzeczywistości oblicza? Ponieważ pierwsza wariancja polega na pomiarze wariancji względem pierwszej średniej, a druga wariancja dotyczy drugiej średniej. Nie wiem, jakie dodatkowe informacje można uzyskać z ich obliczenia.
Hanciong
10

Łączna wariancja służy do łączenia razem wariancji z różnych próbek poprzez pobranie ich średniej ważonej, aby uzyskać „ogólną” wariancję. Problem z twoim przykładem polega na tym, że jest to przypadek patologiczny, ponieważ każda z podpróbek ma wariancję równą zero. Taki przypadek patologiczny ma bardzo mało wspólnego z danymi, które zwykle napotykamy, ponieważ zawsze istnieje pewna zmienność, a jeśli nie ma zmienności, nie dbamy o takie zmienne, ponieważ nie niosą one żadnych informacji. Należy zauważyć, że jest to bardzo prosta metoda i istnieją bardziej skomplikowane sposoby szacowania wariancji w hierarchicznych strukturach danych, które nie są podatne na takie problemy.

Jeśli chodzi o twój przykład w edycji, pokazuje, że ważne jest jasne określenie swoich założeń przed rozpoczęciem analizy. Powiedzmy, że masz punktów danych w k grupach, oznaczilibyśmy to jako x 1 , 1 , x 2 , 1 , , x n - 1 , k , x n , k , gdzie i- ty indeks w x i , j oznacza przypadki, a jnkx1,1,x2,1,,xn1,k,xn,kixi,jj-ty indeks oznacza indeksy grupowe. Możliwych jest kilka scenariuszy, możesz założyć, że wszystkie punkty pochodzą z tego samego rozkładu (dla uproszczenia załóżmy rozkład normalny),

(1)xi,jN(μ,σ2)

możesz założyć, że każda z podpróbek ma swoją własną wartość

(2)xi,jN(μj,σ2)

lub własną wariancję

(3)xi,jN(μ,σj2)

lub każdy z nich ma swoje własne, odrębne parametry

(4)xi,jN(μj,σj2)

W zależności od założeń konkretna metoda może być lub może nie być odpowiednia do analizy danych.

W pierwszym przypadku nie byłbyś zainteresowany oszacowaniem wariancji wewnątrz grupy, ponieważ zakładasz, że wszystkie są takie same. Niemniej jednak, jeśli zagregujesz wariancję globalną z wariancji grupowych, uzyskasz ten sam wynik, co przy użyciu puli wariancji, ponieważ definicja wariancji to

Var(X)=1n1i(xiμ)2

aw estymatorze zbiorczym najpierw mnożysz go przez , następnie sumujesz, a na koniec dzielisz przez n 1 + n 2 - 1 .n1n1+n21

W drugim przypadku środki różnią się, ale masz wspólną wariancję. Ten przykład jest najbliższy Twojemu przykładowi w edycji. W tym scenariuszu zsumowana wariancja poprawnie oszacowałaby wariancję globalną, natomiast gdyby oszacowana wariancja dla całego zestawu danych, uzyskałaby niepoprawne wyniki, ponieważ nie uwzględniono faktu, że grupy mają różne środki.

W trzecim przypadku oszacowanie wariancji „globalnej” nie ma sensu, ponieważ zakłada się, że każda z grup ma własną wariancję. Być może nadal jesteś zainteresowany uzyskaniem oszacowania dla całej populacji, ale w takim przypadku zarówno (a) obliczenie indywidualnych wariancji dla grupy, jak i (b) obliczenie globalnej wariancji z całego zestawu danych może dać mylące wyniki . Jeśli masz do czynienia z tego rodzaju danymi, powinieneś pomyśleć o zastosowaniu bardziej skomplikowanego modelu uwzględniającego hierarchiczny charakter danych.

Czwarty przypadek jest najbardziej ekstremalny i bardzo podobny do poprzedniego. W tym scenariuszu, jeśli chcesz oszacować globalną średnią i wariancję, potrzebujesz innego modelu i innego zestawu założeń. W takim przypadku można założyć, że dane mają strukturę hierarchiczną, a oprócz średnich i odchyleń wewnątrz grupy istnieje powszechna wariancja wyższego poziomu, na przykład przy założeniu następującego modelu

(5)xi,jN(μj,σj2)μjN(μ0,σ02)σj2IG(α,β)

μj,σj2

Tim
źródło
Zaktualizowałem swoje pytanie innym przykładem. W tym przypadku odpowiedź z „formuły literatury” jest nadal błędna. Rozumiem, że zwykle mamy do czynienia z „normalnymi danymi” tam, gdzie nie ma skrajnego przypadku, takiego jak mój przykład powyżej. Jednak jako matematycy nie powinniście przejmować się tym, która formuła rzeczywiście jest poprawna, a nie która z nich dotyczy „codziennego / powszechnego problemu”? Jeśli jakaś formuła jest zasadniczo błędna, należy ją odrzucić, zwłaszcza jeśli istnieje inna formuła, która we wszystkich przypadkach jest patologiczna lub nie.
Hanciong
Przy okazji powiedziałeś, że istnieją bardziej skomplikowane sposoby szacowania wariancji. Czy możesz mi pokazać te sposoby? Dziękuję
Hanciong
2
Tim zbiorcza wariancja nie jest całkowita wariancja „połączonej próbki”. W statystykach „pula” oznacza uśrednione ważone (gdy mówimy o uśrednionych wielkościach, takich jak wariancje, wagi są n ) lub po prostu zsumowane (gdy mówimy o sumach, takich jak rozproszenia, sumy kwadratów). Proszę ponownie rozważyć terminologię (wybór słów) w odpowiedzi.
ttnphns
1
Chociaż nie jest to aktualny temat, oto interesujące pytanie dotyczące „powszechnej” koncepcji wariancji. stats.stackexchange.com/q/208175/3277
ttnphns
1
Hanciong. Nalegam, aby koncepcja „połączonej” w ogóle, a nawet konkretnie „połączonej wariancji”, ogólnie nie wymagała żadnych założeń, takich jak: grupy pochodziły z populacji o równych wariancjach. Łączenie to po prostu łączenie (ważone uśrednianie lub sumowanie). To w ANOVA i podobnych okolicznościach dodajemy to założenie statystyczne.
ttnphns
1

Problem polega na tym, że jeśli po prostu połączysz próbki i oszacujesz ich wariancję, zakładasz, że pochodzą one z tego samego rozkładu, a zatem mają tę samą średnią. Ale ogólnie jesteśmy zainteresowani kilkoma próbkami o różnych wartościach średnich. Czy to ma sens?

ZHU
źródło
0

Przypadek użycia wariancji w puli występuje wtedy, gdy masz dwie próbki z dystrybucji, które:

  • mogą mieć różne środki, ale
  • który spodziewasz się mieć równą prawdziwą wariancję.

Przykładem tego jest sytuacja, w której mierzysz długość nosa Alice n razy dla jednej próbki i zmierz długość nosa Boba mrazy na sekundę. Prawdopodobnie spowodują one szereg różnych pomiarów w skali milimetrów z powodu błędu pomiaru. Ale oczekujesz, że wariancja błędu pomiaru będzie taka sama bez względu na to, który nos zmierzysz.

W takim przypadku pobranie wariancji zbiorczej dałoby lepsze oszacowanie wariancji błędu pomiaru niż pobranie wariancji pojedynczej próbki.

Misza
źródło
Dziękuję za odpowiedź, ale nadal nie rozumiem jednej rzeczy. Pierwsze dane dają wariancję w odniesieniu do długości nosa Alicji, a drugie dane dają wariancję w odniesieniu do długości nosa Boba. Jeśli obliczasz łączną wariancję na podstawie tych danych, co to właściwie oznacza? Ponieważ pierwsza wariancja polega na pomiarze wariancji w odniesieniu do Alice, a druga w odniesieniu do Boba, więc jakie dodatkowe informacje możemy uzyskać, obliczając ich łączną wariancję? Są to zupełnie inne liczby.
Hanciong
0

Poprzez łączoną wariancję nie próbujemy oszacować wariancji większej próbki, używając mniejszych próbek. Dlatego dwa podane przez Ciebie przykłady nie odnoszą się dokładnie do pytania.

Łączna wariancja jest wymagana, aby uzyskać lepsze oszacowanie wariancji populacyjnej, z dwóch próbek, które zostały losowo pobrane z tej populacji i zawierają różne szacunkowe wariancje.

Przykład: próbujesz oszacować wariancję nawyków palenia mężczyzn w Londynie. Próbujesz dwa razy, 300 mężczyzn z Londynu. W rezultacie dostajesz dwie wariancje (prawdopodobnie nieco inne!). Teraz, ponieważ wykonałeś uczciwe losowe próbkowanie (najlepiej jak potrafisz! Ponieważ prawdziwe losowe próbkowanie jest prawie niemożliwe), masz wszystkie prawa powiedzieć, że obie wariancje są prawdziwymi punktowymi szacunkami wariancji populacji (w tym przypadku londyńscy mężczyźni).

Ale jak to możliwe? tj. dwa różne oszacowania punktowe !! Tak więc idziemy dalej i znajdujemy wspólną ocenę punktową, która jest połączoną wariancją. Jest to nic innego jak średnia ważona z dwóch szacunków punktowych, gdzie wagi są stopniem swobody związanym z każdą próbką.

Mam nadzieję, że to wyjaśnia.

Sameer Saurabh
źródło