Jestem statystą noob, więc proszę, pomóżcie mi tutaj.
Moje pytanie brzmi: co właściwie oznacza łączna wariancja ?
Kiedy szukam formuły dla wariancji zbiorczej w Internecie, znajduję dużo literatury przy użyciu następującej formuły (na przykład tutaj: http://math.tntech.edu/ISR/Mathematical_Statistics/Introduction_to_Statistic_Tests/thispage/newnode19.html ):
Ale co to właściwie oblicza? Ponieważ kiedy używam tej formuły do obliczania mojej łącznej wariancji, daje to złą odpowiedź.
Rozważmy na przykład te „próbki nadrzędne”:
Wariacja tej próbki nadrzędnej wynosi , a jej średnia to .ˉ x p = 5
Załóżmy teraz, że podzieliłem tę próbkę nadrzędną na dwie podpróbki:
- Pierwsza podpróbka to 2,2,2,2,2 ze średnią i wariancją .S 2 1 =0
- Druga podpróbka to 8,8,8,8,8 ze średnią i wariancją .
Oczywiście, użycie powyższego wzoru do obliczenia wariancji zbiorczej / macierzystej tych dwóch podprób da zero, ponieważ i . Co tak naprawdę oblicza ta formuła ?
Z drugiej strony, po dłuższej derywacji, znalazłem formułę, która daje prawidłową wariancję puli / rodzica:
W powyższym wzorze, i .
Znalazłem podobną formułę z moją, na przykład tutaj: http://www.emathzone.com/tutorials/basic-statistics/combined-variance.html, a także w Wikipedii. Chociaż muszę przyznać, że nie wyglądają dokładnie tak samo jak moje.
A więc, co właściwie oznacza łączna wariancja? Czy nie powinno to oznaczać wariancji próbki macierzystej z dwóch podpróbek? Czy całkowicie się mylę?
Z góry dziękuję.
EDYCJA 1: Ktoś mówi, że moje dwie podpróbki powyżej są patologiczne, ponieważ mają zerową wariancję. Cóż, mogę podać inny przykład. Rozważ tę próbkę nadrzędną:
Wariacja tej próbki nadrzędnej wynosi , a jej średnia to .
Załóżmy teraz, że podzieliłem tę próbkę nadrzędną na dwie podpróbki:
- Pierwsza podpróbka to 1,2,3,4,5 ze średnią i wariancją .
- Druga podpróbka wynosi 46,47,48,49,50 ze średnią i wariancją .
Teraz, jeśli użyjesz „formuły literatury”, aby obliczyć wariancję z puli, otrzymasz wartość 2,5, co jest całkowicie błędne, ponieważ wariancja nadrzędna / z puli powinna wynosić 564,7. Zamiast tego, jeśli użyjesz „mojej formuły”, otrzymasz poprawną odpowiedź.
Proszę zrozumieć, używam tutaj ekstremalnych przykładów, aby pokazać ludziom, że formuła rzeczywiście jest zła. Jeśli użyję „normalnych danych”, które nie mają wielu odmian (ekstremalne przypadki), wówczas wyniki z tych dwóch formuł będą bardzo podobne, a ludzie mogą zignorować różnicę z powodu błędu zaokrąglenia, a nie dlatego, że sama formuła jest źle.
Odpowiedzi:
Mówiąc prościej, połączona wariancja jest (obiektywnym) oszacowaniem wariancji w każdej próbce, przy założeniu / ograniczeniu, że wariancje są równe.
Jest to wyjaśnione, zmotywowane i szczegółowo przeanalizowane we wpisie w Wikipedii pod kątem wariancji zbiorczej .
Robi nie oszacować wariancję nowej „meta-sample” utworzonego przez złączenie dwóch pojedynczych próbek, tak jak przypuszczano. Jak już odkryłeś, szacowanie wymaga zupełnie innej formuły.
źródło
Łączna wariancja służy do łączenia razem wariancji z różnych próbek poprzez pobranie ich średniej ważonej, aby uzyskać „ogólną” wariancję. Problem z twoim przykładem polega na tym, że jest to przypadek patologiczny, ponieważ każda z podpróbek ma wariancję równą zero. Taki przypadek patologiczny ma bardzo mało wspólnego z danymi, które zwykle napotykamy, ponieważ zawsze istnieje pewna zmienność, a jeśli nie ma zmienności, nie dbamy o takie zmienne, ponieważ nie niosą one żadnych informacji. Należy zauważyć, że jest to bardzo prosta metoda i istnieją bardziej skomplikowane sposoby szacowania wariancji w hierarchicznych strukturach danych, które nie są podatne na takie problemy.
Jeśli chodzi o twój przykład w edycji, pokazuje, że ważne jest jasne określenie swoich założeń przed rozpoczęciem analizy. Powiedzmy, że masz punktów danych w k grupach, oznaczilibyśmy to jako x 1 , 1 , x 2 , 1 , … , x n - 1 , k , x n , k , gdzie i- ty indeks w x i , j oznacza przypadki, a jn k x1,1,x2,1,…,xn−1,k,xn,k i xi,j j -ty indeks oznacza indeksy grupowe. Możliwych jest kilka scenariuszy, możesz założyć, że wszystkie punkty pochodzą z tego samego rozkładu (dla uproszczenia załóżmy rozkład normalny),
możesz założyć, że każda z podpróbek ma swoją własną wartość
lub własną wariancję
lub każdy z nich ma swoje własne, odrębne parametry
W zależności od założeń konkretna metoda może być lub może nie być odpowiednia do analizy danych.
W pierwszym przypadku nie byłbyś zainteresowany oszacowaniem wariancji wewnątrz grupy, ponieważ zakładasz, że wszystkie są takie same. Niemniej jednak, jeśli zagregujesz wariancję globalną z wariancji grupowych, uzyskasz ten sam wynik, co przy użyciu puli wariancji, ponieważ definicja wariancji to
aw estymatorze zbiorczym najpierw mnożysz go przez , następnie sumujesz, a na koniec dzielisz przez n 1 + n 2 - 1 .n−1 n1+n2−1
W drugim przypadku środki różnią się, ale masz wspólną wariancję. Ten przykład jest najbliższy Twojemu przykładowi w edycji. W tym scenariuszu zsumowana wariancja poprawnie oszacowałaby wariancję globalną, natomiast gdyby oszacowana wariancja dla całego zestawu danych, uzyskałaby niepoprawne wyniki, ponieważ nie uwzględniono faktu, że grupy mają różne środki.
W trzecim przypadku oszacowanie wariancji „globalnej” nie ma sensu, ponieważ zakłada się, że każda z grup ma własną wariancję. Być może nadal jesteś zainteresowany uzyskaniem oszacowania dla całej populacji, ale w takim przypadku zarówno (a) obliczenie indywidualnych wariancji dla grupy, jak i (b) obliczenie globalnej wariancji z całego zestawu danych może dać mylące wyniki . Jeśli masz do czynienia z tego rodzaju danymi, powinieneś pomyśleć o zastosowaniu bardziej skomplikowanego modelu uwzględniającego hierarchiczny charakter danych.
Czwarty przypadek jest najbardziej ekstremalny i bardzo podobny do poprzedniego. W tym scenariuszu, jeśli chcesz oszacować globalną średnią i wariancję, potrzebujesz innego modelu i innego zestawu założeń. W takim przypadku można założyć, że dane mają strukturę hierarchiczną, a oprócz średnich i odchyleń wewnątrz grupy istnieje powszechna wariancja wyższego poziomu, na przykład przy założeniu następującego modelu
źródło
Problem polega na tym, że jeśli po prostu połączysz próbki i oszacujesz ich wariancję, zakładasz, że pochodzą one z tego samego rozkładu, a zatem mają tę samą średnią. Ale ogólnie jesteśmy zainteresowani kilkoma próbkami o różnych wartościach średnich. Czy to ma sens?
źródło
Przypadek użycia wariancji w puli występuje wtedy, gdy masz dwie próbki z dystrybucji, które:
Przykładem tego jest sytuacja, w której mierzysz długość nosa Alicen razy dla jednej próbki i zmierz długość nosa Boba m razy na sekundę. Prawdopodobnie spowodują one szereg różnych pomiarów w skali milimetrów z powodu błędu pomiaru. Ale oczekujesz, że wariancja błędu pomiaru będzie taka sama bez względu na to, który nos zmierzysz.
W takim przypadku pobranie wariancji zbiorczej dałoby lepsze oszacowanie wariancji błędu pomiaru niż pobranie wariancji pojedynczej próbki.
źródło
Poprzez łączoną wariancję nie próbujemy oszacować wariancji większej próbki, używając mniejszych próbek. Dlatego dwa podane przez Ciebie przykłady nie odnoszą się dokładnie do pytania.
Łączna wariancja jest wymagana, aby uzyskać lepsze oszacowanie wariancji populacyjnej, z dwóch próbek, które zostały losowo pobrane z tej populacji i zawierają różne szacunkowe wariancje.
Przykład: próbujesz oszacować wariancję nawyków palenia mężczyzn w Londynie. Próbujesz dwa razy, 300 mężczyzn z Londynu. W rezultacie dostajesz dwie wariancje (prawdopodobnie nieco inne!). Teraz, ponieważ wykonałeś uczciwe losowe próbkowanie (najlepiej jak potrafisz! Ponieważ prawdziwe losowe próbkowanie jest prawie niemożliwe), masz wszystkie prawa powiedzieć, że obie wariancje są prawdziwymi punktowymi szacunkami wariancji populacji (w tym przypadku londyńscy mężczyźni).
Ale jak to możliwe? tj. dwa różne oszacowania punktowe !! Tak więc idziemy dalej i znajdujemy wspólną ocenę punktową, która jest połączoną wariancją. Jest to nic innego jak średnia ważona z dwóch szacunków punktowych, gdzie wagi są stopniem swobody związanym z każdą próbką.
Mam nadzieję, że to wyjaśnia.
źródło