Prowadzę eksperyment, w którym równolegle zbieram (niezależne) próbki, obliczam wariancję każdej grupy próbek, a teraz chcę połączyć wszystkie, aby znaleźć całkowitą wariancję wszystkich próbek.
Trudno mi znaleźć na to pochodne, ponieważ nie jestem pewien terminologii. Myślę o tym jak o podziale jednego RV.
Więc chcę znaleźć z , , ... i , gdzie = .
EDYCJA: Partycje nie mają tego samego rozmiaru / liczności, ale suma rozmiarów partycji jest równa liczbie próbek w ogólnym zestawie próbek.
EDYCJA 2: Istnieje wzór na obliczenia równoległe , ale obejmuje on tylko przypadek partycji na dwa zbiory, a nie zbiorów.
Odpowiedzi:
Formuła jest dość prosta, jeśli wszystkie podpróbki mają ten sam rozmiar próby. Jeśli miał sub-próbek o rozmiarze K (w sumie g k próbek), a następnie odchylenie w połączonej próbki w zależności od średniej e j i wariancji V j każdego sub-próbce: V do R ( X 1 , … , X g k ) = k - 1g k gk Ej Vj gdzie przezVar(Ej)oznacza wariancję średnich próbek.
Demonstracja w języku R:
Jeśli rozmiary próbek nie są równe, formuła nie jest taka ładna.
EDYCJA: wzór na nierówne wielkości próbek
Jeżeli istnieją sub-próbek, zaś każda z k j , j = 1 , ... , G elementy w sumie n = Ď k j wartości, wtedy V R ( X 1 , ... , x n ) = 1g kj,j=1,…,g n=∑kj
gdzie ˉ X =(∑ g j = 1 kj ˉ X j)/njest średnią ważoną wszystkich średnich (i jest równa średniej wszystkich wartości).
Ponownie demonstracja:
źródło
This is simply an add-on to the answer of aniko with a rough sketch of the derivation and some python code, so all credits go to aniko.
derivation
LetXj∈X={X1,X2,…,Xg} be one of g parts of the data where the number of elements in each part is kj=|Xj| . We define the mean and the variance of each part to be
python code
The following python function works for arrays that have been splitted along the first dimension and implements the "more complex" formula for differently sized parts.
It can be used as follows:
źródło