Jak „zsumować” odchylenie standardowe?

68

Mam miesięczną średnią dla wartości i standardowe odchylenie odpowiadające tej średniej. Teraz obliczam średnią roczną jako sumę średnich miesięcznych. Jak mogę przedstawić odchylenie standardowe dla sumowanej średniej?

Na przykład biorąc pod uwagę produkcję z farmy wiatrowej:

Month        MWh     StdDev
January      927     333 
February     1234    250
March        1032    301
April        876     204
May          865     165
June         750     263
July         780     280
August       690     98
September    730     76
October      821     240
November     803     178
December     850     250

Można powiedzieć, że w średnim roku farma wiatrowa wytwarza 10 358 MWh, ale jakie odchylenie standardowe odpowiada tej wartości?

klonq
źródło
3
W dyskusji po usuniętej odpowiedzi zauważono możliwą niejednoznaczność w tym pytaniu: czy szukasz SD dla średnich miesięcznych, czy też chcesz odzyskać SD dla wszystkich pierwotnych wartości, na podstawie których te średnie zostały skonstruowane? W odpowiedzi poprawnie wskazano również, że jeśli chcesz tego drugiego, będziesz potrzebować liczb wartości uwzględnionych w każdej z średnich miesięcznych.
whuber
1
Komentarz do innej usuniętej odpowiedzi wskazał, że dziwne jest obliczanie średniej jako sumy : na pewno masz na myśli uśrednianie średnich miesięcznych. Ale jeśli chcesz oszacować średnią wszystkich oryginalnych danych, taka procedura zwykle nie jest dobra: potrzebna jest średnia ważona . I oczywiście nie jest możliwe udzielenie dobrej odpowiedzi na pytanie dotyczące „SD dla średniej sumowanej”, dopóki nie stanie się jasne, czym jest „średnia sumowana” i co ma reprezentować. Wyjaśnij to nam.
whuber
@ whuber Dodałem przykład do wyjaśnienia. Matematycznie uważam, że suma średnich jest równa średniej miesięcznej razy 12.
klonq
2
Tak, klonq, to ​​bardzo rozsądna prośba. Odpowiedzi te zostały jednak usunięte przez ich właściciela, a nie przez społeczność. Aby zachować ich wartość, próbowałem tutaj przekazać (moje podejście) kluczowe pomysły powstałe w odpowiedziach i komentarzach. BTW, twoje ostatnie zmiany są bardzo pomocne: ludzie lubią widzieć przykładowe dane.
whuber
1
Witamy na stronie @Hayden. To nie jest odpowiedź na pytanie PO. Użyj tylko pola „Twoja odpowiedź”, aby podać odpowiedzi. Jeśli masz dodatkowe pytanie, kliknij [ASK QUESTION]u góry i zadaj je tam, a my pomożemy Ci właściwie. Ponieważ jesteś tutaj nowy, możesz wybrać się na naszą wycieczkę , która zawiera informacje dla nowych użytkowników.
gung

Odpowiedzi:

66

Krótka odpowiedź: oceniasz wariancje ; następnie możesz wziąć pierwiastek kwadratowy, aby uzyskać średnie odchylenie standardowe .


Przykład

Month          MWh  StdDev  Variance
==========   =====  ======  ========
January        927    333     110889
February      1234    250      62500
March         1032    301      90601
April          876    204      41616
May            865    165      27225
June           750    263      69169
July           780    280      78400
August         690     98       9604
September      730     76       5776
October        821    240      57600
November       803    178      31684
December       850    250      62500
===========  =====  =======  =======
Total        10358            647564
÷12            863    232      53964

A następnie średnie odchylenie standardowe wynosisqrt(53,964) = 232


Z sumy normalnie rozmieszczonych zmiennych losowych :

XY

... suma dwóch niezależnych normalnie rozłożonych zmiennych losowych jest normalna, przy czym jej średnia jest sumą dwóch średnich, a jej wariancja jest sumą dwóch wariancji

I z rozkładu normalnej sumy Wolfram Alpha :

XY(μX,σX2)(μY,σY2)

PX+Y(u)=12π(σX2+σY2)e[u(μX+μY)]2/[2(σX2+σY2)]

co oznacza

μX+Y=μX+μY

i wariancja

σX+Y2=σX2+σY2

Dla twoich danych:

  • suma: 10,358 MWh
  • zmienność: 647,564
  • odchylenie standardowe: 804.71 ( sqrt(647564) )

wprowadź opis zdjęcia tutaj

Aby odpowiedzieć na twoje pytanie:

  • Jak „zsumować” odchylenie standardowe ?
  • Sumujesz je kwadratowo:

    s = sqrt(s1^2 + s2^2 + ... + s12^2)
    

Koncepcyjnie sumujesz wariancje, a następnie bierzesz pierwiastek kwadratowy, aby uzyskać odchylenie standardowe.


Bo byłem ciekaw, chciałem znać średnią miesięczną średnią moc, a jej odchylenie standardowe . Poprzez indukcję potrzebujemy 12 normalnych rozkładów, które:

  • suma do średniej z 10,358
  • suma do wariancji 647,564

To byłoby 12 średnich miesięcznych rozkładów:

  • oznacza 10,358/12 = 863.16
  • wariancja 647,564/12 = 53,963.6
  • odchylenie standardowe sqrt(53963.6) = 232.3

wprowadź opis zdjęcia tutaj

Możemy sprawdzić nasze średnie miesięczne rozkłady, dodając je 12 razy, aby zobaczyć, czy są równe rozkładowi rocznemu:

  • Oznacza: 863.16*12 = 10358 = 10,358( poprawnie )
  • Wariancja: 53963.6*12 = 647564 = 647,564( poprawnie )

Uwaga : pozostawię to komuś, kto ma wiedzę na temat ezoterycznej matematyki lateksowej, aby przekonwertować obrazy formuł i formula codesformułować je w formuły wymiany stosu.

Edycja : Przeniosłem krótki, do rzeczy, odpowiedź do góry. Bo musiałem to zrobić znowu dzisiaj, ale chciał dokładnie sprawdzić, że średnia z odchyleń .

Ian Boyd
źródło
3
Wszystko to wydaje się zakładać, że miesiące są nieskorelowane - czy gdzieś to założenie było wyraźne? Ponadto, dlaczego musimy wprowadzić normalną dystrybucję? Jeśli mówimy tylko o wariancji, wydaje się to niepotrzebne - na przykład zobacz moją odpowiedź tutaj
Macro
1
@Marco Ponieważ myślę lepiej na zdjęciach i dzięki temu wszystko jest łatwiejsze do zrozumienia.
Ian Boyd,
2
@Marco Również uważam, że to pytanie zaczęło się w (obecnie nieistniejącej) witrynie stats.stackexchange. Ściana formuł są mniej dostępne niż prostszych, graficzne, mniej rygorystycznych metod leczenia.
Ian Boyd
2
Wątpię, czy to prawda. Wyobraź sobie dwa zestawy danych, z których każdy zawiera tylko jeden pomiar. Ich wariancja każdego zestawu wynosi 0, ale zestaw obu pomiarów ma wariancję większą niż 0, jeśli punkty danych różnią się.
Njol,
1
@Njol, myślę, że dlatego zakładamy, że wszystkie zmienne mają rozkład normalny. I możemy to zrobić tutaj, ponieważ mówimy o pomiarze fizycznym. W twoim przykładzie obie zmienne nie są normalnie rozłożone.
tworec
11

To stare pytanie, ale zaakceptowana odpowiedź nie jest w rzeczywistości poprawna ani kompletna. Użytkownik chce obliczyć odchylenie standardowe na podstawie danych z 12 miesięcy, przy czym średnia i odchylenie standardowe jest już obliczane dla każdego miesiąca. Zakładając, że liczba próbek w każdym miesiącu jest taka sama, możliwe jest obliczenie średniej próby i wariancji w ciągu roku na podstawie danych z każdego miesiąca. Dla uproszczenia załóżmy, że mamy dwa zestawy danych:

X={x1,....xN}

Y={y1,....,yN}

μxμyσx2σy2

Teraz chcemy obliczyć te same szacunki dla

Z={x1,....,xN,y1,...,yN}

μxσx2

μx=i=1NxiN

σx2=i=1Nxi2Nμx2

Aby oszacować średnią i wariancję dla całego zestawu, musimy obliczyć:

μz=i=1Nxi+i=1Nyi2N=(μx+μy)/2

σz2=i=1Nxi2+i=1Nyi22Nμz2

σz2=12(i=1Nxi2Nμx2+i=1Nyi2Nμy2)+12(μx2+μy2)(μx+μy2)2

σz2=12(σx2+σy2)+(μxμy2)2

Więc jeśli masz wariancję dla każdego podzbioru i chcesz wariancję dla całego zestawu, możesz uśrednić wariancje każdego podzbioru, jeśli wszystkie mają tę samą średnią. W przeciwnym razie musisz dodać wariancję średniej każdego podzbioru.

Powiedzmy, że w pierwszej połowie roku produkujemy dokładnie 1000 MWh dziennie, aw drugiej połowie 2000 MWh dziennie. Następnie średnia i wariancja produkcji energii w pierwszej i drugiej połowie wynoszą 1000 i 2000 dla średniej, a wariancja wynosi 0 dla obu połówek. Teraz są dwie różne rzeczy, którymi możemy być zainteresowani:

1- Chcemy obliczyć wariancję produkcji energii w ciągu całego roku : następnie uśredniając dwie wariancje dochodzimy do zera, co nie jest poprawne, ponieważ energia na dzień w ciągu całego roku nie jest stała. W takim przypadku musimy dodać wariancję wszystkich średnich z każdego podzbioru. Matematycznie w tym przypadku losową zmienną będącą przedmiotem zainteresowania jest produkcja energii na dzień. Mamy przykładowe statystyki dotyczące podzbiorów i chcemy obliczać statystyki przykładowe w dłuższym czasie.

2- Chcemy obliczyć wariancję produkcji energii na rok: Innymi słowy, jesteśmy zainteresowani tym, jak bardzo produkcja energii zmienia się z roku na rok. W tym przypadku uśrednienie wariancji prowadzi do prawidłowej odpowiedzi, która wynosi 0, ponieważ każdego roku produkujemy średnio dokładnie 1500 MHW. Matematycznie w tym przypadku losowa zmienna procentowa jest średnią produkcji energii na dzień, przy czym uśrednianie odbywa się przez cały rok.

Hooman
źródło
1

Uważam, że to, co może Cię naprawdę zainteresować, to standardowy błąd, a nie standardowe odchylenie.

Błąd standardowy średniej (SEM) jest odchyleniem standardowym średniej próby z średniej populacji, a to da ci miarę, jak dobre jest twoje roczne oszacowanie MWh.

n

s=s12+s22++s12212×n
Matteo
źródło
1

Chciałbym jeszcze raz podkreślić nieprawidłowość w części przyjętej odpowiedzi. Sformułowanie pytania prowadzi do zamieszania.

Pytanie ma średnią i StdDev każdego miesiąca, ale nie jest jasne, jaki rodzaj podzbioru jest używany. Czy jest to średnia z 1 turbiny wiatrowej z całej farmy, czy średnia dzienna z całej farmy? Jeśli jest to średnia dzienna dla każdego miesiąca, nie można zsumować średniej miesięcznej, aby uzyskać średnią roczną, ponieważ nie mają one tego samego mianownika. Jeśli jest to średnia jednostkowa, pytanie powinno zawierać

Można powiedzieć, że w średnim roku każda turbina w farmie wiatrowej wytwarza 10 358 MWh, ...

Zamiast

Można powiedzieć, że w średnim roku farma wiatrowa wytwarza 10 358 MWh, ...

Co więcej, odchylenie standardowe lub wariancja to porównanie z własną średnią zestawu. NIE zawiera żadnych informacji dotyczących średniej całego zestawu.

Przykład wariancji

Obraz nie jest koniecznie bardzo poprawny, ale przekazuje ogólną ideę. Wyobraźmy sobie moc 1 farmy wiatrowej jak na zdjęciu. Jak widać, wariant „lokalny” nie ma nic wspólnego z wariantem „globalnym”, bez względu na to, jak je dodasz lub pomnożysz. Nie można przewidzieć wariancji roku przy użyciu wariancji z 2 pół roku. Tak więc w przyjętej odpowiedzi, podczas gdy obliczanie sumy jest prawidłowe, dzielenie przez 12, aby uzyskać liczbę miesięczną, nic nie znaczy. . Z trzech sekcji pierwsza i ostatnia sekcja jest niepoprawna, druga jest właściwa.

Ponownie, jest to bardzo zła aplikacja, proszę nie stosować się do niej, bo może to spowodować kłopoty. Po prostu obliczony dla całości, wykorzystując całkowitą roczną / miesięczną wydajność każdej jednostki jako punkty danych w zależności od tego, czy chcesz liczbę roczną czy miesięczną, to powinna być poprawna odpowiedź. Prawdopodobnie chcesz coś takiego. To są moje losowo generowane liczby. Jeśli masz dane, wynik w komórce O2 powinien być twoją odpowiedzią.

wprowadź opis zdjęcia tutaj

Tam Le
źródło
Bardzo dziękuję za obraz, który bardzo pomógł mi zrozumieć, dlaczego zaakceptowana odpowiedź jest niepełna, a może nawet błędna. Wyjaśniłeś to bardzo dobrze, dziękuję!
Kay
To pokazuje niebezpieczeństwo głosowania. Głosujący to ludzie, którzy nie znają odpowiedzi. W przeciwieństwie do kodowania, osoby głosujące to osoby, które uruchamiają kod, im więcej głosów, tym lepsza odpowiedź. W przypadku statystyki / matematyki więcej głosów oznacza tylko, że jest bardziej atrakcyjna.
Tam Le