Tak więc mam zestaw danych takich wartości procentowych:
100 / 10000 = 1% (0.01)
2 / 5 = 40% (0.4)
4 / 3 = 133% (1.3)
1000 / 2000 = 50% (0.5)
Chcę znaleźć standardowe odchylenie procentowe, ale ważone dla ich objętości danych. tzn. pierwszy i ostatni punkt danych powinny dominować w obliczeniach.
W jaki sposób mogę to zrobić? Czy istnieje prosty sposób, aby to zrobić w programie Excel?
Odpowiedzi:
Formuła odchylenia standardowego ważonego jest:
gdzie
jest liczbą obserwacji.N
jest liczbą niezerowych wag.M
wagąwi
są obserwacjami.xi
jest średnią ważoną.x¯∗
Pamiętaj, że wzór na średnią ważoną to:
Użyj odpowiednich ciężarków, aby uzyskać pożądany wynik. W twoim przypadku sugerowałbym użycie .Number of cases in segmentTotal number of cases
Aby to zrobić w programie Excel, musisz najpierw obliczyć średnią ważoną. Następnie oblicz w osobnej kolumnie. Reszta musi być bardzo łatwa.(xi−x¯∗)2
źródło
Formuły są dostępne w różnych miejscach, w tym w Wikipedii .
Kluczem jest zauważyć, że zależy to od tego, co oznaczają wagi . W szczególności otrzymasz różne odpowiedzi, jeśli wagi są częstotliwościami (tj. Próbujesz po prostu uniknąć zsumowania całej sumy), jeśli wagi są w rzeczywistości wariancją każdego pomiaru lub jeśli są to tylko niektóre wartości zewnętrzne nałożyć na twoje dane.
W twoim przypadku powierzchownie wygląda na to, że wagi są częstotliwościami, ale nimi nie są . Generujesz dane na podstawie częstotliwości, ale nie jest to proste, aby mieć 45 rekordów 3 i 15 rekordów 4 w zbiorze danych. Zamiast tego musisz użyć ostatniej metody. (W rzeczywistości wszystko to jest śmieciem - naprawdę musisz użyć bardziej wyrafinowanego modelu procesu, który generuje te liczby! Najwyraźniej nie masz czegoś, co wyrzuca liczby normalnie dystrybuowane, więc charakteryzujesz system standardowym odchyleniem nie jest właściwe.)
W każdym razie wzór na wariancję (z którego oblicza się odchylenie standardowe w normalny sposób) z wagami „niezawodności” to
gdziex∗=∑wixi/∑wi
Nie masz szacunkowej masy, którą zakładam, że chcesz być proporcjonalny do niezawodności. Biorąc udział procentowy w taki sposób, w jaki jesteś, utrudnisz analizę, nawet jeśli są one generowane przez proces Bernoulli, ponieważ jeśli uzyskasz wynik 20 i 0, masz nieskończony procent. Ważenie przez odwrotność SEM jest powszechną, a czasem optymalną rzeczą do zrobienia. Być może powinieneś użyć szacunku Bayesa lub przedziału punktacji Wilsona .
źródło
Kolumna
G
to wagi, kolumnaH
to wartościźródło
źródło
źródło