Mam na myśli 74,10 i odchylenie standardowe 33,44 dla próbki, która ma minimum 0 i maksimum 94,33.
Mój profesor pyta mnie, jak to znaczy, że jedno odchylenie standardowe przekracza maksimum.
Pokazałem jej wiele przykładów na ten temat, ale ona nie rozumie. Potrzebuję odniesienia, aby ją pokazać. Może to być dowolny rozdział lub akapit z książki statystyk, który mówi o tym szczególnie.
standard-deviation
mean
references
bounds
maximum
Boyun Omuru
źródło
źródło
Odpowiedzi:
Z pewnością średnia plus jeden sd może przekroczyć największą obserwację.
Rozważ próbkę 1, 5, 5, 5 -
ma średnią 4 i odchylenie standardowe 2, więc średnia + sd wynosi 6, jeden więcej niż maksimum próbki. Oto obliczenia w R:
To częste zjawisko. Zdarza się to zwykle wtedy, gdy po lewej stronie znajduje się wiązka wysokich wartości i ogon (tj. Gdy występuje silna skośność w lewo i szczyt blisko wartości maksymalnej).
-
Ta sama możliwość dotyczy rozkładów prawdopodobieństwa, a nie tylko próbek - średnia populacji plus sd populacji może łatwo przekroczyć maksymalną możliwą wartość.
Oto przykład gęstość, która ma maksymalną możliwą wartość 1:beta ( 10 , 12))
W takim przypadku możemy spojrzeć na stronę Wikipedii w celu uzyskania rozkładu wersji beta, który stwierdza, że średnia to:
a wariancja to:
(Chociaż nie musimy polegać na Wikipedii, ponieważ są one dość łatwe do uzyskania).
Zatem dla i β = 1α = 10 mamy średnią≈0,9523i sd≈0,0628, a więc średnią + sd≈1,0152, więcej niż możliwe maksimum 1.β= 12) ≈ 0,9523 ≈ 0,0628 ≈ 1,0152
Oznacza to, że łatwo jest mieć wartość średnią + sd, której nie można zaobserwować jako wartości danych .
-
W każdej sytuacji, w której tryb był maksymalny, skośność trybu Pearsona musi wynosić tylko dla średniej + sd przekraczającej maksimum. Może przyjmować dowolną wartość, dodatnią lub ujemną, dzięki czemu możemy łatwo zauważyć.<- 1
-
Blisko spokrewniony problem jest często postrzegany z przedziałami ufności dla proporcji dwumianowej , gdzie zwykle używany przedział, normalny przedział aproksymacji może dawać granice poza .[ 0 , 1 ]
Na przykład, rozważ 95,4% normalnego przedziału aproksymacji dla odsetka populacji sukcesów w próbach Bernoulliego (wyniki to 1 lub 0, odpowiednio reprezentujące zdarzenia sukcesu i niepowodzenia), gdzie 3 z 4 obserwacji to „ ”, a jedna obserwacja to „ 0 ”.1 0
Następnie górny limit odstępu jest p + 2 x √p^+ 2 × 14p^( 1 - p^)---------√= p^+ p^( 1 - p^)-------√= 0,75 + 0,433 = 1,183
Jest to tylko średnia próbki + zwykłe oszacowanie sd dla dwumianu ... i daje niemożliwą wartość.
Zazwyczaj próbkę sd 0,1,1,1 wynosi 0,5 zamiast 0,433 (różnią się, ponieważ dwumianowego oszacowanie ml odchylenie standardowe s ( 1 - p ) odpowiada podzieleniu wariancję przez n zamiast N - 1 ) . Ale to nie robi różnicy - w obu przypadkach średnia + sd przekracza największy możliwy odsetek.p^( 1 - p^) n n - 1
Ten fakt - że normalny interwał aproksymacji dla dwumianu może dawać „wartości niemożliwe” jest często odnotowywany w książkach i artykułach. Nie masz jednak do czynienia z danymi dwumianowymi. Niemniej jednak problem - to znaczy + pewna liczba odchyleń standardowych nie jest możliwą wartością - jest analogiczny.
-
W twoim przypadku nietypowa wartość „0” w twojej próbce powoduje, że sd jest większe niż obniża średnią, dlatego średnia + sd jest wysoka.
-
(Pytanie brzmiałoby zamiast tego - z jakiego powodu byłoby to niemożliwe? - ponieważ nie wiedząc, dlaczego ktokolwiek mógłby pomyśleć, że w ogóle jest problem, co rozwiązujemy?)
Logicznie rzecz biorąc, jeden pokazuje, że jest to możliwe, podając przykład, gdzie to się dzieje. Już to zrobiłeś. W przypadku braku określonego powodu, dla którego powinno być inaczej, co masz zrobić?
Jeśli przykład nie jest wystarczający, jaki dowód byłby akceptowalny?
Naprawdę nie ma sensu po prostu wskazywać na oświadczenie w książce, ponieważ każda książka może zawierać oświadczenie błędnie - cały czas je widzę. Należy polegać na bezpośrednim zademonstrowaniu, że jest to możliwe, albo na dowodzie w algebrze (można go zbudować z przykładu beta powyżej, na przykład *), albo na przykładzie numerycznym (który już podałeś), który każdy może zbadać samodzielnie .
* Whuber podaje dokładne komentarze dla wersji beta w komentarzach.
źródło
Na nierówność Czebyszewa mniej niż k -2 punktów może być więcej niż k odchyleń standardowych. Zatem dla k = 1 oznacza to, że mniej niż 100% twoich próbek może znajdować się w odległości większej niż jedno odchylenie standardowe.
Bardziej interesujące jest spojrzenie na dolną granicę. Twój profesor powinien być bardziej zaskoczony, że są punkty o około 2,5 odchylenia standardowego poniżej średniej. Ale teraz wiemy, że tylko około 1/6 twoich próbek może wynosić 0.
źródło
źródło
A my chcemy
Kwadrat po obu stronach, aby uzyskać
źródło