Dlaczego zawsze stosuje się rozkłady średniej 0 i odchylenia standardowego 1?

15

Moje statystyki są samoukiem, ale wiele przeczytanych przeze mnie materiałów wskazuje na zbiór danych o średniej 0 i standardowym odchyleniu 1.

Jeśli tak jest, to:

  1. Dlaczego średnia 0 i SD 1 to dobra właściwość?

  2. Dlaczego losowa zmienna pobrana z tej próbki wynosi 0,5? Szansa na narysowanie 0,001 jest taka sama jak 0,5, więc powinien to być rozkład płaski ...

  3. Kiedy ludzie mówią o wynikach Z, co tak naprawdę tutaj oznaczają?

Jack Kada
źródło

Odpowiedzi:

11
  1. Na początku najbardziej użyteczną odpowiedzią jest prawdopodobnie to, że średnia 0 i sd 1 są matematycznie wygodne. Jeśli potrafisz obliczyć prawdopodobieństwa dla rozkładu ze średnią 0 i odchyleniem standardowym 1, możesz je obliczyć dla dowolnego podobnego rozkładu wyników za pomocą bardzo prostego równania.

  2. Nie podążam za tym pytaniem. Średnia 0 i odchylenie standardowe 1 zwykle stosuje się do standardowego rozkładu normalnego, często nazywanego krzywą dzwonową. Najbardziej prawdopodobną wartością jest średnia, która spada wraz z oddalaniem się. Jeśli masz naprawdę płaski rozkład, nie ma bardziej prawdopodobnej wartości niż inna. Twoje pytanie tutaj jest źle sformułowane. Czy zastanawiałeś się może nad pytaniami dotyczącymi rzutów monetą? Sprawdź rozkład dwumianowy i centralne twierdzenie graniczne.

  3. „znaczysz tutaj”? Gdzie? Prosta odpowiedź dla wyników Z jest taka, że ​​są one skalowane tak, jakby twoja średnia wynosiła 0, a odchylenie standardowe wynosiło 1. Innym sposobem myślenia o tym jest to, że wymaga indywidualnego wyniku, ponieważ liczba odchyleń standardowych, które wynik jest z oznaczać. Równanie oblicza (wynik - średnia) / odchylenie standardowe. Powody, dla których to robisz, są dość zróżnicowane, ale jednym z nich jest to, że w kursach statystyki wprowadzającej masz tabele prawdopodobieństwa dla różnych wyników Z (patrz odpowiedź 1).

Gdybyś najpierw sprawdził Z-score, nawet na Wikipedii, uzyskałbyś całkiem dobre odpowiedzi.

John
źródło
2) Uważam, że zamieszanie jest tym, co oznacza p (X = .01), gdy X jest ciągłą zmienną losową. Intuicyjnie prawdopodobieństwo wydaje się być wszędzie zerowe, ponieważ nie ma szans, że X wynosi dokładnie 0,01. Pytający powinien przejrzeć definicję funkcji gęstości w przypadku ciągłym, która jest zdefiniowana jako pochodna skumulowanej funkcji gęstości.
Tristan
7

Na początek mówimy o standardowym rozkładzie normalnym, rozkładzie normalnym ze średnią 0 i odchyleniu standardowym 1. Skrótem dla zmiennej, która jest rozkładana jako standardowy rozkład normalny, jest Z.

Oto moje odpowiedzi na twoje pytania.

(1) Myślę, że istnieją dwa kluczowe powody, dla których standardowe rozkłady normalne są atrakcyjne. Po pierwsze, każdą normalnie rozłożoną zmienną można przekształcić lub przekształcić w normalną normę, odejmując jej średnią z każdej obserwacji przed podzieleniem każdej obserwacji przez odchylenie standardowe. Nazywa się to transformacją Z lub tworzeniem wyników Z. Jest to bardzo przydatne, szczególnie w czasach przed komputerami.

Jeśli chciałbyś dowiedzieć się prawdopodobieństwa jakiegoś zdarzenia ze swojej zmiennej, która jest normalnie dystrybuowana ze średnią 65,6 ze standardowym odchyleniem 10,2, czy nie byłby to właściwy ból z tyłu bez komputera? Powiedzmy, że ta zmienna jest wysokością w calach amerykańskich kobiet. Powiedzmy, że jesteśmy zainteresowani ustaleniem prawdopodobieństwa, że ​​kobieta losowo wylosowana z populacji będzie bardzo wysoka - powiedzmy, że ma ponad 75 cm wzrostu. Cóż, jest to trochę uciążliwe, aby dowiedzieć się z komputerem, ponieważ musiałbym nosić ze sobą stół przy każdej możliwej normalnej dystrybucji ze mną. Jeśli jednak przekształcę to w wynik Z, mogę skorzystać z jednej tabeli, aby sprawdzić prawdopodobieństwo, a zatem:

(xja-x¯)σx=Z(75-65,6)10.2=0,9215
Korzystając z tabeli Z, stwierdzam, że skumulowane prawdopodobieństwo P (z <Z) - 0,8212, a zatem prawdopodobieństwo znalezienia kobiety tak wysokiej lub wyższej niż 75 cali wynosi 17,88%. Możemy to zrobić z każdą zmienną normalnie rozłożoną, więc ten standardowy rozkład normalny jest bardzo przydatny.

Drugim powodem częstego stosowania standardowego rozkładu normalnego jest interpretacja podana w kategoriach wyników Z. Każde „obserwacja” w zmiennej transformowanej Z oznacza liczbę odchyleń standardowych pierwotnej nietransformowanej obserwacji od średniej. Jest to szczególnie przydatne w przypadku standardowych testów, w których wydajność pierwotna lub bezwzględna jest mniej ważna niż wydajność względna.

(2) Nie śledzę cię tutaj. Myślę, że możesz się mylić co do tego, co rozumiemy przez funkcję skumulowanego rozkładu. Należy zauważyć, że oczekiwana wartość standardowego rozkładu normalnego wynosi 0, a wartość ta odpowiada wartości 0,5 w powiązanej funkcji rozkładu skumulowanego.

(3) Z-score to pojedyncze „obserwacje” lub dane odniesienia w zmiennej, która została przekształcona w Z. Wróć do mojego przykładu zmiennej - wzrost amerykańskich kobiet w calach. Szczególną obserwacją może być wysoka kobieta o wzroście 75 cali. Wynik Z dla tego jest wynikiem transformacji Z zmiennej, jak to zrobiliśmy wcześniej:

(xja-x¯)σx=Z(75-65,6)10.2=0,9215
Wynik Z w tym przypadku wynosi 0,9215. Interpretacja wyniku Z jest taka, że ​​ta konkretna kobieta jest o 0,9215 odchyleń standardowych wyższa niż średnia wysokość. Osoba, która miała 55,4 cala wzrostu, ma wynik Z wynoszący 1 i byłaby o 1 odchylenie standardowe poniżej średniej wysokości.
Graham Cookson
źródło
1

Ponieważ otrzymałeś doskonałe wyjaśnienia od Grahama i Johna, odpowiem tylko na twoje ostatnie pytanie:

Kiedy ludzie mówią o wynikach Z, co tak naprawdę tutaj oznaczają?

Najlepszym sposobem na udzielenie odpowiedzi jest zastanowienie się nad tym pytaniem: oceny w klasie CS 101 są zwykle rozdzielane μ = 80 i σ = 5. Jaki jest wynik z dla oceny 65?

Więc: (65-80) / 5 = -3

Można powiedzieć, że wynik Z dla oceny 65 wynosi -3 ; lub innymi słowy 3 odchylenie standardowe w lewo.

adhg
źródło