Moje statystyki są samoukiem, ale wiele przeczytanych przeze mnie materiałów wskazuje na zbiór danych o średniej 0 i standardowym odchyleniu 1.
Jeśli tak jest, to:
Dlaczego średnia 0 i SD 1 to dobra właściwość?
Dlaczego losowa zmienna pobrana z tej próbki wynosi 0,5? Szansa na narysowanie 0,001 jest taka sama jak 0,5, więc powinien to być rozkład płaski ...
Kiedy ludzie mówią o wynikach Z, co tak naprawdę tutaj oznaczają?
źródło
Na początek mówimy o standardowym rozkładzie normalnym, rozkładzie normalnym ze średnią 0 i odchyleniu standardowym 1. Skrótem dla zmiennej, która jest rozkładana jako standardowy rozkład normalny, jest Z.
Oto moje odpowiedzi na twoje pytania.
(1) Myślę, że istnieją dwa kluczowe powody, dla których standardowe rozkłady normalne są atrakcyjne. Po pierwsze, każdą normalnie rozłożoną zmienną można przekształcić lub przekształcić w normalną normę, odejmując jej średnią z każdej obserwacji przed podzieleniem każdej obserwacji przez odchylenie standardowe. Nazywa się to transformacją Z lub tworzeniem wyników Z. Jest to bardzo przydatne, szczególnie w czasach przed komputerami.
Jeśli chciałbyś dowiedzieć się prawdopodobieństwa jakiegoś zdarzenia ze swojej zmiennej, która jest normalnie dystrybuowana ze średnią 65,6 ze standardowym odchyleniem 10,2, czy nie byłby to właściwy ból z tyłu bez komputera? Powiedzmy, że ta zmienna jest wysokością w calach amerykańskich kobiet. Powiedzmy, że jesteśmy zainteresowani ustaleniem prawdopodobieństwa, że kobieta losowo wylosowana z populacji będzie bardzo wysoka - powiedzmy, że ma ponad 75 cm wzrostu. Cóż, jest to trochę uciążliwe, aby dowiedzieć się z komputerem, ponieważ musiałbym nosić ze sobą stół przy każdej możliwej normalnej dystrybucji ze mną. Jeśli jednak przekształcę to w wynik Z, mogę skorzystać z jednej tabeli, aby sprawdzić prawdopodobieństwo, a zatem:
Drugim powodem częstego stosowania standardowego rozkładu normalnego jest interpretacja podana w kategoriach wyników Z. Każde „obserwacja” w zmiennej transformowanej Z oznacza liczbę odchyleń standardowych pierwotnej nietransformowanej obserwacji od średniej. Jest to szczególnie przydatne w przypadku standardowych testów, w których wydajność pierwotna lub bezwzględna jest mniej ważna niż wydajność względna.
(2) Nie śledzę cię tutaj. Myślę, że możesz się mylić co do tego, co rozumiemy przez funkcję skumulowanego rozkładu. Należy zauważyć, że oczekiwana wartość standardowego rozkładu normalnego wynosi 0, a wartość ta odpowiada wartości 0,5 w powiązanej funkcji rozkładu skumulowanego.
(3) Z-score to pojedyncze „obserwacje” lub dane odniesienia w zmiennej, która została przekształcona w Z. Wróć do mojego przykładu zmiennej - wzrost amerykańskich kobiet w calach. Szczególną obserwacją może być wysoka kobieta o wzroście 75 cali. Wynik Z dla tego jest wynikiem transformacji Z zmiennej, jak to zrobiliśmy wcześniej:
źródło
Ponieważ otrzymałeś doskonałe wyjaśnienia od Grahama i Johna, odpowiem tylko na twoje ostatnie pytanie:
Najlepszym sposobem na udzielenie odpowiedzi jest zastanowienie się nad tym pytaniem: oceny w klasie CS 101 są zwykle rozdzielaneμ = 80 i σ = 5. Jaki jest wynik z dla oceny 65?
Więc: (65-80) / 5 = -3
Można powiedzieć, że wynik Z dla oceny 65 wynosi -3 ; lub innymi słowy 3 odchylenie standardowe w lewo.
źródło