Na podstawowych kursach statystyki poniżej stopnia uczniowie (zwykle?) Uczą się testowania hipotez dla średniej populacji.
Dlaczego skupia się na średniej, a nie na środkowej? Domyślam się, że łatwiej jest przetestować średnią ze względu na centralne twierdzenie graniczne, ale chciałbym przeczytać kilka wykształconych wyjaśnień.
hypothesis-testing
mean
inference
median
nafrtiti
źródło
źródło
Odpowiedzi:
Ponieważ Alan Turing urodził się po Ronaldzie Fisherze.
W dawnych czasach, przed komputerami, wszystkie te rzeczy musiały być wykonywane ręcznie lub, w najlepszym wypadku, za pomocą tak zwanych kalkulatorów. Testy porównawcze średnich można wykonać w ten sposób - jest to pracochłonne, ale możliwe. Testy na kwantyle (takie jak mediana) byłyby prawie niemożliwe do wykonania w ten sposób.
Na przykład regresja kwantylowa polega na zminimalizowaniu stosunkowo skomplikowanej funkcji, co nie byłoby możliwe ręcznie. Jest to możliwe przy programowaniu. Patrz np. Koenker lub Wikipedia .
Regresja kwantylowa ma mniej założeń niż regresja OLS i zapewnia więcej informacji.
źródło
Chciałbym dodać trzeci powód do poprawnych powodów podanych przez Harrella i Floma. Powodem jest to, że używamy odległości euklidesowej (lub L2), a nie odległości Manhattanu (lub L1) jako naszej standardowej miary bliskości lub błędu. Jeśli ktoś ma wiele punktów danych i chce jednej liczby aby ją oszacować, oczywistym pojęciem jest znalezienie liczby, która minimalizuje „błąd”, liczba ta tworzy najmniejszą różnicę między wybraną liczbą a liczby, które stanowią dane. W notacji matematycznej dla danej funkcji błędu E chcemy znaleźć . Jeśli weźmie się za E (x, y) normę lub odległość L2, to znaczyx1,…xn θ minθ∈R(E(θ,x1,…xn)=minθ∈R(∑i=ni=1E(θ,xi)) E(x,y)=(x−y)2 to minimalizator nad wszystkimi jest średnią. Jeśli weźmiesz odległość L1 lub Manhattan, minimalizator nad wszystkimi jest medianą. Tak więc średnia jest naturalnym wyborem matematycznym - jeśli używa się odległości L2!θ∈R θ∈R
źródło
Często średnia jest wybierana nad medianą nie dlatego, że jest bardziej reprezentatywna, silna lub znacząca, ale dlatego, że ludzie mylą estymator z estymatorem. Innymi słowy, niektórzy wybierają średnią populacji jako wielkość zainteresowania, ponieważ przy normalnym rozkładzie średnia próbki jest bardziej precyzyjna niż mediana próby. Zamiast tego powinni zastanowić się więcej, tak jak to zrobiliście, na temat prawdziwej ilości zainteresowania.
Jeden pasek boczny: mamy nieparametryczny przedział ufności dla mediany populacji, ale nie ma nieparametrycznej metody (innej niż być może numerycznie intensywna metoda empirycznego prawdopodobieństwa), aby uzyskać przedział ufności dla średniej populacji. Jeśli chcesz pozostać bez dystrybucji, możesz skoncentrować się na medianie.
Zauważ, że twierdzenie o limicie centralnym jest znacznie mniej przydatne, niż się wydaje, jak omówiono w innym miejscu na tej stronie. Skutecznie zakłada, że wariancja jest znana lub że rozkład jest symetryczny i ma taki kształt, że wariancja próbki jest konkurencyjnym estymatorem dyspersji.
źródło