Nie zrozumiałem, dlaczego tak jest, N
i N-1
podczas obliczania wariancji populacji. Kiedy korzystamy N
i kiedy korzystamy N-1
?
Kliknij tutaj, aby uzyskać większą wersję
Mówi, że gdy populacja jest bardzo duża, nie ma różnicy między N i N-1, ale nie mówi, dlaczego na początku występuje N-1.
Edycja: Proszę nie mylić n
i n-1
które są używane do oszacowania.
Edycja2: Nie mówię o szacowaniu populacji.
variance
population
ilhan
źródło
źródło
Odpowiedzi:
n ( N - 1 ) / N = 1 - ( 1 / N ) 1 - 2 / N 1 - 17 / N exp ( - 1 / N )N jest wielkością populacji, a jest wielkością próby. Pytanie dotyczy tego, dlaczego wariancja populacji jest średnim kwadratowym odchyleniem od średniej, a nie razy. Jeśli o to chodzi, po co się tu zatrzymywać? Dlaczego na przykład nie pomnożyć średniego odchylenia do kwadratu przez lub lub ?n (N−1)/N=1−(1/N) 1−2/N 1−17/N exp(−1/N)
Jest naprawdę dobry powód, aby tego nie robić. Każda z tych liczb, o których właśnie wspomniałem, posłuży jako dobry sposób na oszacowanie „typowego rozprzestrzeniania się” w populacji. Jednak bez wcześniejszej wiedzy na temat wielkości populacji niemożliwe byłoby użycie próby losowej w celu znalezienia obiektywnego oszacowania takiej liczby. Wiemy, że wariancja próby , która zwielokrotnia średnie kwadratowe odchylenie od średniej próby przez , jest obiektywnym estymatorem zwykłej wariancji populacji przy próbkowaniu z wymianą. (Nie ma problemu z dokonaniem tej korekty, ponieważ znamy !) W związku z tym wariancja próbki byłaby tendencyjnym estymatorem dowolnej wielokrotności wariancji populacji, w której ta wielokrotność, np.n 1 - 1 / N(n−1)/n n 1−1/N , nie jest wcześniej dokładnie znany.
Ten problem z nieznaną ilością stronniczości rozprzestrzeniłby się na wszystkie testy statystyczne wykorzystujące wariancję próbki, w tym testy t i testy F. W efekcie dzielenie przez formułę wariancji populacyjnej innej niż wymagałoby zmiany wszystkich tabel statystycznych statystyki t i statystyki F (oraz wielu innych tabel), ale dostosowanie zależałoby od wielkości populacji. Nikt nie chce tworzyć tabel dla każdego możliwego ! Zwłaszcza, gdy nie jest to konieczne.NN N
Z praktycznego punktu widzenia, gdy jest na tyle, że przy użyciu małych zamiast w formułach robi różnicę, zwykle nie zna wielkości populacji (lub można odgadnąć go dokładnie) i będzie prawdopodobnie uciekać się do znacznie bardziej istotnego małej populacji poprawki podczas pracy z losowymi próbkami (bez zastępowania) z populacji. We wszystkich innych przypadkach, kogo to obchodzi? Różnica nie ma znaczenia. Z tych powodów, kierując się względami pedagogicznymi (a mianowicie skupieniem się na szczegółach, które mają znaczenie i połyskiem nad szczegółami, które nie mają znaczenia), niektóre doskonałe teksty ze statystyk wprowadzających nawet nie przeszkadzają w nauczaniu różnicy: po prostu zapewniają formułę pojedynczej wariancji ( dzielić przezN - 1 N N nN N−1 N N lub zależnie od przypadku).n
źródło
Zamiast zagłębiać się w matematykę, postaram się wyrazić to prostymi słowami. Jeśli masz do dyspozycji całą populację, wówczas jej wariancja ( wariancja populacyjna ) jest obliczana za pomocą mianownika
N
. Podobnie, jeśli masz tylko próbkę i chcesz obliczyć wariancję tej próbki , używasz mianownikaN
(w tym przypadku n próbki). W obu przypadkach, uwaga, nie oszacować niczego: średnie, które mierzone jest prawdziwa średnia i wariancja ty obliczana od tej średniej jest prawdziwym wariancji.Teraz masz tylko próbkę i chcesz wnioskować o nieznanej średniej i wariancji w populacji. Innymi słowy, chcesz oszacowań . Bierzesz średnią z próby dla oszacowania średniej populacji (ponieważ twoja próbka jest reprezentatywna), OK. Aby uzyskać oszacowanie wariancji populacji, musisz udawać, że ta średnia jest naprawdę średnią populacji, a zatem nie jest już zależna od twojej próby od momentu jej obliczenia. Aby „pokazać”, że traktujesz to jako ustalone, zastrzegasz jedną (dowolną) obserwację z próbki, aby „wesprzeć” wartość średniej: bez względu na to, co mogła się zdarzyć twoja próbka, jedna zastrzeżona obserwacja zawsze może sprowadzić średnią do wartości, którą „ dostałem i który uważa, że jest niewrażliwy na nieprzewidziane próby. Jedną zastrzeżoną obserwacją jest „-1”
N-1
w obliczaniu wariancji obliczeniowej.Wyobraź sobie, że w jakiś sposób znasz prawdziwą średnią populacji, ale chcesz oszacować wariancję na podstawie próby. Następnie zamienisz ten prawdziwy środek na formułę wariancji i zastosujesz mianownik
N
: nie potrzebujesz tutaj „-1”, ponieważ znasz prawdziwy środek, nie oszacowałeś go na podstawie tej samej próbki.źródło
N
zarówno N, jak i n.N
jest wielkością całości, zarówno populacji, jak i próbki. Aby obliczyć wariancję populacji , musisz mieć do dyspozycji populację. Jeśli masz tylko próbkę, możesz obliczyć wariancję tej próbki lub obliczyć wariancję oszacowania populacji . Nie ma innej możliwości.Ogólnie rzecz biorąc, jeśli ktoś ma tylko ułamek populacji, tj. Próbkę, należy podzielić przez n-1. Jest ku temu dobry powód, wiemy, że wariancja próby, która zwielokrotnia średnie kwadratowe odchylenie od średniej próby przez (n-1) / n, jest obiektywnym estymatorem wariancji populacji.
Możesz znaleźć dowód, że estymator wariancji próbki jest obiektywny tutaj: https://economictheoryblog.com/2012/06/28/latexlatexs2/
Ponadto, gdyby zastosować estymator wariancji populacji, czyli wersję estymatora wariancji, która dzieli przez n, na próbie zamiast populacji, uzyskane oszacowanie byłoby tendencyjne.
źródło
W przeszłości istniał argument, że powinieneś używać N dla wariancji nieinferencyjnej, ale nie zalecałbym tego więcej. Zawsze powinieneś używać N-1. Gdy wielkość próbki maleje, N-1 jest całkiem dobrą poprawką na to, że wariancja próbki maleje (po prostu bardziej prawdopodobne jest, że będziesz pobierał próbki blisko szczytu rozkładu --- patrz rysunek). Jeśli wielkość próbki jest naprawdę duża, nie ma to znaczenia.
Alternatywnym wyjaśnieniem jest to, że populacja jest teoretyczną konstrukcją, której nie da się osiągnąć. Dlatego zawsze używaj N-1, ponieważ cokolwiek robisz, w najlepszym razie szacujesz wariancję populacji.
Od tego momentu zobaczysz N-1 w celu oszacowania wariancji. Prawdopodobnie nigdy nie spotkasz się z tym problemem ... z wyjątkiem testu, kiedy nauczyciel może poprosić cię o rozróżnienie między wnioskowaniem a wnioskiem miara wariancji nieinferencyjnej. W takim przypadku nie używaj odpowiedzi Whubera ani mojej, zapoznaj się z odpowiedzią ttnphns.
Uwaga: na tym rysunku wariancja powinna być zbliżona do 1. Spójrz, jak bardzo zmienia się ona wraz z rozmiarem próbki, gdy używasz N do oszacowania wariancji. (jest to „uprzedzenie”, o którym mowa w innym miejscu)
źródło
Wariancja populacji to suma kwadratowych odchyleń wszystkich wartości w populacji podzielona przez liczbę wartości w populacji. Gdy jednak szacujemy wariancję populacji z próby, napotykamy problem polegający na tym, że odchylenia wartości próbki od średniej próbki są średnio nieco mniejsze niż odchylenia tych wartości próbki od ( nieznana) średnia rzeczywistej populacji To powoduje, że wariancja obliczona na podstawie próby jest nieco mniejsza niż prawdziwa wariancja populacji. Użycie dzielnika n-1 zamiast n poprawia to niedoszacowanie.
źródło