Jeśli obliczę medianę wystarczająco dużej liczby obserwacji pochodzących z tego samego rozkładu, to czy centralne twierdzenie graniczne stwierdza, że rozkład median będzie zbliżony do rozkładu normalnego? Rozumiem, że dotyczy to dużej liczby próbek, ale czy dotyczy to również median?
Jeśli nie, jaki jest podstawowy rozkład przykładowych median?
normal-distribution
mathematical-statistics
sampling
median
central-limit-theorem
użytkownik1728853
źródło
źródło
Odpowiedzi:
Jeśli pracujesz w kategoriach zmiennych wskaźnikowych (tj. jeśli i przeciwnym razie), możesz bezpośrednio zastosować Twierdzenie o granicy środkowej do średniej , i używając metody Delta , zamień to w asymptotyczna rozkładu normalnego dla , co z kolei oznacza, że można uzyskać asymptotycznej normalność dla stałych kwantyli .Zi=1 Xi≤x 0 Z F - 1 X ( ˉ Z ) XF−1X(Z¯) X
Więc nie tylko mediana, ale kwartyle, 90 percentyle, ... itd.
Luźno, jeśli mówimy o kwantylu próbki w wystarczająco dużych próbkach, otrzymujemy, że będzie on miał w przybliżeniu rozkład normalny ze średnią kwantylem populacji i wariancją .q q xq q(1−q)/(nfX(xq)2)
Zatem dla mediany ( ) wariancja w wystarczająco dużych próbkach wyniesie około .q=1/2 1/(4nfX(μ~)2)
Potrzebujesz oczywiście wszystkich warunków na drodze, aby nie działały we wszystkich sytuacjach, ale dla ciągłych rozkładów, w których gęstość kwantylu populacji jest dodatnia i zróżnicowana itp., ...
Co więcej, nie dotyczy ekstremalnych kwantyli, ponieważ CLT tam nie kopie (średnia Z nie będzie asymptotycznie normalna). Potrzebujesz różnych teorii dla ekstremalnych wartości.
Edycja: krytyka Whubera jest poprawna; działałoby to, gdyby był medianą populacji, a nie medianą próby. Argument musi zostać zmodyfikowany, aby faktycznie działał poprawnie.x
źródło
Kluczową ideą jest to, że rozkład próbkowania mediany jest prosty do wyrażenia w kategoriach funkcji rozkładu, ale bardziej skomplikowany do wyrażenia w kategoriach wartości mediany. Kiedy zrozumiemy, w jaki sposób funkcja rozkładu może ponownie wyrażać wartości jako prawdopodobieństwa i z powrotem, łatwo jest uzyskać dokładny rozkład próbkowania mediany. Konieczna jest niewielka analiza zachowania funkcji rozkładu w pobliżu jej mediany, aby wykazać, że jest to asymptotycznie normalne.
(Ta sama analiza działa dla rozkładu próbkowania dowolnego kwantyla, nie tylko mediany).
Nie będę się starał być rygorystyczny w tej prezentacji, ale wykonuję to w krokach, które są łatwo uzasadnione w rygorystyczny sposób, jeśli masz na to ochotę.
Intuicja
Oto migawki pudełka zawierającego 70 atomów gorącego gazu atomowego:
Na każdym zdjęciu znalazłem lokalizację pokazaną jako czerwona pionowa linia, która dzieli atomy na dwie równe grupy między lewą (narysowaną jako czarne kropki) i prawą (białe kropki). Jest to mediana pozycji: 35 atomów leży po lewej, a 35 po prawej. Mediany zmieniają się, ponieważ atomy poruszają się losowo wokół pudełka.
Jesteśmy zainteresowani rozkładem tej środkowej pozycji. Odpowiedzi na to pytanie odwraca moja procedura: najpierw narysujmy gdzieś pionową linię, powiedzmy w miejscu . Jaka jest szansa, że połowa atomów będzie na lewo od a połowa na prawo? Atomy po lewej stronie indywidualnie miały szanse na lewo. Atomy po prawej stronie indywidualnie miały szanse na prawo. Zakładając, że ich pozycje są statystycznie niezależne, szanse się mnożą, dając szansę na tę konkretną konfigurację. Równoważną konfigurację można uzyskać dla innego podziału atomów na dwax x 1 - x x 35 ( 1 - x ) 35 70x x x 1−x x35(1−x)35 70 35 -elementy. Dodanie tych liczb do wszystkich możliwych takich podziałów daje szansę
gdzie jest całkowitą liczbą atomów, a jest proporcjonalne do liczby podziałów atomów na dwie równe podgrupy.n C n
Wzór ten określa rozkład mediany jako beta rozkład(n/2+1,n/2+1) .
Rozważ teraz pudełko o bardziej skomplikowanym kształcie:
Ponownie mediany są różne. Ponieważ skrzynia jest nisko w pobliżu centrum, nie ma tam dużej objętości: niewielka zmiana objętości zajmowana przez lewą połowę atomów (czarne ponownie) - lub, równie dobrze, możemy przyznać, obszar z lewej strony, jak to pokazano na tych figurach - odpowiada stosunkowo dużą zmianę w pozycji poziomej mediany. W rzeczywistości, ponieważ obszar zajmowany przez małą poziomą część pudełka jest proporcjonalny do wysokości , zmiany w środkach są dzielone przez wysokość pudełka. To powoduje, że mediana jest bardziej zmienna dla tego pola niż dla pola kwadratowego, ponieważ ten jest o wiele niższy pośrodku.
Krótko mówiąc, kiedy mierzymy pozycję mediany pod względem powierzchni (po lewej i prawej stronie), pierwotna analiza (dla kwadratu) pozostaje niezmieniona. Kształt pudełka komplikuje rozkład tylko wtedy, gdy nalegamy na pomiar mediany pod względem jej położenia poziomego. Kiedy to robimy, związek między reprezentacją obszaru a pozycją jest odwrotnie proporcjonalny do wysokości pudełka.
Z tych zdjęć można dowiedzieć się więcej. Oczywiste jest, że gdy kilka atomów znajduje się w (którymkolwiek) polu, istnieje większa szansa, że połowa z nich może przypadkowo skończyć w klastrze daleko po obu stronach. Wraz ze wzrostem liczby atomów maleje potencjał tak ekstremalnej nierównowagi. Aby to wyśledzić, wziąłem „filmy” - długą serię 5000 klatek - dla zakrzywionego pudełka wypełnionego , potem , , a na końcu atomów, i zanotowałem mediany. Oto histogramy pozycji środkowych:3 15 75 375
Oczywiście dla wystarczająco dużej liczby atomów rozkład ich środkowej pozycji zaczyna wyglądać w kształcie dzwonu i staje się węższy: to wygląda na wynik centralnego twierdzenia granicznego, prawda?
Wyniki ilościowe
„Pole” oczywiście przedstawia gęstość prawdopodobieństwa niektórych rozkładów: jego górna krawędź to wykres funkcji gęstości (PDF). Zatem obszary reprezentują prawdopodobieństwa. Umieszczanie punktów losowo i niezależnie w ramce i obserwowanie ich pozycji poziomych jest jednym ze sposobów narysowania próbki z rozkładu. (To jest idea próbkowania przy odrzuceniu ).n
Kolejny rysunek łączy te pomysły.
To wygląda na skomplikowane, ale jest naprawdę bardzo proste. Istnieją tutaj cztery powiązane wątki:
Górny wykres pokazuje PDF rozkładu wraz z jedną losową próbką o rozmiarze . Wartości większe niż mediana są pokazane jako białe kropki; wartości mniejsze niż mediana jako czarne kropki. Nie potrzebuje skali pionowej, ponieważ wiemy, że całkowity obszar to jedność.n
Środkowy wykres jest funkcją rozkładu skumulowanego dla tego samego rozkładu: używa wysokości do oznaczenia prawdopodobieństwa. Dzieli swoją oś poziomą z pierwszym poletkiem. Jego oś pionowa musi wynosić od do ponieważ reprezentuje prawdopodobieństwa.0 1
Lewy wykres ma być czytany na boki: jest to PDF rozkładu Beta . Pokazuje, jak mediana w ramce będzie się zmieniać, gdy mediana jest mierzona w kategoriach obszarów po lewej i prawej stronie środka (zamiast mierzona przez jej położenie poziome). Narysowałem losowych punktów z tego pliku PDF, jak pokazano, i połączyłem je poziomymi liniami przerywanymi z odpowiednimi lokalizacjami na oryginalnym CDF: w ten sposób objętości (mierzone po lewej stronie) są konwertowane na pozycje (mierzone u góry, pośrodku i dolna grafika). Jeden z tych punktów faktycznie odpowiada medianie pokazanej na górnym wykresie; Narysowałem ciągłą pionową linię, aby to pokazać.(n/2+1,n/2+1) 16
Wykres dolny to gęstość próbkowania mediany, mierzona jego pozycją poziomą. Uzyskuje się to poprzez przekształcenie obszaru (na lewym wykresie) w pozycję. Formuła konwersji jest odwrotna do pierwotnego CDF: jest to po prostu definicja odwrotnego CDF! (Innymi słowy, CDF przekształca pozycję w obszar po lewej stronie; odwrotny CDF przekształca z powrotem do obszaru do położenia). Narysowałem pionowe linie przerywane pokazujące, w jaki sposób losowe punkty z lewego wykresu są konwertowane na losowe punkty w dolnym wykresie . Ten proces czytania w poprzek, a następnie w dół mówi nam, jak przejść z obszaru do miejsca.
Niech będzie CDF pierwotnego rozkładu (środkowy wykres), a CDF rozkładu Beta. Aby znaleźć szansę, że mediana leży na lewo od pewnej pozycji , najpierw użyj aby uzyskać pole po lewej stronie w polu: jest to sam . Rozkład Beta po lewej stronie mówi nam o szansie, że połowa atomów znajdzie się w tym tomie, dając : jest to CDF pozycji środkowej . Aby znaleźć jego plik PDF (jak pokazano na dolnym wykresie), weź pochodną:F G x F x F(x) G(F(x))
gdzie to PDF (górny wykres), a to Beta PDF (lewy wykres).f g
Jest to dokładny wzór na rozkład mediany dla dowolnego ciągłego rozkładu. (Z pewną ostrożnością przy interpretacji można go zastosować do dowolnej dystrybucji, ciągłej lub nie.)
Wyniki asymptotyczne
Kiedy jest bardzo duże, a nie ma skoku na swojej medianie, mediana próbki musi się bardzo różnić wokół rzeczywistej mediany . Zakładając również, że PDF jest ciągły w pobliżu , w powyższej formule nie zmieni się znacznie od jego wartości w podanej przez Co więcej, również nie zmieni się znacznie ze swojej wartości: na pierwsze zamówienie,n F μ f μ f(x) μ, f(μ). F
Zatem przy coraz lepszym przybliżeniu, gdy rośnie,n
Jest to jedynie zmiana lokalizacji i skali dystrybucji wersji beta. Przeskalowanie przez podzieli jego wariancję przez (które lepiej być niezerowe!). Nawiasem mówiąc, wariancja Beta jest bardzo bliska .f(μ) f(μ)2 n / 4(n/2+1,n/2+1) n/4
Ta analiza może być postrzegana jako zastosowanie metody Delta .
Wreszcie Beta jest w przybliżeniu Normalna dla dużych . Jest na to wiele sposobów; być może najprościej jest spojrzeć na logarytm jego pliku PDF w pobliżu :n 1 / 2(n/2+1,n/2+1) n 1/2
(Stałe i normalizują jedynie całkowity obszar do jedności.) W przypadku trzeciego rzędu w jest to to samo, co dziennik normalnego PDF z wariancją (Argument ten jest bardziej rygorystyczny przy użyciu charakterystycznych lub kumulatywnych funkcji generujących zamiast dziennika pliku PDF.)C C′ x, 1/(4n).
Podsumowując, dochodzimy do wniosku
Rozkład mediany próbki ma wariancję około ,1/(4nf(μ)2)
i jest w przybliżeniu Normalny dla dużego ,n
wszystko pod warunkiem, że PDF jest ciągły i niezerowy przy medianief μ.
źródło
R
, być może przy użyciulayout
, ale w rzeczywistości zrobiono to z Mathematica 9.@EngrStudent pouczająca odpowiedź mówi nam, że powinniśmy spodziewać się różnych wyników, gdy rozkład jest ciągły , a gdy jest dyskretny (wykresy „czerwone”, w których asymptotyczny rozkład mediany próbki nie wygląda spektakularnie normalnie, odpowiada rozkładom Dwumianowy (3), geometryczny (11), hipergeometryczny (12), ujemny dwumianowy (14), Poissona (18), dyskretny jednolity (22).
I rzeczywiście tak jest. Kiedy rozkład jest dyskretny, sprawy się komplikują. Dostarczę dowód na Absolutnie Ciągłą Sprawę, w zasadzie robiąc nic więcej, niż szczegółowo opisując odpowiedź udzieloną już przez @Glen_b, a następnie omówię trochę, co dzieje się, gdy dystrybucja jest dyskretna, podając również najnowsze informacje dla każdego zainteresowanego nurkowaniem w.
ABSOLUTNIE CIĄGŁA DYSTRYBUCJA{X1,...Xn} FX(x)=P(Xi≤x) F′X(x)=fX(x) Zi≡I{Xi≤x} I{} Zi E(Zi)=E(I{Xi≤x})=P(Xi≤x)=FX(x),Var(Zi)=FX(x)[1−FX(x)],∀i
Rozważmy zbiór absolutnie ciągłych zmiennych losowych iid z funkcją dystrybucji (cdf) i funkcją gęstości . Zdefiniuj gdzie jest funkcją wskaźnika. Dlatego jest rv Bernoulliego, gdzie
Niech będzie średnią próbkową tych iid Bernoullis, zdefiniowanych dla stałej jako co oznacza, że Obowiązuje Twierdzenie o centralnej i mamyYn(x) x Yn(x)=1n∑i=1nZi E[Yn(x)]=FX(x),Var(Yn(x))=(1/n)FX(x)[1−FX(x)]
Zauważ, że tzn. Nie jest to funkcja empiryczna. Stosując „Metodę Delta” mamy to, że dla ciągłej i różniczkowalnej funkcji z niezerową pochodną w punkcie zainteresowania otrzymujemyYn(x)=F^n(x) g(t) g′(t)
Teraz wybierz gdzie oznacza funkcję odwrotną. Jest to funkcja ciągła i różniczkowalna (ponieważ jest), a według twierdzenia o funkcji odwrotnej mamyg(t)≡F−1X(t),t∈(0,1) −1 FX(x)
Wstawienie tych wyników na w otrzymanym przez nas wyniku asymptotycznym metodą deltag
i upraszczając,
.. dla każdego ustalonego . Teraz ustaw , (prawdziwą) medianę populacji. Następnie mamy i powyższy ogólny wynik staje się, w naszym przypadku,x x=m FX(m)=1/2
Ale zbiega się do mediany próbki . To dlatego, żeF−1X(F^n(m)) m^
Prawa strona nierówności zbiega się do a najmniejszy dla którego ostatecznie , jest medianą próbki.1/2 x FX≥1/2
Więc otrzymujemy
DYSTRYBUCJE DYSKRETNE
Gdy rozkład jest dyskretny (lub gdy próbka zawiera powiązania), argumentowano, że „klasyczna” definicja kwantyli próbki, a zatem także mediany, może być myląca , jako teoretyczna koncepcja używane do mierzenia tego, co próbuje się zmierzyć za pomocą kwantyli.
W każdym razie zasymulowano, że zgodnie z tą klasyczną definicją (tą, którą wszyscy znamy), asymptotyczny rozkład mediany próbki jest nienormalny i rozkład dyskretny.
Alternatywną definicją przykładowych kwantyli jest zastosowanie pojęcia funkcji „rozkład środkowy”, która jest zdefiniowana jakoFmid(x)=P(X≤x)−12P(X=x)
Definicja kwantyli próbnych poprzez pojęcie funkcji rozkładu średniego może być postrzegana jako uogólnienie, które może obejmować jako przypadki szczególne rozkłady ciągłe, ale także te nie tak ciągłe.
W przypadku rozkładów dyskretnych, pośród innych wyników, stwierdzono, że mediana próbki zdefiniowana za pomocą tej koncepcji ma asymptotycznie rozkład normalny z ... wyszukaną wariancją.
Większość z nich to ostatnie wyniki. Odniesieniem jest Ma, Y., Genton, MG i Parzen, E. (2011). Właściwości asymptotyczne przykładowych kwantyli o rozkładach dyskretnych. Roczniki Instytutu Matematyki Statystycznej, 63 (2), 227-243. , gdzie można znaleźć dyskusję i linki do starszej literatury.
źródło
Tak, i to nie tylko dla mediany, ale dla każdego kwantyla próbki. Kopiując z tego artykułu , napisanego przez TS Fergusona, profesora na UCLA (jego strona jest tutaj ), który interesująco zajmuje się wspólnym rozkładem średniej próbki i kwantyli próbki, mamy:
Niech iid z funkcją rozkładu , gęstością , średnią i wariancją skończoną . Niech i niech oznacza -ty kwantyl , tak aby . Załóżmy, że gęstość jest ciągła i dodatnia przy . Niech oznacza próbkę -tego kwantyla. NastępnieX1,...,Xn F(x) f(x) μ σ2 0<p<1 xp p F F(xp)=p f(x) xp Yn=X(n:⌈np⌉) p
Dla (mediana), a masz CLT dla median,p=1/2⇒xp=m
źródło
Podoba mi się analityczna odpowiedź udzielona przez Glen_b. To dobra odpowiedź.
Potrzebuje zdjęcia. Lubię zdjęcia.
Oto obszary elastyczności w odpowiedzi na pytanie:
Do standardowego standardu użyłem następującego kodu MatLab:
i otrzymałem następujący wykres jako wynik:
Dlaczego więc nie zrobić tego dla pozostałych 22 „wbudowanych” rozkładów, z wyjątkiem używania wykresów prob (gdzie linia prosta oznacza bardzo normalny)?
A oto kod źródłowy:
Kiedy widzę analityczny dowód, myślę, że „teoretycznie wszystkie one mogą się zmieścić”, ale kiedy go wypróbuję, mogę uspokoić to za pomocą „istnieje wiele sposobów, które nie działają tak dobrze, często z wykorzystaniem dyskretnych lub bardzo ograniczonych wartości ”, a to może sprawić, że będę chciał być bardziej ostrożny w stosowaniu teorii do wszystkiego, co kosztuje pieniądze.
Powodzenia.
źródło