Czy jest 99 percentyli, czy 100 percentyli? I czy są to grupy liczb, dzielniki lub wskaźniki do poszczególnych liczb?

27

Czy jest 99 percentyli, czy 100 percentyli? I czy są to grupy liczb, linie podziału, czy wskaźniki do poszczególnych liczb?

Przypuszczam, że to samo pytanie dotyczy kwartyli lub dowolnego kwantyla.

Czytałem, że indeks liczby dla określonego percentyla (p), dla n elementów, wynosi i = (p / 100) * n

To sugeruje mi, że istnieje 100 percentyli .. ponieważ przypuśćmy, że masz 100 liczb (i = 1 do i = 100), a następnie każda miałaby indeks (od 1 do 100).

Gdybyś miał 200 liczb, byłoby 100 percentyli, ale każda z nich odnosi się do grupy dwóch liczb. Lub 100 dzielników z wyłączeniem skrajnie lewej lub skrajnie prawej, ponieważ w przeciwnym razie otrzymasz 101 dzielników. Lub wskaźniki do poszczególnych liczb, aby pierwszy percentyl odnosił się do drugiej liczby, (1/100) * 200 = 2, a setny percentyl odnosi się do 200. liczby (100/100) * 200 = 200

Czasami słyszałem o 99 percentylach ...

Google pokazuje słownik oksfordzki, który mówi o percentylu - „każda ze 100 równych grup, na które można podzielić populację zgodnie z rozkładem wartości określonej zmiennej”. oraz „każda z 99 wartości pośrednich zmiennej losowej, które dzielą rozkład częstotliwości na 100 takich grup”.

Wikipedia mówi „20 percentyl to wartość, poniżej której można znaleźć 20% obserwacji” Ale czy to w rzeczywistości oznacza „wartość, poniżej której lub równą 20% obserwacji”, tj. „Wartość, dla której 20 % wartości to <= to ”. Gdyby było to tylko <, a nie <=, to według tego rozumowania 100 percentyl byłby wartością, poniżej której można znaleźć 100% wartości. Słyszałem to jako argument, że nie może być 100. percentyla, ponieważ nie możesz mieć liczby, w której pod nim znajduje się 100% liczb. Ale myślę, że może ten argument, że nie możesz mieć 100. percentyla, jest niepoprawny i opiera się na błędzie, że definicja percentyla obejmuje <= nie <. (lub> = nie>). Zatem setny percentyl byłby liczbą końcową i byłby>

barlop
źródło
4
Myślę, że jest mało prawdopodobne, aby 100 było rozsądną odpowiedzią ze względu na asymetryczne traktowanie ekstremów. Przypadki mogą być wykonane dla 99 (jak w definicji, którą zacytowałeś) lub 101.
whuber
4
Historycznie kwantyle - jak teraz mówimy ogólnie - były najpierw punktami podsumowującymi, a następnie rozszerzonymi przez nie przedziałami, klasami lub przedziałami. Tak więc trzy kwartyle, w tym mediana, definiują cztery przedziały i tak dalej.
Nick Cox,
1
@ whuber Piszesz: „Myślę, że to mało prawdopodobne, by 100 było rozsądną odpowiedzią ze względu na asymetryczne traktowanie ekstremów”. <- możesz to rozwinąć?
barlop,
3
Wymienię wczesne zastosowanie różnych terminów kwantylowych na stats.stackexchange.com/questions/235330/... . Jeśli zajrzysz do OED lub jstor, otrzymasz przykłady użycia historycznego.
Nick Cox,
2
@ whuber Tak, wydaje się, że to, do czego się odnoszę, jest właściwie nazywane „percentylową rangą”, używane w raportach wyników testu & c .: en.wikipedia.org/wiki/Percentile , en.wikipedia.org/wiki/Percentile_rank , ncme .org / zasoby / glosariusz . Przepraszamy za zamieszanie. W mojej obronie różnica wydaje się zależeć od użycia przyimków „w” vs. „w” (patrz 1. link).
Jeff Y

Odpowiedzi:

32

Oba te zmysły percentyla , kwartylu i tak dalej są w powszechnym użyciu. Najłatwiej jest zilustrować różnicę za pomocą kwartyli:

  1. sens „dzielnika” - istnieją 3 kwartyle, które są wartościami dzielącymi rozkład (lub próbkę) na 4 równe części:

       1   2   3
    ---|---|---|---
    

    (Czasami stosuje się to z uwzględnieniem wartości maksymalnych i minimalnych, więc istnieje 5 kwartylów o numerach 0–4; zwróć uwagę, że nie koliduje to z powyższą numeracją, tylko ją rozszerza.)

  2. sens „bin”: istnieją 4 kwartyle, podzbiory, na które te 3 wartości dzielą rozkład (lub próbkę)

     1   2   3   4
    ---|---|---|---
    

Żadnego z tych zastosowań nie można rozsądnie nazwać „niewłaściwym”: oba są używane przez wielu doświadczonych praktyków i oba pojawiają się w wielu autorytatywnych źródłach (podręczniki, słowniki techniczne i tym podobne).

W przypadku kwartylów stosowany sens jest zwykle wyraźny z kontekstu: mówienie o wartości w trzecim kwartylu może być jedynie sensem „bin”, natomiast mówienie o wszystkich wartościach poniżej trzeciego kwartylu najprawdopodobniej oznacza sens „dzielnika”. W przypadku percentyli rozróżnienie jest częściej niejasne, ale również nie jest tak znaczące dla większości celów, ponieważ 1% rozkładu jest tak mały - wąski pasek jest w przybliżeniu linią. Mówiąc o wszystkich powyżej 80. percentyla, może oznaczać górne 20% lub górne 19%, ale w nieformalnym kontekście, który nie jest istotną różnicą, i przy rygorystycznej pracy, potrzebne znaczenie powinno być prawdopodobnie wyjaśnione przez resztę kontekstu.

(Części tej odpowiedzi zostały zaadaptowane z /math/1419609/are-there-3-or-4- quartiles-99-or-100- percentiles , który również zawiera cytaty + referencje.)

PLL
źródło
2
(+1) Ta późna odpowiedź ładnie trafia do sedna sprawy.
Nick Cox,
a co z en.wikipedia.org/wiki/Percentile mówi „każdy wynik jest w 100. percentylu” <- to brzmi jak kosz wielkości całego zestawu danych, podczas gdy wszystkie twoje pojemniki są równych rozmiarów
barlop
1
Wpis w Wikipedii tak mówi. Nie mogę wymyślić obrony dla takiego sformułowania. Wikipedia jest cudowna, chyba że wprowadza w błąd lub jest w błędzie. To zabrzmi kiepsko, ale wszystko, co mogę zrobić, to zachęcić każdego, kto ogląda, kto jest aktywny na Wikipedii, do poprawienia wpisu. Każdy musi mieć zasady dotyczące tego, co robią, a czego nie, a bycie aktywnym tutaj i w kilku innych miejscach jest moim osobistym ograniczeniem.
Nick Cox,
5

Weź tę odpowiedź z odrobiną soli - zaczęło się dość źle i wciąż decyduję, co z tym zrobić.

Pytanie częściowo dotyczy języka i użycia, podczas gdy ta odpowiedź dotyczy matematyki. Mam nadzieję, że matematyka zapewni ramy do zrozumienia różnych zastosowań.

Jednym z miłych sposobów rozwiązania tego problemu jest rozpoczęcie od prostej matematyki i przejście do bardziej skomplikowanego przypadku rzeczywistych danych. Zacznijmy od plików PDF, CDF i odwrotnych CDF (znanych również jako funkcje kwantylowe). x p kwantylem rozkładu z PDF f i CDF F jest fa-1(x) . Załóżmy, że z ty percentyl fa-1(z/100) . Zapewnia to sposób na określenie dwuznaczności, którą rozpoznajesz: możemy spojrzeć na sytuacje, w których fa jest 1) nieodwracalny, 2) tylko odwracalny w określonej dziedzinie lub 3) odwracalny, ale jego odwrotność nigdy nie osiąga pewnych wartości.

Przykład 1): Pozostawię to na koniec; Czytaj dalej.

Przykład 2): Do rozkładu jednolity 0,1, CDF jest odwracalna, gdy ograniczona [0, 1], tak 100. 0TH percentyli i może być określony jako fa-1(1) , a fa-1(0) biorąc pod uwagę to zastrzeżenie. W przeciwnym razie są źle zdefiniowane, ponieważ fa(-0,5) (na przykład) ma również wartość 0.

Kolejny przykład 2): Dla jednolitego rozkładu w dwóch rozłącznych przedziałach od 0 do 1 i 2 do 3, CDF wygląda następująco.

wprowadź opis zdjęcia tutaj

Większość kwantyli tego rozkładu istnieje i jest unikalna, ale mediana (50 percentyl) jest z natury niejednoznaczna. W R idą do połowy: quantile(c(runif(100), runif(100) + 2), 0.5)zwraca około 1,5.

Przykład 3): Dla rozkładu normalnego, percentyle 100 i 0 nie istnieją (lub „są” ± ). Jest tak, ponieważ normalny CDF nigdy nie osiąga 0 lub 1.

z/100yF(y)=z/100

wprowadź opis zdjęcia tutaj

Dla 60 percentyla R zwraca 1 ( quantile(c(rpois(lambda = 1, n = 1000) ), 0.60)). Dla 65. percentyla R również zwraca 1. Możesz to potraktować jako narysowanie 100 obserwacji, uszeregowanie ich od niskiego do wysokiego i zwrócenie 60 lub 65 pozycji. Jeśli to zrobisz, najczęściej otrzymasz 1.

Jeśli chodzi o rzeczywiste dane, wszystkie dystrybucje są dyskretne. (Empiryczny CDF runif(100)lub np.random.random(100)ma 100 przyrostów skupionych wokół 0,5.) Ale zamiast traktować je jako dyskretne, quantilefunkcja R wydaje się traktować je jako próbki z ciągłych rozkładów. Na przykład mediana (50 percentyl lub kwantyl 0,5) próbki 3,4, 5, 6, 7, 8 jest podana jako 5,5. Jeśli narysujesz 2n próbek z rozkładu unif (3,8) i weźmiesz dowolną liczbę między n-tą i (n + 1) th próbką, zbierzesz się na 5,5 wraz ze wzrostem n.

Interesujące jest również rozważenie dyskretnego rozkładu równomiernego z jednakowym prawdopodobieństwem trafienia 3,4,5,6,7,8. (Rzut kostką plus dwa.) Jeśli zastosujesz podejście do próbkowania i rangi opisane powyżej dla rozkładu Poissona, zwykle otrzymasz 5 lub 6. Gdy próbki stają się większe, rozkład liczby w połowie wysokości zbiega się o połowę piątki i pół szóstki. 5.5 wydaje się tu także rozsądnym kompromisem.

eric_kernfeld
źródło
2
F1[0,1]F[0,1]fa
whuber
Słuszna uwaga. Próbowałem wyodrębnić niektóre przypadki, aby to wyjaśnić. Jak poprawiłbyś dyskusję o ciągłości? Interpretacja kwantyli jako estymatorów jest centralnym punktem mojej odpowiedzi; bez tego nie mają dla mnie sensu.
eric_kernfeld
Co do drugiego: kwantyle nie muszą niczego szacować. Są one przydatne same w sobie do opisywania i wizualizacji danych (i często są wykorzystywane jedynie jako statystyki opisowe). Ciągłość: Myślę, że większość autorytetów powiedziałaby, że istnieją wszystkie percentyle dla dystrybucji dyskretnych. Naleganie, by było inaczej, jest niepotrzebną komplikacją. Sprawiłoby to, że wyniki większości obliczeń oprogramowania byłyby całkowicie tajemnicze, które z radością dostarczałyby wszystkie kwantyle od 0 do 1 ( włącznie ) dla dowolnego zestawu danych. Na Rprzykład wpisz quantile(0).
whuber
Ta dyskusja uświadomiła mi, że nie rozumiem kwantyli rozkładów dyskretnych. Myślę, że powinienem usunąć tę odpowiedź.
eric_kernfeld
1
Ludzie różnią się w tej kwestii, Eric. Kiedy moje odpowiedzi są tak błędne, że wprowadzają w błąd, najpierw je usuwam. Jeśli widzę jakąś potencjalną wartość w części odpowiedzi, edytuję ją, aby usunąć (lub wyjaśnić) wprowadzającą w błąd część, a następnie ją cofnąć. Inni po prostu pozwalają, aby sprawy się potoczyły i wzięły swój udział w głosowaniu; inni dodają edycję sugerującą, że czytelnicy mogą widzieć wartość, w której mogą wystąpić pewne nieporozumienia; jeszcze inne po prostu usuwają. Możesz nawet całkowicie zmienić odpowiedź, jeśli chcesz, jak to się czasem robi.
whuber
2

Nauczono mnie, że obserwacja w n-tym percentylu była większa niż n% obserwacji w analizowanym zbiorze danych. Co dla mnie oznacza, że ​​nie ma 0 lub 100 percentyla. Żadna obserwacja nie może być większa niż 100% obserwacji, ponieważ stanowi część tej 100% (a podobna logika ma zastosowanie w przypadku 0).

Edycja: Co do wartości, jest to również spójne z nieakademickim użyciem terminu, z którym się spotkałem: „X jest w n-tym percentylu ” oznacza, że ​​percentyl jest grupą, a nie granicą.

Niestety nie mam na to źródła, na które mogę wskazać.

mkt - Przywróć Monikę
źródło
6
Czy masz wiarygodne odniesienie do tego, czego pamiętasz? Zauważ, że domyślnie przyjmuje się definicję „percentyla” jako grupy liczb. Inna definicja przytoczona w pytaniu jest taka, że ​​percentyl stanowi granicę między takimi grupami.
whuber
1
To nie ma dla mnie sensu, ponieważ załóżmy, że twoje dane to 2,2,2,2,2,2,2,2,2,2,2, więc element w jednym kwantylu jest równy elementowi po jego lewej stronie w wcześniejszy kwantyl. Zatem element w n-tym kwantylu nie jest większy niż wszystkie pozostałe kwantyle z niego. Zatem pozycja w n-tym percentylu nie jest większa niż n% obserwacji w zbiorze danych. To> = n% obserwacji w zbiorze danych, ale nie tylko>. A zatem możesz mieć setny pecentyl ... co sądzisz o tej logice?
barlop,
4
Wiele definicji jest obciążonych, jeśli wszystkie wartości są identyczne!
Nick Cox,
2
Osoby matematyczne wygięte abstrakcyjnie i idealizowane, podczas gdy osoby piszące oprogramowanie muszą radzić sobie z bałaganem danych. Twój przykład 16 wartości byłby różnie traktowany przez oprogramowanie, które znam zgodnie z zasadą, że identyczne wartości muszą być identyczne (i zgadzam się). Dziwi mnie, że nie agonowałeś nad danymi z 15 lub 17 wartościami, przy czym nawet jeśli wszystkie wartości są odrębne, żadna reguła nie dzieli danych na 4 przedziały o jednakowej wielkości.
Nick Cox,
3
Jaka jest podobna logika dla zera? Czy „więcej niż zero procent obserwacji” oznacza „równy lub mniejszy niż wszystkie obserwacje”, tj. 0 percentyl byłby najniższą obserwowaną wartością?
ilkkachu
2

Istnieją inne sposoby obliczania percentyli, co nie jest jedynym. Zaczerpnięte z tego źródła .


p pp%28808028

x1xn

nxipi

pi=100(i0.5)n

Przykład z tych samych uwag do ilustracji:

wprowadź opis zdjęcia tutaj

7507

Gdybyś miał 200 liczb, byłoby 100 percentyli, ale każda z nich odnosi się do grupy dwóch liczb.

Nie.

x1x200

100(10.5)200100(20.5)200100(30.5)200...

powodując

0.25,0.75,1.25...1,2,3,...

naiwny
źródło
3
Pierwsze zdanie wygląda świetnie, a jedno z najważniejszych słów jest w przybliżeniu. Następnie jest to dokładne wyjaśnienie tylko jednego przepisu. Najważniejsze jest to, że istnieje kilka przepisów, a większość, jeśli nie wszystkie, mają w sobie pewną logikę, którą można obronić (czasami logika polega na tym, aby wszystko było jak najprostsze). Zobacz artykuł Hyndmana i Fana, o którym mowa w wielu wątkach tutaj w CV. Wątpię, aby wiele osób uznało twój ostatni akapit za sposób zgłaszania percentyli dla twojego przykładu.
Nick Cox,
@Nick Cox Dziękujemy za wnikliwy komentarz. Jeśli chodzi o ostatni akapit, uważam, że metoda powinna działać dobrze, gdy wszystkie obserwacje różnią się od siebie. W przypadku liczb powtarzanych nie będzie unikalnego percentyla dla tej samej liczby, co nie brzmi dobrze. Czy mógłbyś uprzejmie zasugerować, jak postępować w tej sprawie? Czy możesz również wskazać potencjalne pułapki w ostatnim akapicie.
naiwny
1
Nie sądzę, że chcę lub muszę uzupełniać to, co już zostało dobrze wyjaśnione w literaturze czasopism. Po pierwsze, masz do tego ulubione oprogramowanie. Zobacz, co dokumentuje i co robi. Po drugie, przez kilka dziesięcioleci nie obliczałem ręcznie percentyli i żadne z nas nie musi. Po trzecie, moja uwaga na temat ostatniego paragrafu: Chyba nikt nie chce powiedzieć, że zaobserwowane punkty danych to percentyle 0,25, 0,75, 1,25, ... To, czego ludzie chcą, jest różne, ale z mojego doświadczenia wynika, że ​​najczęściej potrzebne są streszczenia, takie jak 1, 5, 10, 25, 50, 75, 90, 95, 99% punktów, a także skrajności próbek.
Nick Cox,
1
Właśnie zauważyłem, że twierdzisz, że 0,5 jest w żargonie EDA, często nazywanym wartością p dla mediany. Nie w moim czytaniu, a nawet jeśli można znaleźć przykłady, które są okropną terminologią, biorąc pod uwagę przeważającą większość dla wartości p jako obserwowanego poziomu istotności.
Nick Cox,
Przejrzę artykuł, który zasugerowałeś. Dziękuję
naiwny
0

Uwaga - zaakceptuję odpowiedź kogoś innego niż moją. Ale widzę kilka użytecznych komentarzy, więc piszę tylko odpowiedź, która je wspomina.

Na podstawie odpowiedzi Nicka „-iles” termin dla górnej połowy procent

wydaje się, że warunki są niejednoznaczne i przypuszczam (w oparciu o moje rozumienie tego postu) lepszą terminologią byłoby X% punktu, a X% -Y% grupa; więc punkt kwantylowy (tak dla punktów kwartylowych, które mogą być dowolne od 0 do 4); grupa kwantylowa w zakresie od punktu kwantyla X do punktu kwantyla Y.

Tak czy inaczej dostaniemy 101 za percentyle, chociaż jeden komentarz sugeruje, że można odwoływać się do 101 punktów (przypuszczam, że policzyłeś punkty percentyla i tylko liczby całkowite), ale nawet wtedy, jeśli mówimy o 1, 2, 3, percentylu lub kwantyl, to się liczy i pierwszego nie można liczyć jako 0, i nie można mieć np. więcej niż 4 kwartylu lub więcej niż 100 percentyli. Jeśli więc mówimy o 1., 2., 3., terminologia ta tak naprawdę nie może odnosić się do punktu 0. Jeśli ktoś powiedział 0 punkt, to mimo że jest jasne, że oznacza on punkt 0, myślę, że powinien naprawdę powiedzieć punkt kwantylowy 0. Lub grupa kwantylowa w punkcie 0. Nawet informatycy nie powiedzieliby 0; nawet liczą pierwszy element jako 1, a jeśli nazywają go elementem 0, jest to indeksowanie od 0, a nie liczba.

Komentarz wspomina: „Nie może być 100. Albo 99, albo 101, w zależności od tego, czy liczysz maksimum i minimum”. Wydaje mi się, że jest tak w przypadku 99 lub 101, gdy mówimy o punktach kwantylowych, a nie o grupach, choć nie powiedziałbym, że jest to 0. W przypadku n pozycji indeks może przyjmować wartość od 0 ... n-1 i nikt nie zapisałby th / st np. 1st, 2nd itd. Na indeksie (chyba że indeks indeksował pierwszy element jako 1). Ale indeks rozpoczynający pierwszy element z indeksem 0 nie jest liczbą 1., 2. 3. liczby. np. pozycja z indeksem 0 jest pierwszą pozycją, nie można powiedzieć 0 i oznaczać drugą pozycję jako pierwszą.

barlop
źródło
Wszelkie niejasności zostały wprowadzone przez tych, którzy odeszli od wyraźnego precedensu historycznego. W praktyce nie gryzie mocno.
Nick Cox,
Wszyscy matematycy zaczynają liczyć od zera. Koncepcja jest prosta i naturalna: wypowiedzenie na głos słowa „zero” oznajmia zamiar liczenia. Następnie wykonuje się pewne (być może dowolne) indywidualne przypisanie sekwencji słów „jeden”, „dwa”, „trzy” itd. Do liczonych obiektów. Ostatnie z tych słów (jeśli jest ostatnie) jest utożsamiane z licznością zbioru. Piękno tego pomysłu polega na tym, że gdy w zestawie nie ma żadnych elementów, ostatnim słowem było „zero”, co jest unikalną poprawną wartością.
whuber
@ gdy piszesz „Wszyscy matematycy zaczynają od zera” <- Jak myślisz, gdzie powiedziałem inaczej?
barlop
„liczy się i pierwszego nie można liczyć jako 0”.
whuber
1
@ może wiele osób może, myślę, że wiele lat temu mogłem, tak jak podczas studiowania informatyki, czasami słyszałem, że informatycy liczą od 0, unilke matematyków (to nie twoje twierdzenie ani moje), ale po głębokiej przemyśleniu dostałem więcej jasność i zrozumiałem, że zarówno informatycy, jak i matematycy liczą się od 0. Różnica polega na tym, że informatycy często używają indeksu, a indeks indeksuje pierwszą pozycję jako 0. (ale nadal będzie to 1) ..
barlop