Czy jest 99 percentyli, czy 100 percentyli? I czy są to grupy liczb, linie podziału, czy wskaźniki do poszczególnych liczb?
Przypuszczam, że to samo pytanie dotyczy kwartyli lub dowolnego kwantyla.
Czytałem, że indeks liczby dla określonego percentyla (p), dla n elementów, wynosi i = (p / 100) * n
To sugeruje mi, że istnieje 100 percentyli .. ponieważ przypuśćmy, że masz 100 liczb (i = 1 do i = 100), a następnie każda miałaby indeks (od 1 do 100).
Gdybyś miał 200 liczb, byłoby 100 percentyli, ale każda z nich odnosi się do grupy dwóch liczb. Lub 100 dzielników z wyłączeniem skrajnie lewej lub skrajnie prawej, ponieważ w przeciwnym razie otrzymasz 101 dzielników. Lub wskaźniki do poszczególnych liczb, aby pierwszy percentyl odnosił się do drugiej liczby, (1/100) * 200 = 2, a setny percentyl odnosi się do 200. liczby (100/100) * 200 = 200
Czasami słyszałem o 99 percentylach ...
Google pokazuje słownik oksfordzki, który mówi o percentylu - „każda ze 100 równych grup, na które można podzielić populację zgodnie z rozkładem wartości określonej zmiennej”. oraz „każda z 99 wartości pośrednich zmiennej losowej, które dzielą rozkład częstotliwości na 100 takich grup”.
Wikipedia mówi „20 percentyl to wartość, poniżej której można znaleźć 20% obserwacji” Ale czy to w rzeczywistości oznacza „wartość, poniżej której lub równą 20% obserwacji”, tj. „Wartość, dla której 20 % wartości to <= to ”. Gdyby było to tylko <, a nie <=, to według tego rozumowania 100 percentyl byłby wartością, poniżej której można znaleźć 100% wartości. Słyszałem to jako argument, że nie może być 100. percentyla, ponieważ nie możesz mieć liczby, w której pod nim znajduje się 100% liczb. Ale myślę, że może ten argument, że nie możesz mieć 100. percentyla, jest niepoprawny i opiera się na błędzie, że definicja percentyla obejmuje <= nie <. (lub> = nie>). Zatem setny percentyl byłby liczbą końcową i byłby>
Odpowiedzi:
Oba te zmysły percentyla , kwartylu i tak dalej są w powszechnym użyciu. Najłatwiej jest zilustrować różnicę za pomocą kwartyli:
sens „dzielnika” - istnieją 3 kwartyle, które są wartościami dzielącymi rozkład (lub próbkę) na 4 równe części:
(Czasami stosuje się to z uwzględnieniem wartości maksymalnych i minimalnych, więc istnieje 5 kwartylów o numerach 0–4; zwróć uwagę, że nie koliduje to z powyższą numeracją, tylko ją rozszerza.)
sens „bin”: istnieją 4 kwartyle, podzbiory, na które te 3 wartości dzielą rozkład (lub próbkę)
Żadnego z tych zastosowań nie można rozsądnie nazwać „niewłaściwym”: oba są używane przez wielu doświadczonych praktyków i oba pojawiają się w wielu autorytatywnych źródłach (podręczniki, słowniki techniczne i tym podobne).
W przypadku kwartylów stosowany sens jest zwykle wyraźny z kontekstu: mówienie o wartości w trzecim kwartylu może być jedynie sensem „bin”, natomiast mówienie o wszystkich wartościach poniżej trzeciego kwartylu najprawdopodobniej oznacza sens „dzielnika”. W przypadku percentyli rozróżnienie jest częściej niejasne, ale również nie jest tak znaczące dla większości celów, ponieważ 1% rozkładu jest tak mały - wąski pasek jest w przybliżeniu linią. Mówiąc o wszystkich powyżej 80. percentyla, może oznaczać górne 20% lub górne 19%, ale w nieformalnym kontekście, który nie jest istotną różnicą, i przy rygorystycznej pracy, potrzebne znaczenie powinno być prawdopodobnie wyjaśnione przez resztę kontekstu.
(Części tej odpowiedzi zostały zaadaptowane z /math/1419609/are-there-3-or-4- quartiles-99-or-100- percentiles , który również zawiera cytaty + referencje.)
źródło
Weź tę odpowiedź z odrobiną soli - zaczęło się dość źle i wciąż decyduję, co z tym zrobić.
Pytanie częściowo dotyczy języka i użycia, podczas gdy ta odpowiedź dotyczy matematyki. Mam nadzieję, że matematyka zapewni ramy do zrozumienia różnych zastosowań.
Jednym z miłych sposobów rozwiązania tego problemu jest rozpoczęcie od prostej matematyki i przejście do bardziej skomplikowanego przypadku rzeczywistych danych. Zacznijmy od plików PDF, CDF i odwrotnych CDF (znanych również jako funkcje kwantylowe).x p kwantylem rozkładu z PDF f i CDF F jest fa- 1( x ) . Załóżmy, że z ty percentyl fa- 1( z/ 100) . Zapewnia to sposób na określenie dwuznaczności, którą rozpoznajesz: możemy spojrzeć na sytuacje, w których fa jest 1) nieodwracalny, 2) tylko odwracalny w określonej dziedzinie lub 3) odwracalny, ale jego odwrotność nigdy nie osiąga pewnych wartości.
Przykład 1): Pozostawię to na koniec; Czytaj dalej.
Przykład 2): Do rozkładu jednolity 0,1, CDF jest odwracalna, gdy ograniczona [0, 1], tak 100. 0TH percentyli i może być określony jakofa- 1( 1 ) , a fa- 1( 0 ) biorąc pod uwagę to zastrzeżenie. W przeciwnym razie są źle zdefiniowane, ponieważ fa( - 0,5 ) (na przykład) ma również wartość 0.
Kolejny przykład 2): Dla jednolitego rozkładu w dwóch rozłącznych przedziałach od 0 do 1 i 2 do 3, CDF wygląda następująco.
Większość kwantyli tego rozkładu istnieje i jest unikalna, ale mediana (50 percentyl) jest z natury niejednoznaczna. W R idą do połowy:
quantile(c(runif(100), runif(100) + 2), 0.5)
zwraca około 1,5.Przykład 3): Dla rozkładu normalnego, percentyle 100 i 0 nie istnieją (lub „są”±∞ ). Jest tak, ponieważ normalny CDF nigdy nie osiąga 0 lub 1.
Dla 60 percentyla R zwraca 1 (
quantile(c(rpois(lambda = 1, n = 1000) ), 0.60)
). Dla 65. percentyla R również zwraca 1. Możesz to potraktować jako narysowanie 100 obserwacji, uszeregowanie ich od niskiego do wysokiego i zwrócenie 60 lub 65 pozycji. Jeśli to zrobisz, najczęściej otrzymasz 1.Jeśli chodzi o rzeczywiste dane, wszystkie dystrybucje są dyskretne. (Empiryczny CDF
runif(100)
lubnp.random.random(100)
ma 100 przyrostów skupionych wokół 0,5.) Ale zamiast traktować je jako dyskretne,quantile
funkcja R wydaje się traktować je jako próbki z ciągłych rozkładów. Na przykład mediana (50 percentyl lub kwantyl 0,5) próbki 3,4, 5, 6, 7, 8 jest podana jako 5,5. Jeśli narysujesz 2n próbek z rozkładu unif (3,8) i weźmiesz dowolną liczbę między n-tą i (n + 1) th próbką, zbierzesz się na 5,5 wraz ze wzrostem n.Interesujące jest również rozważenie dyskretnego rozkładu równomiernego z jednakowym prawdopodobieństwem trafienia 3,4,5,6,7,8. (Rzut kostką plus dwa.) Jeśli zastosujesz podejście do próbkowania i rangi opisane powyżej dla rozkładu Poissona, zwykle otrzymasz 5 lub 6. Gdy próbki stają się większe, rozkład liczby w połowie wysokości zbiega się o połowę piątki i pół szóstki. 5.5 wydaje się tu także rozsądnym kompromisem.
źródło
R
przykład wpiszquantile(0)
.Nauczono mnie, że obserwacja w n-tym percentylu była większa niż n% obserwacji w analizowanym zbiorze danych. Co dla mnie oznacza, że nie ma 0 lub 100 percentyla. Żadna obserwacja nie może być większa niż 100% obserwacji, ponieważ stanowi część tej 100% (a podobna logika ma zastosowanie w przypadku 0).
Edycja: Co do wartości, jest to również spójne z nieakademickim użyciem terminu, z którym się spotkałem: „X jest w n-tym percentylu ” oznacza, że percentyl jest grupą, a nie granicą.
Niestety nie mam na to źródła, na które mogę wskazać.
źródło
Istnieją inne sposoby obliczania percentyli, co nie jest jedynym. Zaczerpnięte z tego źródła .
Przykład z tych samych uwag do ilustracji:
Nie.
powodując
źródło
Uwaga - zaakceptuję odpowiedź kogoś innego niż moją. Ale widzę kilka użytecznych komentarzy, więc piszę tylko odpowiedź, która je wspomina.
Na podstawie odpowiedzi Nicka „-iles” termin dla górnej połowy procent
wydaje się, że warunki są niejednoznaczne i przypuszczam (w oparciu o moje rozumienie tego postu) lepszą terminologią byłoby X% punktu, a X% -Y% grupa; więc punkt kwantylowy (tak dla punktów kwartylowych, które mogą być dowolne od 0 do 4); grupa kwantylowa w zakresie od punktu kwantyla X do punktu kwantyla Y.
Tak czy inaczej dostaniemy 101 za percentyle, chociaż jeden komentarz sugeruje, że można odwoływać się do 101 punktów (przypuszczam, że policzyłeś punkty percentyla i tylko liczby całkowite), ale nawet wtedy, jeśli mówimy o 1, 2, 3, percentylu lub kwantyl, to się liczy i pierwszego nie można liczyć jako 0, i nie można mieć np. więcej niż 4 kwartylu lub więcej niż 100 percentyli. Jeśli więc mówimy o 1., 2., 3., terminologia ta tak naprawdę nie może odnosić się do punktu 0. Jeśli ktoś powiedział 0 punkt, to mimo że jest jasne, że oznacza on punkt 0, myślę, że powinien naprawdę powiedzieć punkt kwantylowy 0. Lub grupa kwantylowa w punkcie 0. Nawet informatycy nie powiedzieliby 0; nawet liczą pierwszy element jako 1, a jeśli nazywają go elementem 0, jest to indeksowanie od 0, a nie liczba.
Komentarz wspomina: „Nie może być 100. Albo 99, albo 101, w zależności od tego, czy liczysz maksimum i minimum”. Wydaje mi się, że jest tak w przypadku 99 lub 101, gdy mówimy o punktach kwantylowych, a nie o grupach, choć nie powiedziałbym, że jest to 0. W przypadku n pozycji indeks może przyjmować wartość od 0 ... n-1 i nikt nie zapisałby th / st np. 1st, 2nd itd. Na indeksie (chyba że indeks indeksował pierwszy element jako 1). Ale indeks rozpoczynający pierwszy element z indeksem 0 nie jest liczbą 1., 2. 3. liczby. np. pozycja z indeksem 0 jest pierwszą pozycją, nie można powiedzieć 0 i oznaczać drugą pozycję jako pierwszą.
źródło