Jak obliczyć percentyle za pomocą python / numpy?

214

Czy istnieje wygodny sposób obliczania percentyli dla sekwencji lub jednowymiarowej tablicy numpy?

Szukam czegoś podobnego do funkcji percentyla programu Excel.

Zajrzałem do statystyki NumPy i nie mogłem tego znaleźć. Jedyne, co mogłem znaleźć, to mediana (50 percentyl), ale nie coś bardziej szczegółowego.

python numpy statistics numpy-ndarray percentile Uri
źródło

Podobne pytanie dotyczące obliczania percentyli na podstawie częstotliwości: stackoverflow.com/questions/25070086/...

newtover

282

Możesz być zainteresowany pakietem SciPy Stats . Ma funkcję percentyla, której szukasz, i wiele innych statystycznych dodatków.

percentile() jest również dostępny w numpy.

import numpy as np
a = np.array([1,2,3,4,5])
p = np.percentile(a, 50) # return 50th percentile, e.g median.
print p
3.0

~~Ten bilet prowadzi mnie do percentile()wniosku, że w najbliższym czasie nie zostaną zintegrowane z Numpy.~~

Jon W.
źródło

2

Dziękuję Ci! Więc to tam się ukrywa. Byłem świadomy scipy, ale przypuszczam, że założyłem, że proste rzeczy, takie jak percentyle, zostaną wbudowane w numpy.

Uri,

16

Do tej pory istnieje funkcja percentyla w numpy: docs.scipy.org/doc/numpy/reference/generated/…

Anaphory

1

Możesz użyć go również jako funkcji agregującej, np. Do obliczenia dziesiątego percentyla każdej grupy kolumny wartości według klucza, użyjdf.groupby('key')[['value']].agg(lambda g: np.percentile(g, 10))

patricksurry

1

Pamiętaj, że SciPy zaleca stosowanie np. Percentile dla NumPy 1.9 i nowszych

timdiels

73

Nawiasem mówiąc, istnieje implementacja funkcji percentyla w czystym Pythonie , na wypadek, gdyby ktoś nie chciał polegać na scipy. Funkcja została skopiowana poniżej:

## {{{ http://code.activestate.com/recipes/511478/ (r1)
import math
import functools

def percentile(N, percent, key=lambda x:x):
    """
    Find the percentile of a list of values.

    @parameter N - is a list of values. Note N MUST BE already sorted.
    @parameter percent - a float value from 0.0 to 1.0.
    @parameter key - optional key function to compute value from each element of N.

    @return - the percentile of the values
    """
    if not N:
        return None
    k = (len(N)-1) * percent
    f = math.floor(k)
    c = math.ceil(k)
    if f == c:
        return key(N[int(k)])
    d0 = key(N[int(f)]) * (c-k)
    d1 = key(N[int(c)]) * (k-f)
    return d0+d1

# median is 50th percentile.
median = functools.partial(percentile, percent=0.5)
## end of http://code.activestate.com/recipes/511478/ }}}

Boris Gorelik
źródło

54

Jestem autorem powyższego przepisu. Komentator w ASPN zauważył, że oryginalny kod zawiera błąd. Formuła powinna mieć postać d0 = klucz (N [int (f)]) * (ck); d1 = klucz (N [int (c)]) * (kf). Zostało to poprawione w ASPN.

Wai Yip Tung,

1

Skąd percentilewie, do czego używać N? Nie jest to określone w wywołaniu funkcji.

Richard

14

dla tych, którzy nawet nie czytali kodu, zanim go użyjesz, N musi zostać posortowane

kevin

Jestem zdezorientowany wyrażeniem lambda. Co to robi i jak to robi? Wiem, jakie są wyrażenia lambda, więc nie pytam, co to jest lambda. Pytam, co robi to konkretne wyrażenie lambda i jak to robi, krok po kroku? Dzięki!

dsanchez

Funkcja lambda pozwala przekształcić dane Nprzed obliczeniem percentyla. Załóżmy, że faktycznie masz listę krotek N = [(1, 2), (3, 1), ..., (5, 1)]i chcesz uzyskać percentyl pierwszego elementu krotek, a następnie wybierz key=lambda x: x[0]. Możesz także zastosować transformację (zmieniającą porządek) do elementów listy przed obliczeniem percentyla.

Elias Strehle

26

import numpy as np
a = [154, 400, 1124, 82, 94, 108]
print np.percentile(a,95) # gives the 95th percentile

Richie
źródło

19

Oto jak to zrobić bez numpy, używając tylko Pythona do obliczenia percentyla.

import math

def percentile(data, percentile):
    size = len(data)
    return sorted(data)[int(math.ceil((size * percentile) / 100)) - 1]

p5 = percentile(mylist, 5)
p25 = percentile(mylist, 25)
p50 = percentile(mylist, 50)
p75 = percentile(mylist, 75)
p95 = percentile(mylist, 95)

Ashkan
źródło

2

Tak, musisz najpierw posortować listę: mylist = sorted (...)

Ashkan

12

Definicja percentyla, którą zwykle widzę, oczekuje w rezultacie wartości z dostarczonej listy, poniżej której znajduje się P procent wartości ... co oznacza, że wynik musi pochodzić ze zbioru, a nie interpolacji między elementami zestawu. Aby to uzyskać, możesz użyć prostszej funkcji.

def percentile(N, P):
    """
    Find the percentile of a list of values

    @parameter N - A list of values.  N must be sorted.
    @parameter P - A float value from 0.0 to 1.0

    @return - The percentile of the values.
    """
    n = int(round(P * len(N) + 0.5))
    return N[n-1]

# A = (1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
# B = (15, 20, 35, 40, 50)
#
# print percentile(A, P=0.3)
# 4
# print percentile(A, P=0.8)
# 9
# print percentile(B, P=0.3)
# 20
# print percentile(B, P=0.8)
# 50

Jeśli wolisz uzyskać wartość z dostarczonej listy, na której lub poniżej znajduje się P procent wartości, użyj tej prostej modyfikacji:

def percentile(N, P):
    n = int(round(P * len(N) + 0.5))
    if n > 1:
        return N[n-2]
    else:
        return N[0]

Lub z uproszczeniem sugerowanym przez @ijustlovemath:

def percentile(N, P):
    n = max(int(round(P * len(N) + 0.5)), 2)
    return N[n-2]

mpounsett
źródło

dzięki, spodziewam się również, że percentyl / mediana

przyniesie

1

Cześć @mpounsett. Dziękuję za górny kod. Dlaczego twój percentyl zawsze zwraca wartości całkowite? Funkcja percentyla powinna zwracać N-ty percentyl listy wartości, i może to być również liczba zmiennoprzecinkowa. Na przykład, Excel PERCENTILEzwraca następujące percentyla dla górnych przykładów: 3.7 = percentile(A, P=0.3), 0.82 = percentile(A, P=0.8), 20 = percentile(B, P=0.3), 42 = percentile(B, P=0.8).

marco

1

Wyjaśniono to w pierwszym zdaniu. Częstszą definicją percentyla jest to, że jest to liczba w szeregu, poniżej której znajduje się P procent wartości w szeregu. Ponieważ jest to numer indeksu elementu na liście, nie może być liczbą zmiennoprzecinkową.

mpounsett,

To nie działa dla 0 percentyla. Zwraca maksymalną wartość. Quick Fix byłoby zawinąć n = int(...)w max(int(...), 1)funkcji

ijustlovemath

Aby wyjaśnić, masz na myśli w drugim przykładzie? Dostaję 0 zamiast maksymalnej wartości. Błąd znajduje się w klauzuli else. Wydrukowałem numer indeksu, a nie wartość, którą zamierzałem. Owinięcie przypisania „n” w wywołaniu max () również by to naprawiło, ale chciałbyś, aby druga wartość wynosiła 2, a nie 1. Możesz wtedy wyeliminować całą strukturę if / else i po prostu wydrukować wynik N [n-2]. 0 percentyl działa dobrze w pierwszym przykładzie, zwracając odpowiednio „1” i „15”.

mpounsett,

8

Zaczynając Python 3.8, standardowa biblioteka zawiera quantilesfunkcję jako część statisticsmodułu:

from statistics import quantiles

quantiles([1, 2, 3, 4, 5], n=100)
# [0.06, 0.12, 0.18, 0.24, 0.3, 0.36, 0.42, 0.48, 0.54, 0.6, 0.66, 0.72, 0.78, 0.84, 0.9, 0.96, 1.02, 1.08, 1.14, 1.2, 1.26, 1.32, 1.38, 1.44, 1.5, 1.56, 1.62, 1.68, 1.74, 1.8, 1.86, 1.92, 1.98, 2.04, 2.1, 2.16, 2.22, 2.28, 2.34, 2.4, 2.46, 2.52, 2.58, 2.64, 2.7, 2.76, 2.82, 2.88, 2.94, 3.0, 3.06, 3.12, 3.18, 3.24, 3.3, 3.36, 3.42, 3.48, 3.54, 3.6, 3.66, 3.72, 3.78, 3.84, 3.9, 3.96, 4.02, 4.08, 4.14, 4.2, 4.26, 4.32, 4.38, 4.44, 4.5, 4.56, 4.62, 4.68, 4.74, 4.8, 4.86, 4.92, 4.98, 5.04, 5.1, 5.16, 5.22, 5.28, 5.34, 5.4, 5.46, 5.52, 5.58, 5.64, 5.7, 5.76, 5.82, 5.88, 5.94]
quantiles([1, 2, 3, 4, 5], n=100)[49] # 50th percentile (e.g median)
# 3.0

quantileszwraca dla danego rozkładu distlistę n - 1punktów cięcia oddzielających ninterwały kwantylowe (podział distna nciągłe interwały z jednakowym prawdopodobieństwem):

Statistics.quantiles (dist, *, n = 4, method = 'exclusive')

gdzie nw naszym przypadku ( percentiles) jest 100.

Xavier Guihot
źródło

6

sprawdź moduł scipy.stats:

 scipy.stats.scoreatpercentile

Wynicować
źródło

2

Aby obliczyć percentyl serii, uruchom:

from scipy.stats import rankdata
import numpy as np

def calc_percentile(a, method='min'):
    if isinstance(a, list):
        a = np.asarray(a)
    return rankdata(a, method=method) / float(len(a))

Na przykład:

a = range(20)
print {val: round(percentile, 3) for val, percentile in zip(a, calc_percentile(a))}
>>> {0: 0.05, 1: 0.1, 2: 0.15, 3: 0.2, 4: 0.25, 5: 0.3, 6: 0.35, 7: 0.4, 8: 0.45, 9: 0.5, 10: 0.55, 11: 0.6, 12: 0.65, 13: 0.7, 14: 0.75, 15: 0.8, 16: 0.85, 17: 0.9, 18: 0.95, 19: 1.0}

Roei Bahumi
źródło

1

Jeśli potrzebujesz odpowiedzi, aby być członkiem wejściowej tablicy numpy:

Wystarczy dodać, że funkcja percentyla w numpy domyślnie oblicza wynik jako liniową średnią ważoną dwóch sąsiednich wpisów w wektorze wejściowym. W niektórych przypadkach ludzie mogą chcieć, aby zwracany percentyl był faktycznym elementem wektora, w tym przypadku od wersji 1.0.0 można użyć opcji „interpolacji” z „niższym”, „wyższym” lub „najbliższym”.

import numpy as np
x=np.random.uniform(10,size=(1000))-5.0

np.percentile(x,70) # 70th percentile

2.075966046220879

np.percentile(x,70,interpolation="nearest")

2.0729677997904314

Ten ostatni jest rzeczywistym wpisem w wektorze, podczas gdy ten pierwszy jest interpolacją liniową dwóch wpisów wektora, które graniczą z percentylem

Adrian Tompkins
źródło

0

dla serii: używane opisują funkcje

załóżmy, że masz df z następującymi kolumnami sprzedaż i identyfikator. chcesz obliczyć percentyle dla sprzedaży, to działa w ten sposób,

df['sales'].describe(percentiles = [0.0,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1])

0.0: .0: minimum
1: maximum 
0.1 : 10th percentile and so on

ashwini
źródło

0

Wygodnym sposobem obliczania percentyli dla jednowymiarowej sekwencji lub macierzy numpy jest użycie numpy.percentile < https://docs.scipy.org/doc/numpy/reference/generated/numpy.percentile.html >. Przykład:

import numpy as np

a = np.array([0,1,2,3,4,5,6,7,8,9,10])
p50 = np.percentile(a, 50) # return 50th percentile, e.g median.
p90 = np.percentile(a, 90) # return 90th percentile.
print('median = ',p50,' and p90 = ',p90) # median =  5.0  and p90 =  9.0

Jeśli jednak w Twoich danych jest jakakolwiek wartość NaN, powyższa funkcja nie będzie przydatna. Zalecaną funkcją do użycia w takim przypadku jest funkcja numpy.nanpercentile < https://docs.scipy.org/doc/numpy/reference/generated/numpy.nanpercentile.html >:

import numpy as np

a_NaN = np.array([0.,1.,2.,3.,4.,5.,6.,7.,8.,9.,10.])
a_NaN[0] = np.nan
print('a_NaN',a_NaN)
p50 = np.nanpercentile(a_NaN, 50) # return 50th percentile, e.g median.
p90 = np.nanpercentile(a_NaN, 90) # return 90th percentile.
print('median = ',p50,' and p90 = ',p90) # median =  5.5  and p90 =  9.1

W dwóch przedstawionych powyżej opcjach nadal możesz wybrać tryb interpolacji. Wykonaj poniższe przykłady, aby łatwiej zrozumieć.

import numpy as np

b = np.array([1,2,3,4,5,6,7,8,9,10])
print('percentiles using default interpolation')
p10 = np.percentile(b, 10) # return 10th percentile.
p50 = np.percentile(b, 50) # return 50th percentile, e.g median.
p90 = np.percentile(b, 90) # return 90th percentile.
print('p10 = ',p10,', median = ',p50,' and p90 = ',p90)
#p10 =  1.9 , median =  5.5  and p90 =  9.1

print('percentiles using interpolation = ', "linear")
p10 = np.percentile(b, 10,interpolation='linear') # return 10th percentile.
p50 = np.percentile(b, 50,interpolation='linear') # return 50th percentile, e.g median.
p90 = np.percentile(b, 90,interpolation='linear') # return 90th percentile.
print('p10 = ',p10,', median = ',p50,' and p90 = ',p90)
#p10 =  1.9 , median =  5.5  and p90 =  9.1

print('percentiles using interpolation = ', "lower")
p10 = np.percentile(b, 10,interpolation='lower') # return 10th percentile.
p50 = np.percentile(b, 50,interpolation='lower') # return 50th percentile, e.g median.
p90 = np.percentile(b, 90,interpolation='lower') # return 90th percentile.
print('p10 = ',p10,', median = ',p50,' and p90 = ',p90)
#p10 =  1 , median =  5  and p90 =  9

print('percentiles using interpolation = ', "higher")
p10 = np.percentile(b, 10,interpolation='higher') # return 10th percentile.
p50 = np.percentile(b, 50,interpolation='higher') # return 50th percentile, e.g median.
p90 = np.percentile(b, 90,interpolation='higher') # return 90th percentile.
print('p10 = ',p10,', median = ',p50,' and p90 = ',p90)
#p10 =  2 , median =  6  and p90 =  10

print('percentiles using interpolation = ', "midpoint")
p10 = np.percentile(b, 10,interpolation='midpoint') # return 10th percentile.
p50 = np.percentile(b, 50,interpolation='midpoint') # return 50th percentile, e.g median.
p90 = np.percentile(b, 90,interpolation='midpoint') # return 90th percentile.
print('p10 = ',p10,', median = ',p50,' and p90 = ',p90)
#p10 =  1.5 , median =  5.5  and p90 =  9.5

print('percentiles using interpolation = ', "nearest")
p10 = np.percentile(b, 10,interpolation='nearest') # return 10th percentile.
p50 = np.percentile(b, 50,interpolation='nearest') # return 50th percentile, e.g median.
p90 = np.percentile(b, 90,interpolation='nearest') # return 90th percentile.
print('p10 = ',p10,', median = ',p50,' and p90 = ',p90)
#p10 =  2 , median =  5  and p90 =  9

Jeśli tablica wejściowa składa się tylko z liczb całkowitych, być może interesuje Cię odpowiedź procentowa jako liczba całkowita. Jeśli tak, wybierz tryb interpolacji, taki jak „niższy”, „wyższy” lub „najbliższy”.

Italo Gervasio
źródło

Jak obliczyć percentyle za pomocą python / numpy?

Odpowiedzi: