Niech posortowane dane będą . Aby zrozumieć empiryczną CDF , rozważ jedną z wartości - nazwij ją załóż , że pewna liczba z jest mniejsza niż a z jest równa . Wybierz przedział w którym ze wszystkich możliwych wartości danych pojawia się tylko . Następnie, z definicji, w tym przedziale ma stałą wartość dla liczb mniejszych niż G x i γ k x i γ t ≥ 1 x i γx1≤ x2)≤ ⋯ ≤ xnsolxjaγkxjaγt≥1xiγγ G k / n γ ( k + t ) / n γ[α,β]γGk/nγi skacze do stałej wartości dla liczb większych niż .(k+t)/nγ
Rozważ wkład do z przedziału . Chociaż nie jest funkcją - jest punktową miarą wielkości w - całka jest definiowana za pomocą całkowania przez części, aby przekształcić ją w całkę uczciwą na dobroć. Zróbmy to w przedziale :[ α , β ] h t / n γ [ α , β ]∫b0xh(x)dx[α,β]ht/nγ[α,β]
∫βαxh(x)dx=(xG(x))|βα−∫βαG(x)dx=(βG(β)−αG(α))−∫βαG(x)dx.
Nowy integrand, chociaż jest nieciągły w , jest całkowalny. Jego wartość można łatwo znaleźć, dzieląc domenę integracji na części poprzedzające i następujące po skoku w :GγG
∫βαG(x)dx=∫γαG(α)dx+∫βγG(β)dx=(γ−α)G(α)+(β−γ)G(β).
Podstawiając to do powyższego i przywołując wydajnościG(α)=k/n,G(β)=(k+t)/n
∫βαxh(x)dx=(βG(β)−αG(α))−((γ−α)G(α)+(β−γ)G(β))=γtn.
Innymi słowy, ta całka zwielokrotnia lokalizację (wzdłuż osi ) każdego skoku przez jego wielkość. Rozmiar skoku toX
tn=1n+⋯+1n
z jednym terminem dla każdej wartości danych równej . Dodanie wkładów ze wszystkich takich skoków pokazuje toγG
∫b0xh(x)dx=∑i:0≤xi≤b(xi1n)=1n∑xi≤bxi.
Możemy to nazwać „średnią cząstkową”, widząc, że jest równa razy suma częściowa. (Należy pamiętać, że to nie oczekiwanie może być związany z oczekiwaniem wersji rozkładu bazowego, który został obcięty do przedziału. : należy zastąpić współczynnik przez gdzie to liczba wartości danych w .)[ 0 , b ]1/n[0,b]1/n1/mm[0,b]
Biorąc pod uwagę , chcesz znaleźć dla któregoPonieważ sumy cząstkowe są skończonym zestawem wartości, zwykle nie ma rozwiązania: trzeba się zadowolić najlepszym przybliżeniem, które można znaleźć , jeśli to możliwe, nawiasując pomiędzy dwoma średnimi cząstkowymi. To znaczy, po znalezieniu takiegokbkj1n∑xi≤bxi=k.kj
1n∑i=1j−1xi≤k<1n∑i=1jxi,
zawęzisz do przedziału . Nie możesz zrobić nic lepszego niż korzystając z ECDF. (Dopasowując ciągły rozkład do ECDF, można interpolować w celu znalezienia dokładnej wartości , ale jej dokładność będzie zależeć od dokładności dopasowania.)[ x j - 1 , x j ) bb[xj−1,xj)b
R
wykonuje obliczenie sumy częściowej za pomocą cumsum
i wyszukuje, gdzie przecina dowolną określoną wartość, używając which
rodziny wyszukiwań, jak w:
set.seed(17)
k <- 0.1
var1 <- round(rgamma(10, 1), 2)
x <- sort(var1)
x.partial <- cumsum(x) / length(x)
i <- which.max(x.partial > k)
cat("Upper limit lies between", x[i-1], "and", x[i])
Dane wyjściowe w tym przykładzie danych pobranych z rozkładu wykładniczego to
Górna granica wynosi od 0,39 do 0,57
Prawdziwa wartość rozwiązująca wynosi . Jego bliskość do zgłaszanych wyników sugeruje, że ten kod jest dokładny i poprawny. (Symulacje ze znacznie większymi zestawami danych nadal potwierdzają ten wniosek).0,5318120.1=∫b0xexp(−x)dx,0.531812
Oto wykres empirycznego CDF dla tych danych, z szacowanymi wartościami górnej granicy pokazanymi jako pionowe przerywane szare linie:G