Empiryczny CDF vs CDF

21

Uczę się o funkcji empirycznej kumulatywnej dystrybucji. Ale nadal nie rozumiem

  1. Dlaczego nazywa się to „empirycznym”?

  2. Czy jest jakaś różnica między Empirical CDF a CDF?

Gammaries
źródło
Istnieje proste, proste i eleganckie wyjaśnienie dotyczące biletów w modelach pudełkowych : CDF opisuje to, co jest w oryginalnym pudełku. ECDF jest tym, co dostajesz, gdy umieścisz próbkę (która jest zestawem biletów pobranych z oryginalnego pudełka: tak zwanych „danych empirycznych”) do pustego pudełka.
whuber
Jedną z rzeczy, o których należy pamiętać, jest to, że rozkład empiryczny jest zwykle ograniczony przez sposób jego budowy, podczas gdy CDF może nie być. Na przykład, jeśli zbudujesz empiryczny CDF z obserwacji zmiennej Poissona, uzyskany ECDF będzie ograniczony najwyższą obserwowaną częstotliwością, podczas gdy prawdziwy CDF będzie nieograniczony.
Aksakal

Odpowiedzi:

27

Niech będzie zmienną losową.X

  • Skumulowana funkcja rozkładu daje .F(x)P(Xx)
  • Empiryczna funkcja rozkładu skumulowanego daje na podstawie obserwacji w próbie.G(x)P(Xx)

Rozróżnia się, która miara prawdopodobieństwa jest stosowana. W przypadku empirycznego CDF stosuje się miarę prawdopodobieństwa zdefiniowaną przez liczbę częstotliwości w próbce empirycznej.

Prosty przykład (rzut monetą):

Niech będzie zmienną losową oznaczającą wynik rzutu pojedynczą monetą, gdzie oznacza głowy, a oznacza ogony.XX=1X=0

CDF za uczciwą monetę podaje:

F(x)={0for x<012for 0x<11for 1x

Jeśli przerzucisz 2 głowy i 1 ogon, empiryczny CDF to:

G(x)={0for x<023for 0x<11for 1x

Empiryczny CDF odzwierciedlałby to, że w twojej próbce twoich przewrotów było głowami.2/3

Kolejny przykład ( to CDF dla rozkładu normalnego):F

Niech będzie zmienną losową o rozkładzie normalnym ze średnią i odchyleniem standardowym .X01

CDF jest przyznawany przez:

F(x)=x12πex22

Powiedzmy, że miałeś 3 losowania IID i wartości . Empiryczny CDF to: x1<x2<x3

G(y)={0for y<x113for x1y<x223for x2y<x31for x3y

Przy wystarczającej liczbie losowań IID (i spełnione są pewne warunki prawidłowości), empiryczny CDF zbiegłby się z bazowym CDF populacji.

Matthew Gunn
źródło
12

Czy jest jakaś różnica między Empirical CDF a CDF?

Tak, są różne. Empiryczny plik cdf jest właściwym plikiem cdf, ale empiryczne pliki cdf będą zawsze dyskretne, nawet jeśli nie zostaną pobrane z rozkładu dyskretnego, podczas gdy plik cdf rozkładu może być czymś innym niż dyskretnym.

Jeśli traktujesz próbkę tak, jakby była populacją wartości, z których każda jest równie prawdopodobna (tj. Umieści prawdopodobieństwo 1 / n na każdej obserwacji), to cdf tego rozkładu będzie ECDF danych.

Dlaczego nazywa się „Empiryczny”?

Jest to szacunkowa liczba ludności cdf na podstawie próby; szczególnie jeśli traktujesz proporcje próbki dla każdej odrębnej wartości danych i traktujesz ją tak, jakby to było prawdopodobieństwo w populacji, otrzymujesz ECDF.

Empiryczny ma znaczenie coś w rodzaju „poprzez obserwację, a nie teorię”, i właśnie to w tym przypadku oznacza… wykorzystanie obserwacji do określenia funkcji rozkładu.

Glen_b - Przywróć Monikę
źródło
10

Empiryczny CDF jest zbudowany z rzeczywistego zestawu danych (na poniższym wykresie użyłem 100 próbek ze standardowego rozkładu normalnego). CDF to konstrukcja teoretyczna - zobaczyłbyś ją, gdybyś mógł pobrać nieskończenie wiele próbek.

Empiryczny CDF zwykle dość dobrze przybliża CDF, szczególnie w przypadku dużych próbek (w rzeczywistości istnieją twierdzenia o tym, jak szybko zbiega się on z CDF wraz ze wzrostem wielkości próbki).

Empiryczny CDF vs CDF

Chris Taylor
źródło
10

Empiryczny to coś, co budujesz na podstawie danych i obserwacji. Załóżmy na przykład, że chcesz wiedzieć o rozkładzie wysokości osób w danym kraju. Zaczynasz od mierzenia ludzi i tworzysz histogram, który można przybliżyć do rozkładu. Następnie obliczasz empiryczny CDF.

Jeśli używasz rozkładu statystycznego (formuła deterministyczna, która daje dokładnie taki sam wynik przy tych samych parametrach), możesz również obliczyć jego CDF.

N.(μ=1,75 m,σ=0,1 m)

berkorbay
źródło
Czy zastosowano pomiar ufności, który wyraża prawdopodobieństwo, że CDF i Emperical CDF opisują tę samą populację na granicy całego eksperymentalnego pobierania próbek na świecie? Wydaje się, że ma to na przykład zastosowanie do głosowania wyborczego. (choć może nie, ponieważ wynik nie jest ściśle opisywany jako funkcja ...)
BenPen,
3

Według Dictionary.com definicje „empirycznego” obejmują:

wywodzi się z doświadczenia lub eksperymentu lub kieruje się nim.

Stąd Empiryczny CDF to CDF, który otrzymujesz z twoich danych. Kontrastuje to z teoretycznym CDF (często nazywanym „CDF”), który jest uzyskiwany z modelu statystycznego lub probabilistycznego, takiego jak rozkład normalny.

Waldir Leoncio
źródło