Uczę się o funkcji empirycznej kumulatywnej dystrybucji. Ale nadal nie rozumiem
Dlaczego nazywa się to „empirycznym”?
Czy jest jakaś różnica między Empirical CDF a CDF?
distributions
terminology
cdf
ecdf
Gammaries
źródło
źródło
Odpowiedzi:
Niech będzie zmienną losową.X
Rozróżnia się, która miara prawdopodobieństwa jest stosowana. W przypadku empirycznego CDF stosuje się miarę prawdopodobieństwa zdefiniowaną przez liczbę częstotliwości w próbce empirycznej.
Prosty przykład (rzut monetą):
Niech będzie zmienną losową oznaczającą wynik rzutu pojedynczą monetą, gdzie oznacza głowy, a oznacza ogony.X X= 1 X= 0
CDF za uczciwą monetę podaje:fa( x ) = ⎧⎩⎨⎪⎪012)1dla x < 0dla 0 ≤ x < 1dla 1 ≤ x
Jeśli przerzucisz 2 głowy i 1 ogon, empiryczny CDF to:G ( x ) = ⎧⎩⎨⎪⎪02)3)1dla x < 0dla 0 ≤ x < 1dla 1 ≤ x
Empiryczny CDF odzwierciedlałby to, że w twojej próbce twoich przewrotów było głowami.2 / 3
Kolejny przykład ( to CDF dla rozkładu normalnego):fa
Niech będzie zmienną losową o rozkładzie normalnym ze średnią i odchyleniem standardowym .X 0 1
CDF jest przyznawany przez:
Powiedzmy, że miałeś 3 losowania IID i wartości . Empiryczny CDF to:x1< x2)< x3) G ( y) = ⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪013)2)3)1dla y< x1dla x1≤ y< x2)dla x2)≤ y< x3)dla x3)≤ y
Przy wystarczającej liczbie losowań IID (i spełnione są pewne warunki prawidłowości), empiryczny CDF zbiegłby się z bazowym CDF populacji.
źródło
Tak, są różne. Empiryczny plik cdf jest właściwym plikiem cdf, ale empiryczne pliki cdf będą zawsze dyskretne, nawet jeśli nie zostaną pobrane z rozkładu dyskretnego, podczas gdy plik cdf rozkładu może być czymś innym niż dyskretnym.
Jeśli traktujesz próbkę tak, jakby była populacją wartości, z których każda jest równie prawdopodobna (tj. Umieści prawdopodobieństwo 1 / n na każdej obserwacji), to cdf tego rozkładu będzie ECDF danych.
Jest to szacunkowa liczba ludności cdf na podstawie próby; szczególnie jeśli traktujesz proporcje próbki dla każdej odrębnej wartości danych i traktujesz ją tak, jakby to było prawdopodobieństwo w populacji, otrzymujesz ECDF.
Empiryczny ma znaczenie coś w rodzaju „poprzez obserwację, a nie teorię”, i właśnie to w tym przypadku oznacza… wykorzystanie obserwacji do określenia funkcji rozkładu.
źródło
Empiryczny CDF jest zbudowany z rzeczywistego zestawu danych (na poniższym wykresie użyłem 100 próbek ze standardowego rozkładu normalnego). CDF to konstrukcja teoretyczna - zobaczyłbyś ją, gdybyś mógł pobrać nieskończenie wiele próbek.
Empiryczny CDF zwykle dość dobrze przybliża CDF, szczególnie w przypadku dużych próbek (w rzeczywistości istnieją twierdzenia o tym, jak szybko zbiega się on z CDF wraz ze wzrostem wielkości próbki).
źródło
Empiryczny to coś, co budujesz na podstawie danych i obserwacji. Załóżmy na przykład, że chcesz wiedzieć o rozkładzie wysokości osób w danym kraju. Zaczynasz od mierzenia ludzi i tworzysz histogram, który można przybliżyć do rozkładu. Następnie obliczasz empiryczny CDF.
Jeśli używasz rozkładu statystycznego (formuła deterministyczna, która daje dokładnie taki sam wynik przy tych samych parametrach), możesz również obliczyć jego CDF.
źródło
Według Dictionary.com definicje „empirycznego” obejmują:
Stąd Empiryczny CDF to CDF, który otrzymujesz z twoich danych. Kontrastuje to z teoretycznym CDF (często nazywanym „CDF”), który jest uzyskiwany z modelu statystycznego lub probabilistycznego, takiego jak rozkład normalny.
źródło