Czy CDF są bardziej fundamentalne niż pliki PDF?

43

Moja stat prof w zasadzie powiedziała, że ​​jeśli otrzyma się jedną z następujących trzech, można znaleźć dwie pozostałe:

  • Funkcja rozkładu skumulowanego
  • Funkcja generowania momentu
  • Funkcja gęstości prawdopodobieństwa

Ale mój profesor ekonometrii powiedział, że CDF są bardziej fundamentalne niż PDF, ponieważ istnieją przykłady, w których możesz mieć CDF, ale PDF nie jest zdefiniowany.

Czy CDF są bardziej fundamentalne niż pliki PDF? Skąd mam wiedzieć, czy plik PDF lub MGF można uzyskać z CDF?

Stan Shunpike
źródło
23
Czy to jakiś konkurs na fundamentalność? Czy mamy panel sędziów gwiazd? Wszystkie te trzy pojęcia można wykorzystać do zdefiniowania miary na spacji . Jednak dla danego CDF, MGF i PDF mogą nie istnieć, ponieważ PDF jest zdefiniowany jako pochodna CDF, a MGF jest zdefiniowany jako , a to integralna nie musi istnieć. Nie oznacza to jednak, że którekolwiek z tych pojęć jest mniej fundamentalne. Fundamental to ładny przymiotnik, który nie ma matematycznej definicji. Jest to synonim ważnego. R exp(tx)dF(x)RreRexp(tx)refa(x)
mpiktas
6
@mpiktas: Każdy rozkład prawdopodobieństwa na (podzbiorze) ma CDF i jednoznacznie definiuje rozkład. Jednak nie wszystkie rozkłady prawdopodobieństwa mają format PDF lub MGF (ale wszystkie mają charakterystyczną funkcję ). Rn
Ilmari Karonen,
3
@mpiktas Można to zrobić z na . Zatem nie jest zdefiniowane. Niemniej jednak jest dla mnie jasne, dlaczego profesor użył wyrażenia „bardziej podstawowe”. Przymiotnik może nie mieć dobrze zdefiniowanego znaczenia matematycznego, ale co z tego? niektóre) również w języku angielskim. Każdy plik PDF, o którym wiemy, ma CDF. Tutaj „plik podstawowy” ma ładny związek z „podstawowym”. Przeciwnie nie jest prawdą.R P ( ( - , x ] )ZA={R,}RP.((-,x])
drhab
2
@drhab, oczywiście mówiłem o pochodnej Radon-Nikodym :) Zbyt doskonale rozumiem, co profesor miał na myśli, ale moim zdaniem używanie takich wyrażeń w uczniach jest niebezpieczne, ponieważ zamiast próbować zrozumieć różnicę między pojęcia matematyczne starają się uszeregować je według fundamentalności, co jest zasadniczo błędne. Pun przeznaczony.
mpiktas
4
@mpiktas: jasne, nie ma dokładnej definicji „fundamentalnej”. Ale istnieje „duży środek” między „rygorystycznie zdefiniowanym” a „całkowicie bez znaczenia”. Oczywiście w samej naszej matematyce wszystko musi być całkowicie rygorystyczne, więc jesteśmy bardzo przyzwyczajeni do spychania wszystkiego, co nie jest. Ale kiedy mówimy i myślimy o matematyce, mamy subiektywne, ale znaczące pojęcia, takie jak „podstawowe”, „ogólne” itp., Tak jak wszyscy inni; i to jest OK.
PLL

Odpowiedzi:

69

Każdy rozkład prawdopodobieństwa na (podzbiorze) ma funkcję rozkładu skumulowanego i jednoznacznie definiuje rozkład. W tym sensie CDF jest tak samo fundamentalny jak sama dystrybucja.Rn

Jednak funkcja gęstości prawdopodobieństwa istnieje tylko dla (absolutnie) ciągłych rozkładów prawdopodobieństwa . Najprostszym przykładem rozkładu pozbawionego pliku PDF jest dowolny dyskretny rozkład prawdopodobieństwa , taki jak rozkład zmiennej losowej, która przyjmuje tylko wartości całkowite.

Oczywiście takie dyskretne rozkłady prawdopodobieństwa można zamiast tego scharakteryzować za pomocą funkcji masy prawdopodobieństwa , ale istnieją również rozkłady, które nie mają ani PDF, ani PMF, takie jak dowolna mieszanina rozkładu ciągłego i dyskretnego:

Schemat ciągłych, dyskretnych i mieszanych rozkładów prawdopodobieństwa
(Schemat bezwstydnie skradziony z odpowiedzi Glen_b na powiązane pytanie).

Istnieją nawet pojedyncze rozkłady prawdopodobieństwa , takie jak rozkład Cantora , którego nie można opisać nawet przez połączenie pliku PDF i PMF. Takie dystrybucje wciąż mają jednak dobrze zdefiniowany CDF. Na przykład, tutaj jest CDF dystrybucji Cantor, czasami nazywanej również „Schodami Diabła”:

Dystrybucja kantorowa CDF
( Zdjęcie z Wikimedia Commons autorstwa użytkowników Theon i Amirki , użyte na licencji CC-By-SA 3.0 .)

CDF, znany jako funkcja Cantor , jest ciągły, ale nie absolutnie ciągły. W rzeczywistości jest stały wszędzie, z wyjątkiem zbioru Cantora o zerowej miary Lebesgue'a, ale który wciąż zawiera nieskończenie wiele punktów. Zatem cała masa prawdopodobieństwa rozkładu Cantora jest skoncentrowana na tym znikającym małym podzbiorze rzeczywistej linii liczbowej, ale każdy punkt w zbiorze wciąż indywidualnie ma zerowe prawdopodobieństwo.


Istnieją również rozkłady prawdopodobieństwa, które nie mają funkcji generowania momentu . Prawdopodobnie najlepiej znanym przykładem jest rozkład Cauchy- , A rozkład tłuszczu rozkładem , który ma dobrze określone momenty rzędu 1 lub wyższy (a więc w szczególności nie ma już dobrze określonej średniej i wariancji!).

Wszystkie rozkład prawdopodobieństwa na mają jednak mieć grupę (ewentualnie) zespolonych funkcji charakterystycznej ), którego definicja różniąca się od tego MGF tylko przez pomnożenie jednostka urojona . Tak więc funkcję charakterystyczną można uznać za tak fundamentalną jak CDF.Rn

Ilmari Karonen
źródło
Mówicie, że każda dystrybucja ma CDF, ale nie każda ma PDF, ale tak naprawdę istnieją dystrybucje, które mają PDF i nie mają zamkniętych CDF, np. Normalna wielowymiarowa.
Tim
13
@Tim: To prawda, ale tylko z kwalifikatorem „zamkniętej formy”; CDF nadal istnieje, nawet jeśli nie możemy napisać go w formie zamkniętej. W każdym razie definicja „ wyrażenia w formie zamkniętej ” jest powszechnie niewyraźna; według niektórych ścisłych definicji, nawet rozkład normalny jednowymiarowy nie ma CDF o zamkniętej formie, ale jeśli uważasz, że funkcja błędu ma postać zamkniętą, to ma.
Ilmari Karonen,
11
@Tim To nie jest kontrprzykład. Jest to arbitralna właściwość, którą wybrałeś jako ważną / fundamentalną dla ciebie. Dla mnie właściwość „istnieje” jest ważniejsza niż „ma formę zamkniętą”. Co więcej, „zawsze istnieje” kontra „czasami nie może mieć formy zamkniętej, tak jak każda funkcja”.
Ark-kun
3
[0,1]R
1
@ Ark-kun Gram tutaj jako zwolenników diabłów, ponieważ są przypadki, w których PDF jest czymś bardziej „bezpośrednio dostępnym” niż CDF. Podoba mi się ta odpowiedź (+1), ale IMHO, to jest coś, o czym również można wspomnieć.
Tim
16

Wierzę, że twój profesor ekonometrii myślał coś w następujący sposób.

fa[0,1]

fa(x)=12)x dla x<12)
fa(x)=12)x+12) dla x12)

[0,1]

P.({12)})=12)

fa

fa

Zgodnie z definicją pliku PDF musimy go mieć

0xfa(t)ret=fa(x)-fa(0)=14x

0<x<12)

fa(x)=14 dla x<12)

x>12)

fa(x)=14 dla x>12)

fafa(12))fa(12))

P.({12)})=12)

potrzebowalibyśmy

12)-ϵ12)+ϵfa(t)ret>12)

12)

12)-ϵ12)+ϵfa(t)ret=12)-ϵ12)+ϵ14ret=12)ϵ

fa

Możesz odzyskać ducha pliku PDF, ale musisz użyć bardziej wyrafinowanych obiektów matematycznych, zarówno miary, jak i rozkładu .

Matthew Drury
źródło
3
12)δ(x-12))δ(x)x=0
-+δ(x)rex=1
2
L.1
@IwillnotexistIdonotexist To, co powiedział Whuber, to to, o czym mówiłem w ostatnim wierszu. Użyłem słowa „dystrybucja”.
Matthew Drury
4
1/2)1/2)
4

Ilmari daje dobrą odpowiedź z teoretycznego punktu widzenia. Można jednak zapytać, w jakim celu gęstość (pdf) i funkcja rozkładu (pdf) służą do praktycznych obliczeń. To może wyjaśnić, w których sytuacjach jedna jest bardziej bezpośrednio przydatna niż druga.

R(-,x]--

Gęstość jest jednak niezbędna dla statystyki, ponieważ prawdopodobieństwo określa się w kategoriach gęstości. Zatem jeśli chcemy obliczyć oszacowanie maksymalnego prawdopodobieństwa, potrzebujemy bezpośrednio gęstości.

Jeśli przejdziemy do porównania rozkładu empirycznego i teoretycznego, oba mogą być przydatne, ale metody takie jak wykresy pp i qq oparte na funkcji rozkładu są często preferowane.

Rrere2)

NRH
źródło