„Całkowity obszar pod funkcją gęstości prawdopodobieństwa wynosi 1” - w stosunku do czego?

20

Koncepcyjnie rozumiem znaczenie wyrażenia „całkowity obszar pod plikiem PDF wynosi 1”. Powinno to oznaczać, że prawdopodobieństwo, że wynik znajdzie się w całkowitym przedziale możliwości, wynosi 100%.

Ale tak naprawdę nie mogę tego zrozumieć z „geometrycznego” punktu widzenia. Jeśli na przykład w pliku PDF oś x reprezentuje długość, to czy całkowity obszar pod krzywą nie byłby większy, gdyby x był mierzony w mm zamiast w km?

Zawsze staram się wyobrazić sobie, jak wyglądałby obszar pod krzywą, gdyby funkcja była spłaszczona do linii prostej. Czy wysokość (pozycja na osi y) tej linii byłaby taka sama dla dowolnego pliku PDF, czy też miałaby wartość zależną od interwału na osi x, dla którego funkcja jest zdefiniowana?

TheChymera
źródło
Mógłbyś zmienić skalę osi x z km na mm, ale co by to oznaczało? Nadal będziesz mieć dokładnie ten sam obraz i jeszcze sześć zer dla jednostek na osi x . Możesz powiększyć lub pomniejszyć, jeśli chcesz, ale to nie zmieni obrazu. Tymczasem jeśli krzywa pdf jest prostą linią poziomą (co oznacza równomierny rozkład), jej położenie na osi y nie zależy od jednostek osi x ale tylko od długości odstępu na osi x . Nie jestem pewien, czy jest to dla ciebie pomocne, ale dla mnie pomysł powiększania i pomniejszania ułatwia zrozumienie.
Richard Hardy
2
To wydaje się być prawdą. Ale to rodzaj użycia (co dziwne) szkła powiększającego, które powiększa w poziomie o 1000, a jednocześnie kurczy się proporcjonalnie w kierunku pionowym. Ale istota obrazu nie zmieni się, jeśli zmienisz tylko skalę.
Richard Hardy
2
Wydaje mi się, że to pytanie jest takie samo, jak zadane (w inny sposób) i udzielone na stronie stats.stackexchange.com/questions/4220/… .
whuber
1
@amoeba, Tak, podczas gdy wielu może czuć się zmuszonych do głosowania na dłuższą odpowiedź w uznaniu wysiłku włożonego w to (co również zrobiłem, przy okazji), Aksakal odpowiedział na moje pytanie znacznie jaśniej i bardziej zwięźle. Szczerze mówiąc, powiedziałbym, że odpowiedź Silverfisha również pomogła i pojawiła się w mgnieniu oka.
TheChymera
2
@amoeba Zupełnie innym kierunkiem odpowiedzi mogłoby być skupienie się na fakcie, że pliki PDF są pochodnymi CDF, więc obszar pod PDF jest po prostu ograniczającą wartością CDF - która jest jednoznaczna, niezależnie od użytych jednostek. Kusiło mnie, aby zamieścić krótką sekcję na ten temat, ale czułem, że moja odpowiedź jest już wystarczająco długa (a poza tym kluczem do problemu OP wydawała się kwestia jednostek, które podejście CDF raczej omija).
Silverfish,

Odpowiedzi:

14

Funkcja gęstości prawdopodobieństwa jest mierzona w procentach na jednostkę miary osi x. Powiedzmy, że w danym punkcie x0 twój PDF jest równy 1000. Oznacza to, że prawdopodobieństwo x0<x<x0+dx wynosi 1000rex gdzierex jest w metrach. Jeśli zmienisz jednostki na centymetry, prawdopodobieństwo nie powinno się zmienić dla tego samego przedziału, ale ten sam przedział ma o 100 centymetrów więcej niż metry, więc1000rex=P.refa(x0)100rex i rozwiązując otrzymujemyP.refa(x0)=P.refa(x0)100 . Jest 100 razy mniej jednostek prawdopodobieństwa (procentów) na centymetr niż na metr.

Aksakal
źródło
46

Może to pomóc zrozumieć, że oś pionowa jest mierzona jako gęstość prawdopodobieństwa . Jeśli więc oś pozioma jest mierzona w km, wówczas oś pionowa jest mierzona jako gęstość prawdopodobieństwa „na km”. Załóżmy, że narysujemy prostokątny element na takiej siatce, która ma szerokość 5 „km” i wysokość 0,1 „na km” (którą wolisz napisać jako „km - 1 ”). Obszar tego prostokąta wynosi 5 km x 0,1 km - 1 = 0,5. Jednostki anulują się, a my pozostaniemy z prawdopodobieństwem połowy.11

Jeśli zmieniłeś jednostki poziome na „metry”, musisz zmienić jednostki pionowe na „na metr”. Prostokąt miałby teraz szerokość 5000 metrów i gęstość (wysokość) wynoszącą 0,0001 na metr. Nadal masz szansę na połowę. Możesz być zaniepokojony tym, jak dziwnie te dwa wykresy będą wyglądały na stronie w porównaniu do siebie (czy jeden nie musi być znacznie szerszy i krótszy od drugiego?), Ale kiedy rysujesz fizycznie wykresy, możesz użyć cokolwiek skaluj lubisz. Spójrz poniżej, aby zobaczyć, jak mało dziwności wymaga.

Pomocne może być rozważenie histogramów przed przejściem do krzywych gęstości prawdopodobieństwa. Pod wieloma względami są one analogiczne. Osią pionową histogramu jest gęstość częstotliwości [na jednostkę ],x a obszary reprezentują częstotliwości, ponownie, ponieważ jednostki poziome i pionowe anulują się po pomnożeniu. Krzywa PDF jest rodzajem ciągłej wersji histogramu o całkowitej częstotliwości równej jeden.

Jeszcze bliższą analogią jest histogram częstotliwości względnej - mówimy, że taki histogram został „znormalizowany”, więc elementy obszaru reprezentują teraz proporcje oryginalnego zestawu danych, a nie surowe częstotliwości, a całkowity obszar wszystkich słupków wynosi jeden. Wysokości są teraz względnymi gęstościami częstotliwości [na jednostkę ]x . Jeśli histogram częstotliwości względnej ma słupek biegnący wzdłuż xwartości od 20 km do 25 km (więc szerokość paska wynosi 5 km) i ma względną gęstość częstotliwości 0,1 na km, wtedy ten pasek zawiera 0,5 części danych. Odpowiada to dokładnie idei, że losowo wybrany element z twojego zestawu danych ma 50% prawdopodobieństwa leżenia w tym pasku. Nadal obowiązuje poprzedni argument dotyczący wpływu zmian jednostek: porównaj proporcje danych leżących w słupku od 20 km do 25 km z tymi w wykresie 20 000 metrów do 25 000 metrów dla tych dwóch wykresów. Możesz również potwierdzić arytmetycznie, że pola wszystkich słupków sumują się do jednego w obu przypadkach.

Histogramy częstotliwości względnej z różnymi jednostkami

Co mogłem rozumieć przez moje twierdzenie, że PDF jest „rodzajem ciągłej wersji histogramu”? Weźmy mały pasek pod krzywą gęstości prawdopodobieństwa, wzdłuż wartości przedziale [ xx , więc pasek maszerokość δ x szerokości, a wysokość krzywej jest w przybliżeniu stała f ( x ) . Możemy narysować pręt o tej wysokości, którego powierzchnia f ( x )[x,x+δx]δxf(x) oznacza przybliżone prawdopodobieństwo leżenia w tym pasku.f(x)δx

Jak możemy znaleźć pole pod krzywą pomiędzy oraz x = b ? Możemy podzielić ten przedział na małe paski i wziąć sumę obszarów słupków, f ( xx=ax=b , co odpowiadałoby przybliżonemu prawdopodobieństwu leżenia w przedziale [ a , b ] . Widzimy, że krzywa i pręty nie są dokładnie wyrównane, więc w naszym przybliżeniu występuje błąd. Zmniejszając δ x coraz mniej dla każdego słupka, wypełniamy przedział większą liczbą i węższymi słupkami, którychf ( xf(x)δx[a,b]δxf(x)δx zapewnia lepsze oszacowanie obszaru.

Aby dokładnie obliczyć powierzchnię, zamiast zakładać, że była stała na każdym pasku, oceniamy całkę b af(x) , a to odpowiada rzeczywistemu prawdopodobieństwu leżenia w przedziale [ a , b ] . Całkowanie na całej krzywej daje jeden całkowity obszar (tj. Całkowite prawdopodobieństwo) jeden, z tego samego powodu, że sumowanie obszarów wszystkich słupków histogramu częstotliwości względnej daje całkowite pole (tj. Całkowity udział) jednego. Sama integracja jest rodzajem ciągłej wersji pobierania sumy.abf(x)dx[a,b]

wprowadź opis zdjęcia tutaj

Kod R dla wykresów

require(ggplot2)
require(scales)
require(gridExtra)
# Code for the PDF plots with bars underneath could be easily readapted

# Relative frequency histograms
x.df <- data.frame(km=c(rep(12.5, 1), rep(17.5, 2), rep(22.5, 5), rep(27.5, 2)))
x.df$metres <- x.df$km * 1000

km.plot <- ggplot(x.df, aes(x=km, y=..density..)) +
  stat_bin(origin=10, binwidth=5, fill="steelblue", colour="black") +
  xlab("Distance in km") + ylab("Relative frequency density per km") +
  scale_y_continuous(minor_breaks = seq(0, 0.1, by=0.005))

metres.plot <- ggplot(x.df, aes(x=metres, y=..density..)) +
  stat_bin(origin=10000, binwidth=5000, fill="steelblue", colour="black") +
  xlab("Distance in metres") + ylab("Relative frequency density per metre") +
  scale_x_continuous(labels = comma) +
  scale_y_continuous(minor_breaks = seq(0, 0.0001, by=0.000005), labels=comma)

grid.arrange(km.plot, metres.plot, ncol=2)
x11()

# Probability density functions
x.df <- data.frame(x=seq(0, 1, by=0.001))
cutoffs <- seq(0.2, 0.5, by=0.1) # for bars
barHeights <- c(0, dbeta(cutoffs[1:(length(cutoffs)-1)], 2, 2), 0) # uses left of bar

x.df$pdf <- dbeta(x.df$x, 2, 2)
x.df$bar <-  findInterval(x.df$x, cutoffs) + 1 # start at 1, first plotted bar is 2
x.df$barHeight <- barHeights[x.df$bar]

x.df$lastBar <- ifelse(x.df$bar == max(x.df$bar)-1, 1, 0) # last plotted bar only
x.df$lastBarHeight <- ifelse(x.df$lastBar == 1, x.df$barHeight, 0)
x.df$integral <- ifelse(x.df$bar %in% 2:(max(x.df$bar)-1), 1, 0) # all plotted bars
x.df$integralHeight <- ifelse(x.df$integral == 1, x.df$pdf, 0)

cutoffsNarrow <- seq(0.2, 0.5, by=0.025) # for the narrow bars
barHeightsNarrow <- c(0, dbeta(cutoffsNarrow[1:(length(cutoffsNarrow)-1)], 2, 2), 0) # uses left of bar
x.df$barNarrow <-  findInterval(x.df$x, cutoffsNarrow) + 1 # start at 1, first plotted bar is 2
x.df$barHeightNarrow <- barHeightsNarrow[x.df$barNarrow]

pdf.plot <- ggplot(x.df, aes(x=x, y=pdf)) +
  geom_area(fill="lightsteelblue", colour="black", size=.8) +
  ylab("probability density") +
  theme(panel.grid = element_blank(),
  axis.text.x = element_text(colour="black", size=16))

pdf.lastBar.plot <- pdf.plot +
  scale_x_continuous(breaks=tail(cutoffs, 2), labels=expression(x, x+delta*x)) +
  geom_area(aes(x=x, y=lastBarHeight, group=lastBar), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(x<=X)<=x+delta*x)%~~%f(x)*delta*x"), parse=TRUE)

pdf.bars.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffs[c(1, length(cutoffs))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=barHeight, group=bar), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)%~~%sum(f(x)*delta*x)"), parse=TRUE)

pdf.barsNarrow.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffsNarrow[c(1, length(cutoffsNarrow))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=barHeightNarrow, group=barNarrow), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)%~~%sum(f(x)*delta*x)"), parse=TRUE)

pdf.integral.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffs[c(1, length(cutoffs))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=integralHeight, group=integral), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)==integral(f(x)*dx,a,b)"), parse=TRUE)

grid.arrange(pdf.lastBar.plot, pdf.bars.plot, pdf.barsNarrow.plot, pdf.integral.plot, ncol=2)
Silverfish
źródło
przybiłeś ją pierwszymi dwiema liniami, ale reszta jest równie dobra.
PatrickT
2
f(x)=F(x)
1
@Silverfish: Po raz pierwszy widziałem, jak ktoś używa terminu „kropla grosza” w języku angielskim!
Mehrdad
1
Pierwsza tabela wygląda, jakby ktoś
rzucił
1
@Aksakal Ooof. Nie zauważyłem tego. Należy pamiętać, aby nie używać tego przykładu w klasie bez kilku modyfikacji. (Na tych samych liniach, kiedy wymyślam problem do rozwiązania na planszy, są pewne liczby, takie jak 69, staram się nie pojawiać. Doświadczenie jest trudne do zdobycia.)
Silverfish
7

Masz już dwie odpowiedzi, z doskonałą przez Silverfish , jednak uważam, że ilustracja może być przydatna, ponieważ pytasz o geometrię i „wyobrażasz sobie” te funkcje.

Zacznijmy od prostego przykładu dystrybucji Bernoulli :

fa(x)={pgdyby x=1,1-pgdyby x=0.

wprowadź opis zdjęcia tutaj

Ponieważ wartości są dyskretne, nie ma „krzywej”, ale tylko dwa punkty, jednak idea jest podobna: jeśli chcesz poznać całkowite prawdopodobieństwo (obszar pod krzywą), musisz zsumować prawdopodobieństwa obu możliwych wyników:

p+(1-p)=1

p1-p tym równaniu ponieważ mamy tylko dwa możliwe wyniki punktowe z danym prawdopodobieństwem.

xxfa(x)x1x11#{xja}=N.#{xja}/N.=1N. jest całkowitą liczbą wszystkich możliwych wyniki.

wprowadź opis zdjęcia tutaj

xx. Więc gdyby były punkty, których nie można było zobaczyć, bez względu na to, jak bardzo „powiększymy”, ponieważ zawsze może istnieć nieskończona liczba mniejszych punktów między dowolnymi punktami. Z tego powodu mamy tutaj krzywą - możesz sobie wyobrazić, że składa się ona z nieskończenie wielu „punktów”. Możesz zadać sobie pytanie: jak obliczyć sumę nieskończonej liczby prawdopodobieństw ..? Na wykresie poniżej czerwona krzywa jest normalnym plikiem PDF, a czarne pola to histogram niektórych wartości narysowanych z rozkładu. Tak więc wykres histogramu uprościł naszą dystrybucję do skończonej liczby „pól” z pewnymi szerokościa jeśli zsumujesz wysokość pól pomnożonych przez ich szerokość, otrzymasz obszar pod krzywą - lub obszar wszystkich pól. Używamy tu raczej punktów, ponieważ każde pudełko jest podsumowaniem nieskończonej liczby „punktów”, które zostały zapakowane w pudełko.

wprowadź opis zdjęcia tutaj

fa(x)-2.5--3)=0,5

0.010 0.028 0.094 0.198 0.260 0.400 0.404 0.292 0.166 0.092 0.044 0.010 0.002

0,511 .

11fa(x) . Tak więc jednostki tak naprawdę nie mają znaczenia, ponieważ istnieje nieskończona liczba możliwych „punktów”, jest to prawdopodobieństwo na jednostkę, gdzie jednostka jest zawsze taka sama: ułamek „

zab-3)3)

zabfa(x)rex

fa(x)rex

Pytałeś także o rozkład „płaski” (jednolity) :

wprowadź opis zdjęcia tutaj

-<za<b<1-1εsmall ... Więc jest to skomplikowany przypadek i można go sobie wyobrazić raczej w sposób abstrakcyjny. Zauważ, że, jak .Ilmari Karonen zauważył w komentarzu, że jest to raczej abstrakcyjny pomysł, który nie jest tak naprawdę możliwy w praktyce (patrz komentarz poniżej). W przypadku korzystania z takiej dystrybucji jako uprzedniej byłby to niewłaściwy uprzedni

1

Tim
źródło
1
W przypadku płaskiego (tzn. Jednolitego ) rozkładu na linii nieskończonej „skomplikowany” naprawdę oznacza „niemożliwy”: jednolity rozkład na zbiorze nieskończonej miary nie jest prawidłowym rozkładem prawdopodobieństwa, właśnie dlatego, że nie można go skalować w celu integracji1. To czasami użyteczne udawać, że jest to jeden, ale biorąc to zbyt szybko prowadzi do paradoksów. (Np. NiechX i Y być niezależnym i jednolicie rozpowszechnionym (-,); jakie jest prawdopodobieństwo, że|X|<|Y|?)
Ilmari Karonen,
Masz rację, „skomplikowane” jest zbyt nieformalne. Później poprawię.
Tim
0

Następujący kluczowy pomysł został wymieniony w komentarzu, ale nie w istniejącej odpowiedzi ...

Jednym ze sposobów intuicji na temat właściwości pliku PDF jest uznanie, że plik PDF i CDF są powiązane przez całkowanie (rachunek różniczkowy) - i że CDF ma monotoniczny wynik reprezentujący wartość prawdopodobieństwa między 0 a 1.

Jednostki osi X nie wpływają na bezjednostkowe zintegrowane całkowite pole pod krzywą PDF.

Mówiąc prosto:

Area = Width x Height

Jeśli oś X powiększa się liczbowo z powodu zmiany jednostek, wówczas oś Y musi być mniejsza o odpowiedni współczynnik liniowy .

nobar
źródło