Jaki jest rozkład , gdzie są rozkładami jednorodnymi?

17

Mam cztery niezależne, równomiernie rozmieszczone zmienne , każda w . Chcę obliczyć rozkład . rozkład na (stąd ), a aby być Teraz rozkład sumy u_1 + u_2 wynosi ( u_1, \, u_2 są również niezależne) f_ {u_1 + u_2} (x) = \ int _ {- \ infty} ^ {+ \ infty} f_1 (xy) f_2 (y) dy = - \ frac {1} {4} \ int_0 ^ 4 \ frac {1- \ sqrt {xy}} {\ sqrt {xy}} \ cdot \ ln \ frac {y} {4} dy, bo y \ in (0,4]a,b,c,d[0,1](ad)2+4bcu2=4bc

f2(u2)=14lnu24
u2(0,4]u1=(ad)2
f1(u1)=1u1u1.
u1+u2u1,u2
fu1+u2(x)=+f1(xy)f2(y)dy=14041xyxylny4dy,
y(0,4]. Tutaj musi być x>y więc całka jest równa
fu1+u2(x)=140x1xyxylny4dy.
Teraz wstawiam go do Mathematica i otrzymuję
fu1+u2(x)=14[x+xlnx42x(2+lnx)].

Zrobiłem cztery niezależne zbiory a,b,c,d składające się z 106 liczb i narysowałem histogram (ad)2+4bc :

wprowadź opis zdjęcia tutaj

i narysował wykres fu1+u2(x) :

wprowadź opis zdjęcia tutaj

Zasadniczo wykres jest podobny do histogramu, ale w przedziale (0,5) większość z nich jest ujemna (pierwiastek wynosi 2,27034). Całka części dodatniej wynosi 0.77 .

Gdzie jest błąd? Lub gdzie coś mi brakuje?

EDYCJA: Przeskalowałem histogram, aby wyświetlić plik PDF.

wprowadź opis zdjęcia tutaj

EDYCJA 2: Myślę, że wiem, gdzie jest problem w moim rozumowaniu - w granicach integracji. Ponieważ i , nie mogę po prostu . Wykres pokazuje region, w którym muszę się zintegrować:x - y ( 0 , 1 ] x 0y(0,4]xy(0,1]0x

wprowadź opis zdjęcia tutaj

Oznacza to, że mam dla (dlatego część mojego była poprawna), in i in . Niestety Mathematica nie oblicza dwóch ostatnich całek (cóż, oblicza drugą, ponieważ w wyniku znajduje się wyimaginowana jednostka, która psuje wszystko ... ). lat ( 0 , 1 ] f x x - 1 rok ( 1 , 4 ] 4 x - 1 rok ( 4 , 5 )0xy(0,1]fx1xy(1,4]x14y(4,5]

EDYCJA 3: Wygląda na to, że Mathematica MOŻE obliczyć trzy ostatnie całki za pomocą następującego kodu:

(1/4)*Integrate[((1-Sqrt[u1-u2])*Log[4/u2])/Sqrt[u1-u2],{u2,0,u1}, Assumptions ->0 <= u2 <= u1 && u1 > 0]

(1/4)*Integrate[((1-Sqrt[u1-u2])*Log[4/u2])/Sqrt[u1-u2],{u2,u1-1,u1}, Assumptions -> 1 <= u2 <= 3 && u1 > 0]

(1/4)*Integrate[((1-Sqrt[u1-u2])*Log[4/u2])/Sqrt[u1-u2],{u2,u1-1,4}, Assumptions -> 4 <= u2 <= 4 && u1 > 0]

co daje poprawną odpowiedź :)

corey979
źródło
2
Podoba mi się, że próbowałeś sprawdzić racjonalność swojej odpowiedzi przez symulację. Problem polega na tym, że wiesz , że popełniłeś błąd, ale nie wiesz dokładnie, gdzie. Czy zastanawiałeś się, czy możesz sprawdzić każdy etap metody, aby rozwiązać problem związany z błędem? Na przykład, czy błąd leży w twoim ? Możesz sprawdzić obliczony plik PDF pod kątem wyników symulowanych, tak jak w przypadku ostatecznej odpowiedzi. To samo dotyczy . Jeśli oba parametry i są poprawne, to popełniłeś błąd podczas ich łączenia. Takie sprawdzanie krok po kroku pozwala wskazać, gdzie popełniłeś błąd! f 2 f 1 f 2f1(u1)f2f1f2
Silverfish
Odrzuciłem pierwszą próbę i przeliczyłem ją od zera. Uważam, że i są poprawne, chociaż musiałem ręcznie pomnożyć mój początkowy przez 2, aby go znormalizować do jedności. Ale to po prostu zmienia wysokość i nie wyjaśnia, dlaczego mam ujemne . f 2 f 1 ff1f2f1f
corey979
Podczas generowania takich histogramów w celu porównania z obliczonymi wielkościami algebraicznymi przeskaluj histogram do prawidłowej gęstości (i nałóż je, jeśli możesz). Wykonaj podobne sprawdzenie dla swoich f1 i f2, aby upewnić się, że masz rację; jeśli mają rację (nie widziałem jeszcze żadnego powodu, aby je podejrzewać, ale najlepiej sprawdzić to dwukrotnie), to problem musi być później.
Glen_b

Odpowiedzi:

19

Często pomaga korzystać z funkcji dystrybucji skumulowanej.

Pierwszy,

F(x)=Pr((ad)2x)=Pr(|ad|x)=1(1x)2=2xx.

Kolejny,

G(y)=Pr(4bcy)=Pr(bcy4)=0y/4dt+y/41ydt4t=y4(1log(y4)).

Niech zawierać się między najmniejszą ( ) a największą ( ) możliwą wartością . Zapisując z CDF i z PDF , musimy obliczyćδ05(ad)2+4bcx=(ad)2Fy=4bcg=G

H(δ)=Pr((ad)2+4bcδ)=Pr(xδy)=04F(δy)g(y)dy.

Można się spodziewać, że będzie to nieprzyjemne - jednolity rozkład pliku PDF jest nieciągły i dlatego powinien powodować przerwy w definicji więc jest to dość niesamowite, że Mathematica uzyskuje formę zamkniętą (której nie będę tutaj reprodukować). Zróżnicowanie go względem daje pożądaną gęstość. Jest on definiowany fragmentarycznie w trzech odstępach czasu. W ,Hδ0<δ<1

H(δ)=h(δ)=18(8δ+δ((2+log(16)))+2(δ2δ)log(δ)).

W ,1<δ<4

h(δ)=14((δ+1)log(δ1)+δlog(δ)4δcoth1(δ)+3+log(4)).

I w ,4<δ<5

h(δ)=14(δ4δ4+(δ+1)log(4δ1)+4δtanh1((δ4)δδδδ4)1).

Figure

Ta liczba nakłada wykres na histogramie iid realizacji . Oba są prawie nie do odróżnienia, co sugeruje poprawność wzoru na .h106(ad)2+4bch


Poniżej znajduje się prawie bezmyślne rozwiązanie Mathematica o brutalnej sile . Automatyzuje praktycznie wszystko w obliczeniach. Na przykład obliczy nawet zakres wynikowej zmiennej:

ClearAll[ a, b, c, d, ff, gg, hh, g, h, x, y, z, zMin, zMax, assumptions];
assumptions = 0 <= a <= 1 && 0 <= b <= 1 && 0 <= c <= 1 && 0 <= d <= 1; 
zMax = First@Maximize[{(a - d)^2 + 4 b c, assumptions}, {a, b, c, d}];
zMin = First@Minimize[{(a - d)^2 + 4 b c, assumptions}, {a, b, c, d}];

Oto cała integracja i zróżnicowanie. (Bądź cierpliwy; obliczenie zajmuje kilka minut.)H

ff[x_] := Evaluate@FullSimplify@Integrate[Boole[(a - d)^2 <= x], {a, 0, 1}, {d, 0, 1}];
gg[y_] := Evaluate@FullSimplify@Integrate[Boole[4 b c <= y], {b, 0, 1}, {c, 0, 1}];
g[y_]  := Evaluate@FullSimplify@D[gg[y], y];
hh[z_] := Evaluate@FullSimplify@Integrate[ff[-y + z] g[y], {y, 0, 4}, 
          Assumptions -> zMin <= z <= zMax];
h[z_]  :=  Evaluate@FullSimplify@D[hh[z], z];

Na koniec symulacja i porównanie z wykresem :h

x = RandomReal[{0, 1}, {4, 10^6}];
x = (x[[1, All]] - x[[4, All]])^2 + 4 x[[2, All]] x[[3, All]];
Show[Histogram[x, {.1}, "PDF"], 
 Plot[h[z], {z, zMin, zMax}, Exclusions -> {1, 4}], 
 AxesLabel -> {"\[Delta]", "Density"}, BaseStyle -> Medium, 
 Ticks -> {{{0, "0"}, {1, "1"}, {4, "4"}, {5, "5"}}, Automatic}]
Whuber
źródło
8
(+1), szczególnie dla przypomnienia ludziom, że zamiast tego, mówiąc o zwinięciu gęstości, „Często pomaga to w zastosowaniu funkcji rozkładu skumulowanego” - szczególnie, gdy mają one tak prostą formę jak tutaj. I ty też byłeś cholernie szybki.
Alecos Papadopoulos
To wygląda na fajne rozwiązanie, które chciałbym zaakceptować - zaraz po tym, jak je zrozumiem. Jestem bardziej rachunkiem niż probabilistą; w tej chwili mam trzy pytania: i) w jaki sposób wykorzystałeś CDF, aby uzyskać i , ii) dlaczego jest i pod całką dla , i iii) w jaki sposób wyszedłeś z jego postaci że wynik rozwiązania będzie fragmentaryczny? F(x)G(y)FgH
corey979
(1) i to CDF. Są one obliczane na podstawie definicji CDF, na co wskazują pierwsze równości po ich pierwszym pojawieniu się. Szczegóły powinny być widoczne w kodzie, który wstawiłem. (2) Jest to wzór splotu dla sumy (dokładniej wyjaśniony w podobnym obliczeniu na stronie stats.stackexchange.com/a/144237 ). (3) Wstawiłem link do innego wątku o właściwościach równomiernych rozkładów. FG
whuber
7

Podobnie jak OP i whuber, użyłbym niezależności, aby rozbić to na prostsze problemy:

Niech . Zatem pdf , powiedzmy to:X=(ad)2Xf(x)

wprowadź opis zdjęcia tutaj

Niech . Zatem pdf , powiedzmy to:Y=4bcYg(y)

wprowadź opis zdjęcia tutaj

Problem sprowadza się do znalezienia się wersję . Może być na to wiele sposobów, ale najprostszym dla mnie jest użycie funkcji wywoływanej z bieżącej wersji rozwojowej mathStatica . Niestety nie jest to obecnie dostępne w publicznym wydaniu, ale oto dane wejściowe:X+YTransformSum

TransformSum[{f,g}, z]

który zwraca pdf jako funkcję częściową:Z=X+Y

wprowadź opis zdjęcia tutaj

Oto wykres właśnie pobranego pliku pdf, powiedzmy :h(z)

wprowadź opis zdjęcia tutaj

Szybkie sprawdzenie Monte Carlo

Poniższy diagram porównuje empiryczne przybliżenie Monte Carlo pdf (squiggly niebieski) z teoretycznym pdf wyprowadzonym powyżej (czerwony przerywany). Wygląda w porządku.

wprowadź opis zdjęcia tutaj

wilki
źródło