Jeśli ,

9

Załóżmy następującą konfigurację:
Niech Zi=min{ki,Xi},i=1,...,n . Również XiU[ai,bi],ai,bi>0 . Ponadto ki=cai+(1c)bi,0<c<1 tj. ki jest wypukłą kombinacją granic odpowiednich podpór. c jest wspólne dla wszystkich i .

Myślę, że mam prawidłowy rozkład Zi : jest to rozkład mieszany .
Ma część ciągłą,

Xi[ai,ki),Zi=XiPr(Zizi)=ziaibiai
a następnie nieciągłość i dyskretna część gdzie prawdopodobieństwo prawdopodobieństwa koncentruje się:
Pr(Zi=ki)=Pr(Xi>ki)=1Pr(Xiki)
=1kiaibiai=1(1c)(biai)biai=c

Więc we wszystkich

faZja(zja)={0zja<zajazja-zajabja-zajazajazja<kja1kjazja

podczas gdy dla mieszanej funkcji „dyskretna / ciągła” masa / gęstość wynosi 0 poza przedziałem [zaja,kja] , ma ona część ciągłą, która jest gęstością jednolitego U(zaja,bja) , 1bja-zaja ale dla zajazja<kja , i koncentruje masę prawdopodobieństwa dodatniego do>0 przy zja=kja .

Podsumowując, sumuje się do jedności nad rzeczywistością.

Chciałbym móc wyprowadzić lub powiedzieć coś o rozkładzie i / lub momentach zmiennej losowej S.nja=1nZja , jako n .

Powiedzmy, że jeśli są niezależne, wygląda na to, że jako . Czy mogę „zignorować” tę część, nawet jako przybliżenie? Wtedy zostałbym ze zmienną losową, która zawiera się w przedziale , wyglądając jak suma cenzurowanych mundurów, w drodze do zostania "nieocenzurowanymi", a więc może jakieś centralne twierdzenie graniczne ... ale raczej rozbieżę się, zamiast się tutaj zbiegać, więc jakieś sugestie?XjaPar(S.n=jankja)=don0n[ja=1nzaja,ja=1nkja)

PS: To pytanie jest istotne, wyprowadzając rozkład sumy zmiennych ocenzurowanych , ale odpowiedź @Glen_b nie jest tym, czego potrzebuję - muszę pracować nad tym analitycznie, nawet przy użyciu przybliżeń. To są badania, więc proszę traktować je jak pracę domową - ogólne sugestie lub odniesienia do literatury są wystarczająco dobre.

Alecos Papadopoulos
źródło
Jeśli potrzebujesz, napisz rozkład jako , z odpowiednim , w którym jest zestawem Borela. ZjaμZja(b)=P.(Zjab)=bsol(t)ret+dojab(kja)solb
Zen
@ Zen Już napisałem w pytaniu, że dystrybucja jest nieciągła. Również RHS sprawia, że ​​oczywiste jest, że oznacza gęstość w , ale prawdopodobieństwo prawdopodobieństwa - i wolę notację zwartą. fafa[zaja,kja)kja
Alecos Papadopoulos
O ile mi wiadomo, ten zapis był pdf, a pmf nie istnieje; i mamy odpowiedni język matematyczny, aby precyzyjnie opisywać mieszane rozkłady. Wątpię, aby ta notacja została zaakceptowana, kiedy opublikujesz swoje badania. Oczywiście tylko moja opinia. Zawsze powinieneś robić to tak, jak lubisz. fa
Zen
@Zen Publishing jest daleko przed nami - i rzeczywiście, recenzenci marszczą brwi, widząc nieokreślony zapis. Ten jest tylko skrótem, gdy chce się opisać rozkład stopniowy w wielu wierszach. Nie ma „argumentu za” i przeciw ustalonemu zapisowi, jak na przykład ten, którego użyłeś w poprzednim komentarzu.
Alecos Papadopoulos

Odpowiedzi:

5

Podążę za wskazówkami Henry'ego i sprawdzę Lyapunov z . Fakt, że rozkłady są mieszane, nie powinien stanowić problemu, pod warunkiem, że i zachowują się poprawnie. Symulacja konkretnego przypadku, w którym , , dla każdego pokazuje, że normalność jest w porządku.δ=1zajabjazaja=0bja=1kja=2)/3)ja1

xbar <- replicate(10^4, mean(pmin(runif(10^4), 2/3)))
hist((xbar - mean(xbar)) / sd(xbar), breaks = "FD", freq = FALSE)
curve(dnorm, col = "blue", lwd = 2, add = TRUE)

CLT

Zen
źródło
Rzeczywiście całkiem normalne. Dobrze wiedzieć. Zwykłe warunki dla CLT nigdy nie były tutaj problemem, moje pytanie brzmiało, czy istnieją inne, być może subtelne problemy, które przekręcają asymptotyczny wynik i wymagają zmodyfikowanego CLT. Twoja symulacja pokazuje, że w rzeczywistości prawdopodobieństwo nieciągłości dyskretnej staje się nieistotne, gdy do zmiennej sumuje się więcej zmiennych.
Alecos Papadopoulos
Nic konkretnego, ale nie stwarzają żadnych problemów. Pomyśl o nich również o zachowanych liczbach skończonych, niezależnych od indeksu . Mogą one zwiększać lub zmniejszać, jak rośnie (nie reguła konkretnego), a nie każdy z nich jest nieproporcjonalnie większy niż inni ... reprezentują różnice w wielkości Niemniej „porównywalny” podmiotów. Zatem stan Lindeberga z pewnością się utrzymujejaja
Alecos Papadopoulos
Miły. Powodzenia w kolejnych krokach. Wygląda na ciekawy problem.
Zen
3

Poradnik:

Zakładając, że jest ustalone, a są niezależne, możesz obliczyć średnią i wariancję każdego : na przykład i wiesz, że . doXjaμjaσja2)Zjaμja=mi[Zja]=dozaja+kja2)+(1-do)kjakja=dozaja+(1-do)bja

Następnie, pod warunkiem, że i nie rosną zbyt szybko, możesz użyć warunków Lapunowa lub Lindeberga, aby zastosować twierdzenie o limicie centralnym, z wnioskiem, że zbiega się w rozkładzie do standardowej normalnej lub w sensie machania ręką jest w przybliżeniu normalnie dystrybuowane ze średnią i wariancja .zajabja11nσja2)(1nZja-1nμja)1nZja1nμja1nσja2)

Henz
źródło
Dzięki. Nie ma problemu z i , nie rosną wraz z indeksem, po prostu się zmieniają. Mówisz więc zasadniczo, że CLT może obejmować również zmienne losowe o rozkładach mieszanych? zajabja
Alecos Papadopoulos
Gdyby np. i zostały ustalone, wtedy mielibyśmy niezależne identyczne zmienne losowe o skończonej wariancji, więc zastosowanie miałoby centralne twierdzenie graniczne. To, czy jest to rozkład mieszanki, czy nie, nie wpływa na ten wynik. Mówię o tym, że można to rozszerzyć na przypadki, w których zmienne losowe są niezależne, ale nie identycznie rozmieszczone, pod warunkiem, że średnie i wariancje pozostają rozsądne. zajabja
Henry
2

Moje główne zmartwienie w tym pytaniu dotyczyło tego, czy można zastosować CLT „jak zwykle” w przypadku, który badam. Użytkownik @Henry stwierdził, że można, użytkownik @Zen pokazał to poprzez symulację. Tak zachęcony, teraz udowodnię to analitycznie.

Najpierw sprawdzę, czy ta zmienna z rozkładem mieszanym ma „zwykłą” funkcję generowania momentu. Oznaczają wartość oczekiwana , jego odchylenie standardowe, a na środku i skalowany wersja o . Stosując wzór zmiany zmiennej, okazuje się, że część ciągła to Funkcja generowania momentu powinna być μjaZjaσjaZjaZ~ja=Zja-μjaσja

faZ~(z~ja)=σjafaZ(zja)=σjabja-zaja
Z~ja
M.~ja(t)=mi(miz~jat)=-miz~jatrefaZ~(z~ja)=za~jak~jaσjamiz~jatbja-zajarezja+domik~jat

M.~ja(t)=σjabja-zajamik~jat-miza~jatt+domik~jat
z
k~ja=kja-μjaσja,za~ja=zaja-μjaσja

Używając liczb pierwszych do oznaczania pochodnych, jeśli poprawnie podaliśmy funkcję generowania momentu, powinniśmy uzyskać od tego czasu jest wyśrodkowaną i skalowaną zmienną losową. I rzeczywiście, obliczając pochodne, stosując wielokrotnie regułę L'Hopital (ponieważ wartość MGF na zero musi być obliczona przez granice) i wykonując manipulacje algebraiczne, zweryfikowałem dwie pierwsze równości. Trzecia równość okazała się zbyt męcząca, ale wierzę, że tak jest.

M.~ja(0)=1,M.~ja(0)=mi(Z~)=0M.~ja(0)=mi(Z~ja2))=Var(Z~ja)=1

Mamy więc odpowiedni MGF. Jeśli weźmiemy rozszerzenie Taylora drugiego rzędu około zera, to mamy

M.~(t)=M.~(0)+M.~(0)t+12)M.~(0)t2)+o(t2))

M.~(t)=1+12)t2)+o(t2))

Oznacza to, że funkcją charakterystyczną jest (tutaj oznacza jednostkę urojoną) .ja

ϕ~(t)=1+12)(jat)2)+o(t2))=1-12)t2)+o(t2))

Z właściwości funkcji charakterystycznej wynika, że ​​funkcja charakterystyczna jest równaZ~/n

ϕ~Z~/n(t)=ϕ~Z~(t/n)=1-t2)2)n+o(t2)/n)

a ponieważ mamy niezależne zmienne losowe, charakterystyczną funkcją jest1njanZ~ja

ϕ~1njanZ~ja(t)=ja=1nϕ~Z~(t/n)=ja=1n(1-t2)2)n+o(t2)/n))

Następnie

limnϕ~1njanZ~ja(t)=limn(1-t2)2)n)n=mi-t2)/2)

przez jak liczba jest reprezentowanymi . Zdarza się, że ostatni człon jest funkcją charakterystyczną standardowego rozkładu normalnego i według twierdzenia Levy'ego o ciągłości mamy

1njanZ~jareN.(0,1)

którym jest CLT. Zauważ, że fakt, że zmienne - nie są identycznie rozmieszczone, „zniknął” z widoku, kiedy rozważymy ich wyśrodkowane i skalowane wersje i rozważymy rozszerzenie Taylora drugiego rzędu ich MGF / CHF: na tym przybliżeniu funkcje te są identyczne, a wszystkie różnice są zagęszczone w pozostałych kategoriach, które zanikają asymptotycznie. Z

Fakt, że idiosynkratyczne zachowanie na poziomie indywidualnym, ze wszystkich pojedynczych elementów, znika jednak, gdy weźmiemy pod uwagę średnie zachowanie, uważam, że bardzo dobrze jest to pokazane przy użyciu paskudnego stworzenia, takiego jak zmienna losowa o mieszanym rozkładzie.

Alecos Papadopoulos
źródło
Naprawdę fajnie, Alecos. Wydaje mi się, że argument powinien zależeć od bardziej szczegółowych warunków i . Na przykład: czy dowód psuje się, jeśli szybko ? (Wiem, że w twojej aplikacji tak się nie dzieje.) Co myślisz? zajabja(bja-zaja)0
Zen
@Zen Kwestia wariancji niezależnych, ale nie identycznie rozłożonych RV jest bardzo subtelna, nie sądzę, że nadal rozumiem ją jasno. Znane warunki Lyapunova lub Lindeberga są wystarczające tylko do utrzymania CLT. Są przypadki, w których CLT utrzymuje się, mimo że te warunki nie. Myślę więc, że jeśli nie ograniczymy wariancji, nie ma jednej odpowiedzi, a problem staje się całkowicie specyficzny dla każdego przypadku. Nawet książka Billingsleya nie jest jasna w tej sprawie. Pytanie brzmi, jak będzie wyglądać reszta i co możemy o tym powiedzieć.
Alecos Papadopoulos