Suma niezależnych logarytmicznych zmiennych losowych wydaje się lognormalna?

11

Próbuję zrozumieć, dlaczego suma dwóch (lub więcej) logarytmicznych zmiennych losowych zbliża się do rozkładu logarytmicznego wraz ze wzrostem liczby obserwacji. Szukałem w Internecie i nie znalazłem żadnych wyników dotyczących tego.

Oczywiście, jeśli i są niezależnymi zmiennymi logarytmicznymi, to dzięki właściwościom wykładników i losowych zmiennych gaussowskich jest również logarytmiczny. Nie ma jednak powodu, aby sugerować, że jest również logarytmiczny.XX × Y X + YYX×YX+Y

JEDNAK

Jeśli wygenerujesz dwie niezależne logarytmiczne zmienne losowe i i pozwolisz , i powtórzysz ten proces wiele razy, rozkład wydaje się logarytmiczny. Wydaje się nawet, że zbliża się do rozkładu logarytmicznego wraz ze wzrostem liczby obserwacji.Y Z = X + Y ZXYZ=X+YZ

Na przykład: Po wygenerowaniu 1 miliona par rozkład logarytmu naturalnego Z jest podany na histogramie poniżej. To bardzo wyraźnie przypomina rozkład normalny, co sugeruje, że jest w rzeczywistości logarytmiczny.Z

wprowadź opis zdjęcia tutaj

Czy ktoś ma wgląd lub odniesienia do tekstów, które mogą być przydatne w zrozumieniu tego?

Pierożek
źródło
Czy zakładasz równe wariancje dla i ? Jeśli przeprowadzisz symulację , dziennik sumy nie będzie już wyglądał normalnie. YXYxx <- rlnorm(1e6,0,3); yy <- rlnorm(1e6,0,1)
Stephan Kolassa
Zakładałem jednakowe wariancje - wypróbuję inną z nierówną wariancją i zobaczę, co z tego wyniknie.
Patty,
Przy wariancjach 2 i 3 otrzymałem coś, co wciąż wyglądało trochę normalnie, albiet z czymś, co wygląda jak maleńkie przekrzywienie.
Patty,
1
Pomocne może być przejrzenie poprzednich pytań . Tu i tutaj są potencjalnie przydatne artykuły. Dobry wygląd!
Stephan Kolassa

Odpowiedzi:

20

Ta przybliżona logarytmiczność sum logarytmów jest dobrze znaną regułą; wspomniano o tym w wielu artykułach - oraz w wielu postach na stronie.

Logarytmiczne przybliżenie sumy logarytmów poprzez dopasowanie pierwszych dwóch momentów jest czasem nazywane aproksymacją Fentona-Wilkinsona.

Ten dokument Dufresne może okazać się przydatny (dostępny tutaj lub tutaj ).

W przeszłości czasami wskazywałem ludziom na artykuł Mitchella

Mitchell, RL (1968),
„Trwałość rozkładu log-normalnego”.
J. Optical Society of America . 58: 1267–1272.

Ale to jest teraz uwzględnione w referencjach Dufresne.

Ale chociaż utrzymuje się w dość szerokim zestawie niezbyt przekrzywionych przypadków, to ogólnie rzecz biorąc, nie utrzymuje się, nawet w przypadku logidów normalnych, nawet gdy staje się dość duże.n

Oto histogram 1000 symulowanych wartości, z których każdy jest logarytmem sumy pięćdziesięciu tysięcy iid lognormals:

histogram sumy pięćdziesięciu tysięcy lognormaliów

Jak widzisz ... log jest dość wypaczony, więc suma nie jest bardzo zbliżona do lognormal.

Rzeczywiście, ten przykład byłby również przydatny dla ludzi myślących (ze względu na centralne twierdzenie graniczne), że niektóre na setki lub tysiące dadzą bardzo zbliżone do normalnych średnich; ten jest tak pochylony, że jego log jest znacznie pochylony, ale centralne twierdzenie o granicy ma tu jednak zastosowanie; wielu milionów * byłaby konieczna zanim zacznie szukać wszędzie blisko symetryczna.nnn

* Nie próbowałem ustalić, ile, ale ze względu na sposób, w jaki zachowuje się skośność sum (równoważnie średnich), kilka milionów będzie wyraźnie niewystarczające


Ponieważ w komentarzach zażądano więcej szczegółów, można uzyskać podobny wygląd do przykładu z poniższym kodem, który daje 1000 powtórzeń sumy 50 000 logarytmicznych zmiennych losowych z parametrem skali i parametrem kształtu :μ=0σ=4

res <- replicate(1000,sum(rlnorm(50000,0,4)))
hist(log(res),n=100)

(Od tamtej pory próbowałem Jego log jest nadal mocno pochylony)n=106

Glen_b - Przywróć Monikę
źródło
Czy możesz dodać parametry (lub fragment kodu) użyte do utworzenia histogramu na rysunku?
altroware
1
To było dwa lata temu, nie pamiętam, jakie były parametry logarytmiczne. Ale zastosujmy prostą logikę. Nie musisz się martwić o parametr , ponieważ wpływa on tylko na wartości w skali osi x, a nie na kształt (użyłbyś czegoś wygodnego, na przykład ). Pozostawia więc parametr jako jedyny mający wpływ na kształt. Zakładając, że i pracując w przybliżeniu nad skalą na histogramie powyżej, otrzymujemy, że musi znajdować się w polu liczby równej lub więcej (uwaga: uwaga). I właśnie wypróbowanie daje podobny wygląd do powyższego. μ = 0 σ μ = 0 σ 4 4μμ=0σμ=0σ44
Glen_b
1
res <- replicate(1000,sum(rlnorm(50000,0,4))); hist(log(res),n=100)26,5
2

Prawdopodobnie jest już za późno, ale znalazłem następujący artykuł na temat sum logarytmicznych rozkładów , który obejmuje ten temat. To nie jest normalne, ale coś zupełnie innego i trudnego w pracy.

Ivan Svetunkov
źródło
1

Artykuł zalecany przez Dufresne z 2009 r. I ten z 2004 r. Wraz z tym przydatnym artykułem obejmują historię przybliżeń sumy rozkładu log-normalnego i dają sumę wyniku matematycznego.

μσ

Może [ten artykuł] ( http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=6029348 ) da ci w konkretnym przypadku rodzaj centralnego twierdzenia o limicie dla sumy log-normalnych, ale wciąż istnieje brak ogólności. W każdym razie przykład podany przez Glen_b nie jest tak naprawdę odpowiedni, ponieważ jest to przypadek, w którym można łatwo zastosować klasyczne twierdzenie o limicie centralnym, i oczywiście w tym przypadku suma log-normal to Gaussa.

n

Mimì
źródło
1
Mówisz, że w moim przykładzie „możesz z łatwością zastosować klasyczne centralne twierdzenie o granicy”, ale jeśli rozumiesz, co pokazuje histogram, oczywiście nie możesz użyć CLT do argumentowania, że ​​w tym przypadku stosuje się normalne przybliżenie przy n = 50000; suma jest na tyle przekrzywiona, że jej log wciąż jest mocno przekrzywiony. Punktem tego przykładu było to, że jest nawet zbyt pochylony, aby aproksymować go logarytmicznie (lub że histogram wyglądałby bardzo blisko symetrycznego). Mniej przybliżone przekrzywienie (takie jak normalne) byłoby * gorsze * /
Glen_b
Zgadzam się, ale prawdopodobnie w twoim przykładzie nie osiągnięto konwergencji liczbowej próbki (1000 prób jest za mało) lub konwergencji statystycznej nie osiągnięto (50 000 dodatków to za mało), ale dla granicy nieskończoności rozkład powinien bądźcie Gaussami, skoro jesteśmy w warunkach CLT, prawda?
Mimì
1000 próbek jest więcej niż wystarczające do rozróżnienia kształtu rozkładu sumy - liczba pobranych próbek nie zmienia kształtu, tylko to, jak „wyraźnie” go widzimy. Ta wyraźna skośność nie zniknie, jeśli weźmiemy większą próbkę, po prostu stanie się gładsza. Tak, 50 000 to za mało, aby suma wyglądała normalnie - jest tak poprawnie przekrzywiona, że ​​kłoda nadal wygląda bardzo przekrzywiona. Może wymagać wielu milionów, zanim będzie wyglądać normalnie. Tak, zdecydowanie obowiązuje CLT; jest to iid, a wariancja jest skończona, więc znormalizowane środki muszą ostatecznie zbliżyć się do normalności.
Glen_b
1

Prawo zjawisk logicznych jest szeroko obecne na zjawiskach fizycznych, sumy tego rodzaju rozkładów zmiennych są potrzebne na przykład do badania jakiegokolwiek zachowania systemu w skalowaniu. Znam ten artykuł (bardzo długi i bardzo mocny, początek można przeżyć, jeśli nie jesteś specilistą!), „Efekty szerokiej dystrybucji w sumach logarytmicznych zmiennych losowych” opublikowane w 2003 r. (European Physical Journal B-Condensed Matter and Complex Systems 32, 513) i jest dostępny https://arxiv.org/pdf/physics/0211065.pdf .

zwycięzca
źródło