(Jest to oparte na pytaniu, które właśnie do mnie dotarło za pośrednictwem poczty elektronicznej; dodałem kontekst z poprzedniej krótkiej rozmowy z tą samą osobą).
W zeszłym roku powiedziano mi, że rozkład gamma jest cięższy od logarytmicznego, i od tego czasu powiedziano mi, że tak nie jest.
Który jest grubszy?
Jakie zasoby mogę wykorzystać do zbadania relacji?
Odpowiedzi:
(Prawy) ogon rozkładu opisuje jego zachowanie przy dużych wartościach. Prawidłowe obiekt do badania nie jest jego gęstość - co w wielu praktycznych przypadkach nie istnieje - ale raczej jej funkcja rozkładu . Mówiąc dokładniej, ponieważ musi wzrastać asymptotycznie do dla dużych argumentów (według Prawa Całkowitego Prawdopodobieństwa), interesuje nas, jak szybko zbliża się on do tej asymptoty: musimy zbadać zachowanie jej funkcji przeżycia jako .F 1 x 1 - F ( x ) x → ∞F F 1 x 1−F(x) x→∞
W szczególności, jeden rozkład o zmiennej losowej jest „cięższe” od innego , pod warunkiem że w końcu ma większą szansę na duże wartości niż . To mogą być zawarte: musi istnieć skończoną numer , że dla wszystkich ,F X G F G x0 x>x0
Czerwona krzywa na tej figurze jest funkcją przeżycia dla rozkładu Poissona . Niebieska krzywa jest dla rozkładu Gamma , który ma tę samą wariancję. W końcu niebieska krzywa zawsze przekracza czerwoną krzywą, co pokazuje, że ten rozkład gamma ma cięższy ogon niż ten rozkład Poissona. Rozkładów tych nie można łatwo porównać za pomocą gęstości, ponieważ rozkład Poissona nie ma gęstości.(3) (3)
Prawdą jest, że gdy gęstość i istnieją i dla czym jest cięższy niż rozkładem . Jednak odwrotność jest fałszywa - i jest to istotny powód, aby oprzeć definicję ciężkości ogona na funkcjach przeżycia zamiast na gęstościach, nawet jeśli często analizę ogonów można łatwiej przeprowadzić za pomocą gęstości.f g f(x)>g(x) x>x0 F G
Kontrprzykłady można konstruować, przyjmując dyskretny rozkład dodatniego, niezwiązanego wsparcia, który jednak nie jest cięższy niż (dyskretyzacja załatwi sprawę). Przekształć to w rozkład ciągły, zastępując masę prawdopodobieństwa w każdym z jego punktów podparcia , zapisaną , przez (powiedzmy) skalowany rozkład Beta z podparciem w odpowiednim przedziale i ważone przez . Biorąc pod uwagę małą liczbę dodatnią wybierzH G G H k h(k) (2,2) [k−ε(k),k+ε(k)] h(k) δ, ε(k) wystarczająco mały, aby zapewnić, że gęstość pików tego skalowanego rozkładu Beta przekracza . Z konstrukcji mieszanina jest ciągłym rozkładem której ogon wygląda podobnie jak (równomiernie jest nieco niższy o wartość ), ale ma spiki gęstość na podporze a wszystkie te kolce mają punkty, w których przekraczają gęstość . Zatem jest lżejszy niż rozkładem , ale bez względu na to, jak daleko w ogonie idziemy tam, gdzie będą punkty jego gęstość przekracza wartość .f(k)/δ δH+(1−δ)G G′ G δ H f G′ F F
Czerwona krzywa jest PDF rozkładu gamma , złota krzywa jest PDF logarytmicznego rozkładu , a niebieska krzywa (z pikami) to PDF mieszanki skonstruowanej jak w kontrprzykładzie. (Zwróć uwagę na logarytmiczną oś gęstości.) Funkcja przeżycia jest zbliżona do rozkładu gamma (z szybko opadającymi wiggami): w końcu wzrośnie ona mniej niż , nawet jeśli jej PDF zawsze będzie wzrastał powyżej tego od nieważne jak daleko do ogonów patrzymy.G F G′ G′ F F
Dyskusja
Nawiasem mówiąc, możemy przeprowadzić tę analizę bezpośrednio na funkcjach przeżycia rozkładów logarytmicznych i gamma, rozszerzając je wokół aby znaleźć ich zachowanie asymptotyczne i stwierdzić, że wszystkie lognormale mają cięższe ogony niż wszystkie gamma. Ponieważ jednak rozkłady te mają „ładne” gęstości, analizę łatwiej przeprowadzić, pokazując, że dla wystarczająco dużego gęstość logarytmiczna przekracza gęstość gamma. Nie pomylmy jednak tej analitycznej wygody ze znaczeniem ciężkiego ogona.x=∞ x
Podobnie, chociaż wyższe momenty i ich warianty (takie jak skośność i kurtoza) mówią trochę o ogonach, nie dostarczają wystarczających informacji. Jako prosty przykład możemy obciąć dowolny logarytmiczny rozkład przy tak dużej wartości, że dowolna liczba jego momentów prawie się nie zmieni - ale w ten sposób całkowicie usuniemy jego ogon, czyniąc go lżejszym niż jakikolwiek rozkład z nieograniczonym wsparcie (takie jak gamma).
Sprawiedliwym sprzeciwem wobec tych matematycznych wypaczeń byłoby wskazanie, że zachowanie tak daleko w ogonie nie ma praktycznego zastosowania, ponieważ nikt nigdy nie uwierzyłby, że jakikolwiek model dystrybucyjny będzie obowiązywał przy tak ekstremalnych (być może nieosiągalnych fizycznie) wartościach. To pokazuje jednak, że w aplikacjach powinniśmy starać się ustalić, która część ogona jest istotna i odpowiednio ją przeanalizować. (Czasy nawrotów powodzi można na przykład rozumieć w ten sposób: powodzie 10-letnie, powodzie 100-letnie i powodzie 1000-letnie charakteryzują poszczególne odcinki ogona rozkładu powodzi.) Obowiązują jednak te same zasady: podstawowym przedmiotem analizy jest tutaj funkcja rozkładu, a nie jej gęstość.
źródło
Zarówno gamma, jak i logarytmiczne są prawymi krzywymi, stałymi współczynnikami zmienności na i często są podstawą „konkurujących” modeli dla określonych rodzajów zjawisk.(0,∞)
Istnieją różne sposoby określania ciężkości ogona, ale w tym przypadku myślę, że wszystkie zwykłe pokazują, że logarytm jest cięższy. (Pierwsza osoba mogła mówić o tym, co dzieje się nie w dalekim ogonie, ale trochę na prawo od trybu (powiedzmy, około 75. percentyla na pierwszym wykresie poniżej, który dla logarytmu jest nieco poniżej 5 i gamma nieco powyżej 5.)
Jednak zbadajmy to pytanie w bardzo prosty sposób, aby rozpocząć.
Poniżej znajdują się gęstości gamma i lognormalne ze średnią 4 i wariancją 4 (wykres górny - gamma jest ciemnozielony, lognormal jest niebieski), a następnie log gęstości (na dole), dzięki czemu można porównać trendy w ogonach:
Trudno zobaczyć wiele szczegółów na górnym wykresie, ponieważ cała akcja jest po prawej stronie 10. Ale jest całkiem jasne na drugim wątku, w którym gamma zmierza znacznie szybciej niż lognormal.
Innym sposobem na zbadanie związku jest spojrzenie na gęstość kłód, jak w odpowiedzi tutaj ; widzimy, że gęstość logów dla lognormal jest symetryczna (to normalne!), a dla gamma jest ukośne w lewo, z lekkim ogonem po prawej.
Możemy to zrobić algebraicznie, gdzie możemy spojrzeć na stosunek gęstości jako (lub log tego stosunku). Niech mieć gęstość gamma logarytmicznie:x→∞ g f
Termin w [] jest kwadratowy w , podczas gdy pozostały termin zmniejsza się liniowo w . Bez względu na to, ostatecznie spadnie szybciej niż wzrost kwadratowy, niezależnie od wartości parametrów . W granicy jako logarytm stosunku gęstości maleje w kierunku , co oznacza, że gamma pdf jest ostatecznie znacznie mniejszy niż lognormalny pdf i względnie maleje. Jeśli weźmiesz stosunek w drugą stronę (z lognormal na górze), w końcu musi on wzrosnąć poza jakąkolwiek granicę.log(x) x −x/β x→∞ −∞
Oznacza to, że każda lognormalność jest ostatecznie cięższa niż każda gamma.
Inne definicje ciężkości:
Niektórzy ludzie są zainteresowani skośnością lub kurtozą w celu zmierzenia ciężkości prawego ogona. Przy danym współczynniku zmienności lognormal jest zarówno bardziej przekrzywiony, jak i ma wyższą kurtozę niż gamma . **
Na przykład przy skośności gamma ma skośność równą 2 CV, podczas gdy logarytm normalny wynosi CV + CV .3
Istnieją pewne definicje techniczne różnych środków, jak ciężkie ogony są tutaj . Możesz wypróbować niektóre z tych dwóch dystrybucji. Lognormal jest interesującym szczególnym przypadkiem w pierwszej definicji - wszystkie jego momenty istnieją, ale jego MGF nie zbiegają się powyżej 0, podczas gdy MGF dla Gammy zbiegają się w okolicy około zera.
-
** Jak wspomina Nick Cox poniżej, zwykła transformacja w celu przybliżenia normalności gamma, transformacja Wilsona-Hilferty'ego, jest słabsza niż log - jest to transformacja pierwiastka sześcianu. Przy małych wartościach parametru kształtu wymieniono czwarty pierwiastek, patrz dyskusja w tej odpowiedzi , ale w obu przypadkach jest to słabsza transformacja w celu osiągnięcia prawie normalności.
Porównanie skośności (lub kurtozy) nie sugeruje żadnego niezbędnego związku w skrajnym ogonie - zamiast tego mówi nam coś o przeciętnym zachowaniu; ale z tego powodu może działać lepiej, jeśli pierwotny punkt nie był robiony na temat skrajnego ogona.
Zasoby : Łatwo jest korzystać z programów takich jak R, Minitab, Matlab lub Excel lub cokolwiek lubisz rysować gęstości i log-gęstości oraz logi współczynników gęstości ... i tak dalej, aby zobaczyć, jak się sprawy mają w poszczególnych przypadkach. Od tego chciałbym zacząć.
źródło
Chociaż kurtoza jest związana z ciężkością ogonów, w większym stopniu przyczyniłaby się do pojęcia rozkładu ogonów tłuszczowych , a relatywnie mniej do samej ciężkości ogona, jak pokazuje poniższy przykład. W tym miejscu zwracam uwagę na to, czego się nauczyłem we wpisach powyżej i poniżej, które są naprawdę doskonałymi komentarzami. Po pierwsze, obszar prawego ogona jest obszar od x z funkcji gęstości, znanego jako funkcja przeżycia . Dla rozkładu logarytmicznego i rozkład gamma∞ f(x) 1−F(t) e−(log(x)−μ)22σ22π√σx;x≥0 βαxα−1e−βxΓ(α);x≥0 , porównajmy odpowiednie funkcje przetrwania i graficznie. Aby to zrobić, dowolnie ustawiam odpowiednie wariancje i , a także odpowiadający im nadmiar kurtoz i równa się wybierając i rozwiązana dla . To pokazuje12erfc(log(x)−μ2√σ) Q(α,βx)=Γ(α,βx)Γ(α) (eσ2−1)e2μ+σ2 αβ2 3e2σ2+2e3σ2+e4σ2−6 6α μ=0,σ=0.8 α→0.19128,β→0.335421
funkcja przeżycia dla rozkładu logarytmicznego (LND) w kolorze niebieskim i rozkładu gamma (GD) w kolorze pomarańczowym. To prowadzi nas do naszej pierwszej ostrożności. To znaczy, gdybyśmy tylko zbadali ten spisek, moglibyśmy dojść do wniosku, że ogon dla GD jest cięższy niż dla LND. To, że tak nie jest, jest pokazane poprzez rozszerzenie wartości osi x wykresu
Ta fabuła pokazuje, że 1) nawet przy równych kurtozach prawe obszary ogona LND i GD mogą się różnić. 2) Sama interpretacja graficzna ma swoje niebezpieczeństwa, ponieważ może wyświetlać wyniki tylko dla stałych wartości parametrów w ograniczonym zakresie. Istnieje zatem potrzeba znalezienia ogólnych wyrażeń dla ograniczającego współczynnika funkcji przeżycia wynoszącego . Nie mogłem tego zrobić z nieskończonymi rozszerzeniami serii. Byłem jednak w stanie to zrobić, używając pośredników funkcji terminalnych lub asymptotycznych, które nie są funkcjami unikalnymi i gdzie dla ogonów prawej ręki to jest wystarczające dla ilimx→∞S(LND,x)S(GD,x) limx→∞F(x)G(x)=1 F(x) G(x) być wzajemnie asymptotycznym. Przy odpowiedniej staranności w znalezieniu tych funkcji może to potencjalnie zidentyfikować podzbiór funkcji prostszych niż same funkcje przeżycia, które mogą być wspólne lub utrzymywane wspólnie z więcej niż jedną funkcją gęstości, na przykład dwie różne funkcje gęstości mogą się dzielić ograniczający wykładniczy ogon. W poprzedniej wersji tego postu nazywałem to „dodatkową złożonością porównywania funkcji przeżycia”. Zauważ, że i (Nawiasem mówiąc i niekoniecznie ilimu→∞erfc(u)e−u2π√u=1 limu→∞Γ(α,u)e−uuα−1=1 erfc(u)<e−u2π√u Γ(α,u)<e−uuα−1 . Oznacza to, że nie trzeba wybierać górnej granicy, tylko funkcję asymptotyczną). Tutaj piszemy i gdzie stosunek terminów prawej ręki ma taki sam limit jak jak określa lewa ręka. Uproszczenie ograniczającego stosunku zwrotów po prawej stronie12erfc(log(x)−μ2√σ)<e−(log(x)−μ2√σ)22(π√(log(x)−μ))2√σ Γ(α,βx)Γ(α)<e−βx(βx)α−1Γ(α) x→∞ limx→∞σΓ(α)(βx)1−αeβx−(μ−log(x))22σ22π√(log(x)−μ)=∞ co oznacza, że dla x odpowiednio dużej powierzchni ogona LND wynosi tak duży, jak nam się podoba w porównaniu do obszaru ogona GD, niezależnie od wartości parametrów. To powoduje kolejny problem, nie zawsze mamy rozwiązania, które są prawdziwe dla wszystkich wartości parametrów, dlatego stosowanie samych ilustracji graficznych może wprowadzać w błąd. Na przykład, obszar ogona rozkładu gamma jest większy niż obszar ogona rozkładu wykładniczego, gdy , mniej niż wykładniczy, gdy a GD jest dokładnie rozkładem wykładniczym, gdy .α<1 α>1 α=1
Jaki jest zatem pożytek z przyjmowania logarytmów stosunku funkcji przeżycia, skoro oczywiście nie musimy brać logarytmów w celu znalezienia ograniczenia? Wiele funkcji rozkładu zawiera wyrażenia wykładnicze, które wyglądają na łatwiejsze, gdy logarytm jest brany, a jeśli stosunek idzie do nieskończoności w limicie wraz ze wzrostem x, to logarytm też to zrobi. W naszym przypadku pozwoliłoby nam to sprawdzić , na które niektórzy ludzie uznaliby łatwiej. Na koniec, jeśli stosunek funkcji przeżycia osiągnie zero, to logarytm tego stosunku pójdzie dolimx→∞(log(σΓ(α)(βx)1−α2π√(log(x)−μ))+βx−(μ−log(x))22σ2)=∞ −∞ , i we wszystkich przypadkach po znalezieniu granicy logarytmu stosunku, musimy wziąć antylogarytm tej wartości, aby zrozumieć jej związek z wartością graniczną zwykłego stosunku funkcji przeżycia.
źródło