Czy rozkład Cauchy'ego jest w jakiś sposób „rozkładem nieprzewidywalnym”?
Próbowałem zrobić
cs <- function(n) {
return(rcauchy(n,0,1))
}
w R dla wielu n wartości i zauważyli, że czasami generują dość nieprzewidywalne wartości.
Porównaj to np
as <- function(n) {
return(rnorm(n,0,1))
}
co zawsze wydaje się dawać „zwartą” chmurę punktów.
Na tym zdjęciu powinno to wyglądać jak normalny rozkład? Jednak może dotyczy to tylko podzbioru wartości. A może sztuczka polega na tym, że odchylenia standardowe Cauchy'ego (na zdjęciu poniżej) zbiegają się znacznie wolniej (w lewo i w prawo), a zatem pozwala na bardziej poważne wartości odstające, chociaż z małym prawdopodobieństwem?
Tutaj, podobnie jak normalne rv i cs, są Cauchy rvs.
Ale czy na skraju wartości odstających jest możliwe, że ogony pliku PDF z Cauchy nigdy się nie zbiegają?
distributions
intuition
cauchy
mavavilj
źródło
źródło
Odpowiedzi:
Podczas gdy wiele postów na stronie dotyczy różnych właściwości Cauchy, nie udało mi się znaleźć jednego, który naprawdę je rozłożył. Mam nadzieję, że może to być dobre miejsce na zebranie niektórych. Mogę to rozwinąć.
Ciężkie ogony
Podczas gdy Cauchy jest symetryczny i z grubsza w kształcie dzwonu, nieco podobny do normalnego rozkładu, ma znacznie cięższe ogony (i mniej „barku”). Na przykład istnieje małe, ale wyraźne prawdopodobieństwo, że zmienna losowa Cauchy'ego będzie układać więcej niż 1000 przedziałów międzykwartylowych od mediany - mniej więcej tej samej kolejności, co normalna zmienna losowa, co najmniej 2,67 zakresu międzykwartylowego od mediany.
Zmienność
Wariacja Cauchyego jest nieskończona.
Edycja: JG w komentarzach mówi, że jest niezdefiniowany. Jeśli weźmiemy wariancję jako średnią z połowy kwadratowej odległości między parami wartości - która jest identyczna z wariancją, gdy obie istnieją, to byłaby nieskończona. Jednak zgodnie ze zwykłą definicją JG jest poprawna. [Niemniej jednak, w przeciwieństwie do średnich próbek, które tak naprawdę nie są zbieżne, ponieważ n staje się duże, rozkład wariancji próbek stale rośnie wraz ze wzrostem wielkości próbki; skala wzrasta proporcjonalnie do n lub równoważnie rozkład wariancji log rośnie wraz z rozmiarem próbki. Wydaje się, że produktywne jest rozważenie, że ta wersja wariancji, która daje nieskończoność, mówi nam coś.]
Oczywiście istnieją odchylenia standardowe próbki, ale im większa próbka, tym są one większe (np. Mediana odchylenia standardowego próbki przy n = 10 jest w pobliżu 3,67 razy parametr skali (połowa IQR), ale przy n = 100 to około 11,9).
Oznaczać
Rozkład Cauchy'ego nie ma nawet skończonej wartości; całka dla średniej nie jest zbieżna. W rezultacie, nawet prawa wielkich liczb nie mają zastosowania - w miarę wzrostu n, próbki oznaczają, że nie zbiegają się do jakiejś ustalonej wielkości (w rzeczywistości nie ma dla nich nic, do czego mogłyby się zbiegać).
W rzeczywistości rozkład średniej próbki z rozkładu Cauchyego jest taki sam, jak rozkład pojedynczej obserwacji (!). Ogon jest tak ciężki, że dodanie większej liczby wartości do sumy sprawia, że naprawdę ekstremalna wartość jest wystarczająco prawdopodobna, aby po prostu zrekompensować podzielenie przez większy mianownik przy przyjmowaniu średniej.
Przewidywalność
Z pewnością możesz stworzyć idealnie rozsądne przedziały prognozowania dla obserwacji z rozkładu Cauchyego; istnieją proste, dość wydajne estymatory, które dobrze sprawdzają się w szacowaniu lokalizacji i skali, i można budować przybliżone przedziały prognozowania - więc w tym sensie co najmniej zmienne Cauchy'ego są „przewidywalne”. Jednak ogon rozciąga się bardzo daleko, więc jeśli chcesz interwał o wysokim prawdopodobieństwie, może być dość szeroki.
Jeśli próbujesz przewidzieć środek rozkładu (np. W modelu typu regresji), może to w pewnym sensie być stosunkowo łatwe do przewidzenia; Cauchy jest dość szczytowy (rozkład jest „zbliżony” do centrum dla typowej miary skali), więc centrum można stosunkowo dobrze oszacować, jeśli masz odpowiedni estymator.
Oto przykład:
Wygenerowałem dane na podstawie zależności liniowej ze standardowymi błędami Cauchy'ego (100 obserwacji, punkt przecięcia = 3, nachylenie = 1,5) i oszacowałem linie regresji trzema metodami, które są dość odporne na wartości odstające y: linia grupy Tukey 3 (czerwona), regresja Theil (ciemnozielony) i regresja L1 (niebieski). Żadne z nich nie jest szczególnie wydajne w Cauchy - choć wszystkie byłyby doskonałymi punktami wyjścia do bardziej wydajnego podejścia.
Niemniej jednak te trzy są prawie zbieżne w porównaniu do hałaśliwości danych i leżą bardzo blisko centrum, w którym biegną dane; w tym sensie Cauchy jest wyraźnie „przewidywalny”.
Mediana absolutnych reszt jest tylko trochę większa niż 1 dla dowolnej linii (większość danych leży dość blisko linii szacowanej); w tym sensie Cauchy jest „przewidywalny”.
Dla działki po lewej stronie jest duża wartość odstająca. Aby lepiej widzieć dane, zawęziłem skalę na osi Y w dół po prawej stronie.
źródło
Rozkład Cauchy'ego wydaje się dość naturalny, szczególnie tam, gdzie masz jakąś formę wzrostu. Pojawia się także tam, gdzie wirują rzeczy, takie jak skały staczające się ze wzgórz. Przekonasz się, że jest to podstawowa dystrybucja brzydkiej mieszanki dystrybucji w zwrotach z giełdy, choć nie w zamian za rzeczy takie jak antyki sprzedawane na aukcjach. Zwroty antyków również należą do rozkładu bez średniej lub wariancji, ale nie do rozkładu Cauchy'ego. Różnice wynikają z różnic w zasadach aukcji. Jeśli zmienisz zasady NYSE, dystrybucja Cauchy'ego zniknie i pojawi się inna.
Aby zrozumieć, dlaczego jest zwykle obecny, wyobraź sobie, że byłeś licytującym w bardzo dużej grupie licytujących i potencjalnych licytujących. Ponieważ zapasy są sprzedawane na podwójnej aukcji, klątwa zwycięzcy nie ma zastosowania. W równowadze racjonalnym zachowaniem jest ustalenie oczekiwanej wartości. Oczekiwanie jest formą średniej. Rozkład średnich oszacowań zbiegnie się do normalności wraz z wielkością próby zbliżoną do nieskończoności.
To sprawia, że rynek papierów wartościowych jest bardzo niestabilny, jeśli uważa się, że rynek akcji powinien mieć normalną lub logarytmiczną dystrybucję, ale nie niespodziewanie zmienną, jeśli oczekujesz ciężkich ogonów.
Skonstruowałem zarówno predykcyjne rozkłady bayesowskie, jak i częstościści dla rozkładu Cauchy'ego i biorąc pod uwagę ich założenia, że działają dobrze. Prognozowanie Bayesowskie minimalizuje dywergencję Kullbacka-Leiblera, co oznacza, że jest tak blisko prognozy dla natury, jak dla danego zestawu danych. Prognozowanie Frequentist minimalizuje średnią dywergencję Kullbacka-Leiblera względem wielu niezależnych prognoz z wielu niezależnych próbek. Jednak niekoniecznie sprawdza się w przypadku jednej próbki, jak można by oczekiwać przy średnim pokryciu. Ogony zbiegają się, ale zbiegają się powoli.
Wieloczynnikowy Cauchy ma jeszcze bardziej niepokojące właściwości. Na przykład, chociaż oczywiście nie można tego zrobić, ponieważ nie ma żadnego środka, nie ma on nic podobnego do macierzy kowariancji. Błędy Cauchy'ego są zawsze kuliste, jeśli w systemie nie dzieje się nic więcej. Ponadto, mimo że nic się nie zmienia, nic też nie jest niezależne. Aby zrozumieć, jak ważne może być to w praktyce, wyobraź sobie dwa kraje, które rozwijają się i handlują ze sobą. Błędy w jednym nie są niezależne od błędów w drugim. Moje błędy wpływają na twoje błędy. Jeśli jeden kraj zostanie przejęty przez szaleńca, błędy tego szaleńca są odczuwalne wszędzie. Z drugiej strony, ponieważ efekty nie są liniowe, jak można by oczekiwać przy matrycy kowariancji, inne kraje mogą zerwać relacje, aby zminimalizować wpływ.
To także sprawia, że wojna handlowa Trumpa jest tak niebezpieczna. Druga co do wielkości gospodarka na świecie po Unii Europejskiej wypowiedziała wojnę gospodarczą poprzez handel przeciwko każdej innej gospodarce i finansuje tę wojnę pożyczając pieniądze na walkę z narodami, w których wypowiedziała wojnę. Jeśli te zależności będą zmuszone się odprężyć, będzie to brzydkie w sposób, którego nikt nie pamięta. Nie mieliśmy podobnego problemu od czasu Administracji Jacksona, kiedy Bank Anglii zawstydził handel atlantycki.
Rozkład Cauchy'ego jest fascynujący, ponieważ występuje w systemach wzrostu wykładniczego i krzywej S. Mylą ludzi, ponieważ ich codzienne życie jest pełne gęstości, które mają podłość i zwykle różnią się. Utrudnia to podejmowanie decyzji, ponieważ wyciągane są niewłaściwe wnioski.
źródło