Na podstawie funkcji gęstości rozkładu możemy zidentyfikować średnią (= 0) dla rozkładu Cauchy'ego, tak jak pokazano na poniższym wykresie. Ale dlaczego mówimy, że dystrybucja Cauchy'ego nie ma znaczenia?
źródło
Na podstawie funkcji gęstości rozkładu możemy zidentyfikować średnią (= 0) dla rozkładu Cauchy'ego, tak jak pokazano na poniższym wykresie. Ale dlaczego mówimy, że dystrybucja Cauchy'ego nie ma znaczenia?
Możesz mechanicznie sprawdzić, czy oczekiwana wartość nie istnieje, ale powinna to być fizycznie intuicyjna, przynajmniej jeśli zaakceptujesz zasadę Huygensa i prawo wielkich liczb . Konkluzja Prawa Dużych Liczb kończy się niepowodzeniem dla rozkładu Cauchy'ego, więc nie może mieć znaczenia. Jeśli uśrednisz niezależnych zmiennych losowych Cauchy'ego, wynik nie zbiegnie się do ponieważ z prawdopodobieństwem . Pozostaje rozkładem Cauchy'ego tej samej wielkości. Jest to ważne w optyce.0 n → ∞ 1
Rozkład Cauchy'ego to znormalizowana intensywność światła na linii ze źródła punktowego. Zasada Huygensa mówi, że możesz określić intensywność, zakładając, że światło jest ponownie emitowane z dowolnej linii między źródłem a celem. Tak więc intensywność światła na linii oddalonej o metry można ustalić, zakładając, że światło najpierw uderza o linię oddaloną o metr i jest ponownie emitowane pod dowolnym kątem do przodu. Intensywność światła na linii metrów może być wyrażona jako krotnie splot rozkładu światła na linii metr dalej. Oznacza to, że suma niezależnych rozkładów Cauchy'ego jest rozkładem Cauchy'ego skalowanym współczynnikiem .1 n n 1 n n
Gdyby rozkład Cauchy'ego miał średnią, wówczas percentyl krotnego splotu podzielonego przez musiałby zbiegać się do przez Prawo Dużych Liczb. Zamiast tego pozostaje stały. Jeśli zaznaczysz percentyl na (przezroczystej) linii w odległości metra, metrów itd., Wówczas punkty te utworzą linię prostą pod kątem stopni. Nie schylają się w kierunku .n n 0 25 1 2 45 0
Mówi to w szczególności o rozkładzie Cauchy'ego, ale powinieneś znać test integralny, ponieważ istnieją inne rozkłady bez żadnych środków, które nie mają jasnej interpretacji fizycznej.
Odpowiedź dodana w odpowiedzi na komentarz @ whuber do odpowiedzi Michaela Chernicka (i całkowicie napisany od nowa, aby usunąć błąd wskazany przez whuber).
Mówi się, że wartość całki dla oczekiwanej wartości losowej zmiennej Cauchy'ego jest niezdefiniowana, ponieważ można ją „uczynić” dowolną wartością. Całka (interpretowane w sensie całki Riemanna) jest powszechnie nazywane niepoprawna całka i jej wartość muszą być obliczone jako wartość graniczna: lub
Główna wartość Cauchy'ego jest uzyskiwana jako pojedynczy limit: zamiast podwójnego limitu powyżej. Zasadnicza wartość całki oczekiwanie jest łatwo postrzegane jako , gdyż limitand ma wartość dla wszystkich . Ale nie można tego powiedzieć, że średnia zmiennej losowej Cauchy'ego wynosi . Oznacza to, że średnia jest definiowana jako wartość całki w zwykłym znaczeniu, a nie w sensie wartości głównej.
Dla rozważ zamiast tego całkę który zbliża się do wartości granicznej jako . Gdy , otrzymujemy główną wartość omówioną powyżej. Dlatego nie możemy przypisać jednoznacznemu znaczeniu wyrażeniu
Jeśli ktoś stosuje teoretyczne podejście do prawdopodobieństwa, a całka wartości oczekiwanej jest zdefiniowana w sensie całki Lebesgue'a, to sprawa jest prostsza. istnieje tylko wtedy, gdy jest skończony, a zatem jest niezdefiniowane dla losowej zmiennej Cauchy'ego ponieważ nie jest skończone.
Chociaż powyższe odpowiedzi są prawidłowymi objaśnieniami, dlaczego rozkład Cauchyego nie oczekuje, uważam, że stosunek dwóch niezależnych normalnych matematycznych zmiennych jest Cauchy'ego równie pouczający: w rzeczy samej have a drugie oczekiwanie to .
Cauchy nie ma znaczenia, ponieważ punkt, który wybierzesz (0), nie jest średnią. Jest to mediana i tryb . Średnia dla absolutnie ciągłego rozkładu jest zdefiniowana jako gdzie jest funkcją gęstości, a całka przejmuje domenę (która w przypadku Cauchy'ego wynosi do ). Dla gęstości Cauchy'ego ta całka po prostu nie jest skończona (połowa od do to a połowa od do to ).
Rozkład Cauchy'ego najlepiej jest traktować jako rozkład równomierny na kole jednostkowym, więc byłoby zaskakujące, gdyby uśrednianie miało sens. Załóżmy, że jest jakąś „funkcją uśredniania”. To znaczy załóżmy, że dla każdego skończonego podzbioru okręgu jednostkowego był punktem koła jednostkowego. Oczywiście musi być „nienaturalny”. Dokładniej, nie może być równoważne w odniesieniu do obrotów. Aby uzyskać rozkład Cauchy'ego w jego bardziej typowej, ale mniej odkrywczej formie, rzutuj koło jednostkowe na oś x od (0,1) i użyj tego rzutu, aby przenieść rozkład równomierny na okręgu na oś x.
Aby zrozumieć, dlaczego średnia nie istnieje, pomyśl o x jako funkcji na okręgu jednostkowym. Łatwo jest znaleźć nieskończoną liczbę rozłącznych łuków na okręgu jednostkowym, tak że jeśli jeden z łuków ma długość d, to x> 1 / 4d na tym łuku. Zatem każdy z tych rozłącznych łuków wnosi więcej niż 1/4 do średniej, a całkowity wkład tych łuków jest nieskończony. Możemy zrobić to samo ponownie, ale przy x <-1 / 4d, z całkowitym udziałem minus nieskończoność. Interwały te mogą być wyświetlane za pomocą diagramu, ale czy można tworzyć diagramy dla weryfikacji krzyżowej?
Średnia lub oczekiwana wartość niektórych zmiennych losowych jest całką Lebesgue'a zdefiniowaną na podstawie pewnej miary prawdopodobieństwa :
Brak średniej zmiennej losowej Cauchy'ego oznacza po prostu, że całka Cauchy rv nie istnieje. Jest tak, ponieważ ogony rozkładu Cauchy'ego są ciężkimi ogonami (w porównaniu z ogonami rozkładu normalnego). Jednak nieistnienie wartości oczekiwanej nie zabrania istnienia innych funkcji zmiennej losowej Cauchy'ego.
Oto bardziej wizualne wyjaśnienie. (Dla tych z nas, którzy są matematykami). Weź rozproszony generator liczb losowych cauchy i spróbuj uśrednić uzyskane wartości. Oto dobra strona funkcji dla tego. https://math.stackexchange.com/questions/484395/how-to-generate-a-cauchy-random-variable Przekonasz się, że „spiczastość” losowych wartości powoduje, że staje się ona większa w miarę przemieszczania się zamiast zmniejszania . Dlatego nie ma to żadnego znaczenia.
Aby dodać do doskonałych odpowiedzi, skomentuję, dlaczego brak zbieżności całki jest istotny dla praktyki statystycznej. Jak wspomnieli inni, jeśli pozwolimy, aby wartość główna była „średnią”, wówczas slln nie będzie już ważny! Oprócz tego zastanów się nad implikacjami faktu, że w praktyce wszystkie modele są przybliżeniami. W szczególności rozkład Cauchy'ego jest modelem nieograniczonej zmiennej losowej. W praktyce zmienne losowe są ograniczone, ale granice są często niejasne i niepewne. Używanie nieograniczonych modeli jest sposobem na złagodzenie tego, powoduje, że niepotrzebne jest wprowadzanie do modeli niepewnych (i często nienaturalnych) granic. Aby to miało sens, nie powinno to wpłynąć na ważne aspekty problemu. Oznacza to, że gdybyśmy wprowadzili granice, nie powinno to w istotny sposób zmieniać modelu. Ale gdy całka nie jest zbieżna, tak się nie dzieje! Model jest niestabilny w tym sensie, że oczekiwanie RV zależałoby od w dużej mierze arbitralnych granic. (W aplikacjach niekoniecznie istnieje powód, aby granice były symetryczne!)
Z tego powodu lepiej jest powiedzieć, że całka jest rozbieżna, niż powiedzieć, że jest „nieskończona”, przy czym ostatnia jest bliska, by sugerować jakąś określoną wartość, gdy nie istnieje! Dokładniejsza dyskusja znajduje się tutaj .
Przez chwilę chciałem być trochę wybredny. Grafika na górze jest nieprawidłowa. Oś X ma odchylenia standardowe, co nie istnieje dla rozkładu Cauchy'ego. Jestem wybredna, ponieważ w pracy wykorzystuję rozkład Cauchy'ego każdego dnia mojego życia. Jest praktyczny przypadek, w którym zamieszanie może spowodować błąd empiryczny. Rozkład t-Studenta z 1 stopniem swobody jest standardowym Cauchy. Zazwyczaj wyszczególnia różne sigmy wymagane do znaczenia. Te sigma NIE są odchyleniami standardowymi, są to prawdopodobne błędy, a mu jest trybem.
Jeśli chcesz poprawnie wykonać powyższą grafikę, albo oś X to surowe dane, albo jeśli chcesz, aby miały błędy o podobnej wielkości, to dałbyś im równe prawdopodobne błędy. Jednym z prawdopodobnych błędów jest 0,67 odchyleń standardowych w rozkładzie normalnym. W obu przypadkach jest to przedział półkwartylowy.
Jeśli chodzi o odpowiedź na twoje pytanie, wszystko, co wszyscy napisali powyżej, jest poprawne i jest to matematyczny powód. Podejrzewam jednak, że jesteś studentem i nie znasz się na tym temacie, a zatem sprzeczne z intuicją matematyczne rozwiązania oczywistych wizualnie mogą nie być prawdziwe.
Mam dwie prawie identyczne próbki ze świata rzeczywistego, pobrane z rozkładu Cauchy'ego, oba mają ten sam tryb i ten sam prawdopodobny błąd. Jeden ma średnią 1,27, a drugi 1,33. Ten ze średnią 1,27 ma odchylenie standardowe 400, ten ze średnią 1,33 ma odchylenie standardowe 5,15. Prawdopodobny błąd dla obu wynosi 0,32, a tryb wynosi 1. Oznacza to, że dla danych symetrycznych średnia nie jest w środkowej 50%. Wystarczy JEDNA dodatkowa obserwacja, aby przesunąć średnią i / lub wariancję poza znaczenie dla jakiegokolwiek testu. Powodem jest to, że średnia i wariancja nie są parametrami, a średnia próbki i wariancja są same liczbami losowymi.
Najprostsza odpowiedź jest taka, że parametry rozkładu Cauchy'ego nie obejmują średniej, a zatem nie ma wariancji względem średniej.
Jest prawdopodobne, że w twojej poprzedniej pedagogice znaczenie średniej było takie, że zwykle jest to wystarczająca statystyka. W długoterminowych statystykach opartych na częstotliwościach rozkład Cauchy'ego nie ma wystarczających statystyk. Prawdą jest, że mediana próbki dla rozkładu Cauchy'ego z poparciem dla całych liczb rzeczywistych jest wystarczającą statystyką, ale dzieje się tak, ponieważ dziedziczy ją po statystykach rzędu. Jest to dość przypadkowe, ponieważ nie ma łatwego sposobu, aby o tym pomyśleć. Teraz w statystykach bayesowskich istnieje wystarczająca statystyka dla parametrów rozkładu Cauchy'ego, a jeśli użyjesz munduru wcześniej, to również jest on bezstronny. Mówię o tym, ponieważ jeśli musisz ich codziennie używać, nauczyłeś się o wszystkich sposobach dokonywania na nich szacunków.
Brak jest prawidłowych statystyk zamówień, które można by wykorzystać jako estymatory dla okrojonych rozkładów Cauchy'ego, na które najprawdopodobniej natkniesz się w świecie rzeczywistym, a zatem nie ma wystarczających statystyk w metodach opartych na częstotliwości dla większości, ale nie wszystkich rzeczywistych aplikacji .
Sugeruję odejście od tego, co mentalne, jako czegoś prawdziwego. Jest to narzędzie, takie jak młotek, które jest ogólnie przydatne i zwykle może być używane. Czasami to narzędzie nie działa.
Notatka matematyczna o rozkładach normalnych i Cauchy'ego. Gdy dane są odbierane jako szeregi czasowe, rozkład normalny zachodzi tylko wtedy, gdy błędy zbiegają się do zera, gdy t idzie do nieskończoności. Gdy dane są odbierane jako szeregi czasowe, rozkład Cauchy'ego występuje, gdy błędy rozchodzą się w nieskończoność. Jeden jest spowodowany szeregiem zbieżnym, drugi - szeregiem rozbieżnym. Rozkłady Cauchy'ego nigdy nie docierają do określonego punktu na granicy, wahają się tam iz powrotem przez ustalony punkt, tak że pięćdziesiąt procent czasu są po jednej stronie i pięćdziesiąt procent czasu po drugiej. Nie ma powrotu do mediany.
Mówiąc najprościej, obszar pod krzywą zbliża się do nieskończoności podczas zmniejszania. Jeśli spróbujesz regionu skończonego, możesz znaleźć średnią dla tego regionu. Jednak nie ma sensu nieskończoności.