Czy możliwe jest sprawdzenie skończoności (lub istnienia) wariancji zmiennej losowej na podstawie próbki? Jako zero, albo {wariancja istnieje i jest skończona}, albo {wariancja nie istnieje / jest nieskończona} byłoby dopuszczalne. Filozoficznie (i obliczeniowo) wydaje się to bardzo dziwne, ponieważ nie powinno być różnicy między populacją bez wariancji skończonej, a populacją o bardzo dużej wariancji (powiedzmy> ), więc nie mam nadziei, że problem ten można rozwiązać.
Jedno podejście, które mi zasugerowano, polegało na zastosowaniu centralnego twierdzenia granicznego: zakładając, że próbki mają tę samą wartość, a populacja ma średnią skończoną, można w jakiś sposób sprawdzić, czy średnia próbki ma odpowiedni błąd standardowy wraz ze wzrostem wielkości próby. Nie jestem jednak pewien, czy ta metoda zadziała. (W szczególności nie widzę, jak zrobić z tego odpowiedni test.)
źródło
Odpowiedzi:
Nie, nie jest to możliwe, ponieważ skończona próbka wielkości nie może wiarygodnie rozróżnić, powiedzmy, normalną populację od normalnej populacji skażonej 1 / N ilością rozkładu Cauchy'ego, gdzie N >> n . (Oczywiście pierwsza z nich ma wariancję skończoną, a druga nieskończoną wariancję.) Zatem każdy w pełni nieparametryczny test będzie miał arbitralnie niską moc przeciwko takim alternatywom.n 1 / N N. n
źródło
Nie możesz być pewien, nie znając dystrybucji. Ale są pewne rzeczy, które możesz zrobić, na przykład patrząc na to, co można nazwać „wariancją częściową”, tj. Jeśli masz próbkę o rozmiarze , rysujesz wariancję oszacowaną na podstawie pierwszych n wyrazów, przy czym n wynosi od 2 do N .N. n n N.
Przy skończonej wariancji populacyjnej masz nadzieję, że wariancja częściowa wkrótce ustabilizuje się blisko wariancji populacyjnej.
W przypadku nieskończonej wariancji populacji widać skok w częściowej wariancji, a następnie powolne spadki, aż do pojawienia się następnej bardzo dużej wartości w próbce.
To jest ilustracja losowych zmiennych Normalnych i Cauchy'ego (i skali logarytmicznej)
Może to nie pomóc, jeśli kształt twojego rozkładu jest taki, że potrzebna jest znacznie większa próbka niż masz do zidentyfikowania go z wystarczającą pewnością, tj. Gdy bardzo duże wartości są dość (ale nie niezwykle) rzadkie dla rozkładu o skończonej wariancji, lub są niezwykle rzadkie w przypadku dystrybucji z nieskończoną wariancją. Dla danego rozkładu będą wielkości próbek, które najprawdopodobniej nie ujawnią jego natury; i odwrotnie, dla danej wielkości próbki istnieją rozkłady, które raczej nie ukrywają swojej natury dla tej wielkości próbki.
źródło
Oto kolejna odpowiedź. Załóżmy, że możesz sparametryzować problem, coś takiego:
Zastrzeżenia: jest to zabawkowy przykład. Nie mam żadnej rzeczywistej sytuacji, w której byłbym ciekawy, czy moje dane pochodzą z Cauchy, w przeciwieństwie do t Studenta z 3 df. I pierwotne pytanie nie mówiło nic o sparametryzowanych problemach, wydawało się, że szuka ono bardziej nieparametrycznego podejścia, które moim zdaniem dobrze zajęli inni. Ta odpowiedź jest przeznaczona dla przyszłych czytelników, którzy natrafią na tytuł pytania i szukają klasycznego, zakurzonego podręcznika.
źródło
Jedna hipoteza ma wariancję skończoną, jedna ma wariancję nieskończoną. Wystarczy obliczyć szanse:
A teraz, biorąc ten stosunek, stwierdzamy, że ważne części stałych normalizujących anulują się i otrzymujemy:
Wszystkie całki są nadal prawidłowe w limicie, dzięki czemu możemy uzyskać:
I otrzymujemy jako ostateczną formę analityczną dla szans na pracę numeryczną:
Można to zatem traktować jako swoisty test wariancji skończonej kontra nieskończonej. Możemy również wykonać rozkład T do tego szkieletu, aby uzyskać kolejny test (przetestować hipotezę, że stopnie swobody są większe niż 2).
źródło
Kontrprzykład nie dotyczy zadanego pytania. Chcesz przetestować wartość zerową hipotezę że próbka zmiennych losowych iid jest pobierana z rozkładu o wariancji skończonej na danym poziomie istotności . Polecam dobry tekst referencyjny, taki jak „Wnioskowanie statystyczne” Caselli, aby zrozumieć zastosowanie i granicę testowania hipotez. Jeśli chodzi o ht na wariancję skończoną, nie mam przydatnego odniesienia, ale poniższy artykuł dotyczy podobnej, ale silniejszej wersji problemu, tj. Czy ogony dystrybucji są zgodne z prawem mocy.
DYSTRYBUCJE PRAWODAWSTWA W DANYCH EMPIRYCZNYCH SIAM Review 51 (2009): 661--703.
źródło
To stare pytanie, ale chcę zaproponować sposób użycia CLT do testowania dużych ogonów.
jest również zbliżony do funkcji rozkładu N (0,1).
Teraz wszystko, co musimy zrobić, to wykonać dużą liczbę bootstrapów i porównać empiryczną funkcję rozkładu obserwowanych Z z edf N (0,1). Naturalnym sposobem na dokonanie tego porównania jest test Kołmogorowa – Smirnowa .
Poniższe zdjęcia ilustrują główny pomysł. Na obu obrazach każda kolorowa linia jest skonstruowana na podstawie 1000 obserwacji z określonego rozkładu, a następnie 200 próbek z paska startowego o wielkości 500 dla przybliżenia Z ecdf. Czarna linia ciągła to N (0,1) cdf.
źródło