W całym założeniu nasza statystyka jest funkcją niektórych danych która jest pobierana z funkcji dystrybucyjnej ; funkcja rozkładu empirycznego naszej próbki to . Więc to statystyka postrzegana jako zmienna losowa, a to wersja statystyki ładowania początkowego. Używamy jako odległości KSF θ ( F ) θ ( M ) d ∞
Istnieją wyniki „tylko i tylko wtedy” dotyczące ważności bootstrapu, jeśli statystyka jest prostą statystyką liniową. Na przykład Twierdzenie 1 z Mammen „Kiedy działa bootstrap?”
Jeśli dla dowolnej dowolnej funkcji wówczas bootstrap działa w tym sensie, że jeśli i tylko jeśli istnieje i taki, że Gdzie możemy zdefiniować jako funkcję naszej próbki, aHnd∞[l(θ( F ) - T n),l(θ(F)-Tn)]→P0σntnd∞[L(θ(F)-tn)
^ t n t n = E ( t n )
Istnieją również bardziej ogólne wyniki, według których bootstrap działa dla statystyk ogólnych, na przykład Twierdzenie 1.6.3 z podpróbkowania autorstwa Politisa Romano i Wolfa:
Załóżmy, że jest pobierane z klasy wszystkich dystrybucji ze skończonym wsparciem. Załóżmy, że statystyka jest zmienna Frecheta w w odniesieniu do normy supremum, a pochodna spełnia . Wtedy jest asymptotycznie normalny, a bootstrap działa w sensie poprzedniego twierdzenia.θ ( ⋅ ) F g F 0 < Var F [ g F ( x ) ] < ∞ θ ( F )
Chciałbym wersję drugiego twierdzenia „jeśli i tylko jeśli”. Będzie to wymagało pojęcia gładkości innej niż różnicowanie Frecheta, ponieważ Politis, Romano i Wolf (1999) pokazują, że mediana próbki nie jest różnicowalna Frecheta, ale bootstrap nadal działa. Jednak mediana próbki nadal jest płynną funkcją danych.
W Mammen jest kilka nieformalnych komentarzy, że płynność jest konieczna:
Zazwyczaj lokalna asymptotyczna liniowość wydaje się być konieczna dla spójności bootstrapu
Cytat ma na celu:
van Zwet, W (1989). Dyskusja wygłoszona na konferencji „Metody asymptotyczne w komputerowych procedurach intensywnych w statystyce” w Olberwolfach.
Ale nie mogę znaleźć śladu tej rozmowy poza garstką cytatów.
Odpowiedzi:
Potrzebujesz różniczkowości Hadamarda (lub kompaktowej różniczkowości w zależności od źródła odniesienia) jako wystarczającego warunku, aby bootstrap działał w takim przypadku, mediana i każdy kwantyl Hadamarda są zróżnicowalne. Różnorodność Frecheta jest zbyt silna w większości zastosowań.
Ponieważ zwykle wystarczy omówić polską przestrzeń, tam lokalnie liniowa funkcja powinna zastosować typowy argument zwięzłości, aby rozszerzyć wynik spójności na sytuację globalną. Zobacz także komentarz dotyczący linearyzacji poniżej.
[Shao & Tu] s. 85–86 ilustrują sytuacje, w których może wystąpić niespójność estymatorów ładowania początkowego.
Jeśli chodzi o komentarz „Zazwyczaj lokalna asymptotyczna liniowość wydaje się być konieczna dla spójności bootstrapu” autorstwa Mammen, jak wspomniałeś. Komentarz z [Shao i Tu] s. 78 jest następujący, ponieważ skomentowali (globalną) linearyzację to tylko technika, która ułatwia potwierdzenie spójności i nie wskazuje na żadną konieczność:
Podali przykład 3.3 dotyczący uzyskania spójności ładowania początkowego dla ładowania początkowego typu MLE. Jednak jeśli globalna liniowość jest w ten sposób skuteczna, trudno sobie wyobrazić, jak można udowodnić spójność bez lokalnej liniowości. Myślę, że to właśnie chciał powiedzieć Mammen.
Poza dyskusją podaną przez [Shao i Tu] powyżej, myślę, że to, czego chcesz, to warunek charakteryzujący spójność estymatorów ładowania początkowego.
Niestety, nie znam jednej charakterystyki spójności estymatora ładowania początkowego dla bardzo ogólnej klasy dystrybucji w .M(X) Nawet jeśli jest jedna czuję to wymaga nie tylko gładkość. Ale istnieje pewna charakterystyka dla pewnej klasy modeli statystycznych, takich jakklasaw [Gine i Zinn]; lub powszechnie wspierana klasa (bezpośrednio z powyższej dyskusji) zdefiniowana w polskiej przestrzeni.CLTT CLT
Ponadto odległość Kołmogorowa-Smirnowa, według mojego gustu, jest niewłaściwa, jeśli skupiamy się na klasycznych asymptotycznych (w przeciwieństwie do „jednolitych” asymptotycznych dla procesów empirycznych). Ponieważ odległość KS nie indukuje słabej topologii, która jest naturalną podstawą do badania zachowań asymptotycznych, słaba topologia przestrzeni jest indukowana przez ograniczoną odległość Lipschitza (OR Prohorov-Levy) przyjętą przez [Huber] i wielu innych autorów, gdy celem nie jest proces empiryczny. Czasami dyskusja na temat ograniczania zachowania procesu empirycznego obejmuje również odległość BL, jak [Gine i Zinn].M(X)
Nienawidzę być cyniczny, ale wciąż uważam, że nie jest to jedyne pismo statystyczne, które „cytuje z pustki”. Mówiąc to, po prostu uważam, że cytat z wypowiedzi van Zweta jest bardzo nieodpowiedzialny, chociaż van Zwet jest wielkim uczonym.
[Wasserman] Wasserman, Larry. Wszystkie statystyki nieparametryczne, Springer, 2010.
[Shao i Tu] Shao, Jun i Dongsheng Tu. Scyzoryk i pasek startowy. Springer, 1995.
[Gine & Zinn] Giné, Evarist i Joel Zinn. „Bootstrapping ogólne miary empiryczne”. The Annals of Prawdopodobieństwo (1990): 851–869.
[Huber] Huber, Peter J. Robust statystyki. Wiley, 1985.
źródło