Dwa sposoby wykorzystania bootstrap do oszacowania przedziału ufności współczynników w regresji

21

model liniowy do moich danych:

yi=β0+β1xi+ϵi,ϵiN(0,σ2).

Chciałbym oszacować przedział ufności (CI) współczynników ( , ) za pomocą metody bootstrap. Istnieją dwa sposoby zastosowania metody ładowania początkowego: β 1β0β1

  1. Próbka sparowanego predyktora odpowiedzi: Losowo ponownie pary i zastosuj regresję liniową do każdego przebiegu. Po uruchomieniach otrzymujemy zbiór oszacowanych współczynników . Na koniec oblicz kwantyl . m ^ p j , j = 1 , . . . m ^ β jyiximβj^,j=1,...mβj^

  2. Przykładowy błąd: najpierw zastosuj regresję liniową do oryginalnych zaobserwowanych danych, z tego modelu otrzymujemy i błąd . Następnie losowo ponownie próbkuj błąd i oblicz nowe dane za pomocą i . Zastosuj ponownie regresję liniową. Po uruchomieniach otrzymujemy zbiór szacunkowych współczynników . Na koniec oblicz kwantyl . εiε * i ^ β O r * i = ^ β O xI+ε * i m ^ β j ,j=1,. . . ,m ^ β jβo^ϵiϵiβo^yi=βo^xi+ϵimβj^,j=1,...,mβj^

Moje pytania to:

  • Czym różnią się te dwie metody?
  • Przy jakim założeniu te dwie metody dają ten sam wynik?
Tiantianchen
źródło
7
Ja osobiście nie użyłbym żadnego z nich jako domyślnego podejścia, ale zamiast tego zaleciłbym podstawowy przedział ufności bootstrap. Patrz str. 8 z www.stat.cmu.edu/~cshalizi/402/lectures/08-bootstrap/lecture-08.pdf. Przeprowadziłem wiele symulacji dla binarnego modelu logistycznego i widziałem lepsze pokrycie przedziału ufności przy użyciu podstawowego ładowania początkowego niż przy użyciu percentyla lub ładowania początkowego BCa.
Frank Harrell,
1
@FrankHarrell, aby być jasnym, przez „podstawowy” masz na myśli nieparametryczny bootstrap?
ndoogan
3
(1) jest nieparametrycznym przedziałem ufności percentyla ładowania początkowego, a nie podstawowym ładowaniem początkowym. Zauważ, że próbkowanie z jest bezwarunkowym ładowaniem początkowym, które jest bardziej wolne od założeń niż warunkowe ładowanie początkowe, które próbkuje resztki. (x,y)
Frank Harrell,
2
Naprawdę nie jestem ekspertem, ale o ile rozumiem, 1) często nazywa się „resamplingiem przypadków”, podczas gdy 2) nazywa się „resamplingiem resztkowym” lub „resamplingiem ustalonym ”. Podstawowy wybór metody nie oznacza metody obliczania przedziałów ufności po zabiegu. Mam te informacje głównie z samouczka Johna Foxa . O ile mi wiadomo, po obu bootstrapach można obliczyć podstawowe CI CI (np. Z in ). Czy coś mi tu brakuje? xboot.ci(my.boot, type="basic")R
COOLSerdash
2
Tak, możesz przeprowadzić ładowanie klastra. Jest to zaimplementowane w R rms validatei calibratefunkcjach.
Frank Harrell,

Odpowiedzi:

9

Jeśli pary losowo-predykcyjne zostały uzyskane z populacji przez losową próbkę, można bezpiecznie użyć schematu resampling case / random-x / your-first. Jeśli predyktory były kontrolowane lub wartości predyktorów były ustawiane przez eksperymentatora, możesz rozważyć zastosowanie schematu resamplingowego opartego na modelu resztkowym / opartym na modelu / ustalonym x / twój drugi.

Czym się różnią? Wprowadzenie do bootstrap z aplikacjami w R autorstwa Davisona i Kounena zawiera dyskusję dotyczącą tego pytania (patrz str. 9). Zobacz także kod R w tym dodatku autorstwa Johna Foxa , w szczególności funkcje boot.huber na str. 5 dla schematu random-x i boot.huber.fixed na str.10 dla schematu fixed-x. Podczas gdy w notatkach do wykładu Shalizi dwa schematy dotyczą różnych zestawów danych / problemów, dodatek Foxa ilustruje, jak niewielka różnica może wynikać z obu schematów.

Kiedy można oczekiwać, że oba przyniosą niemal identyczne wyniki? Jedna sytuacja ma miejsce, gdy model regresji jest poprawnie określony, np. Nie ma niemodelowanej nieliniowości i spełnione są zwykłe założenia regresji (np. Błędy id, brak wartości odstających). Patrz rozdział 21 książki Foxa (w której pośrednio należy wspomniany dodatek z kodem R), w szczególności dyskusja na stronie 598 i ćwiczenie 21.3. zatytułowany „Losowe kontra stałe próbkowanie w regresji”. Cytat z książki

By randomly reattaching resampled residuals to fitted values, the [fixed-x/model-based]
procedure implicitly assumes that the errors are identically distributed. If, for
example, the true errors have non-constant variance, then this property will not be  
reflected in the resampled residuals. Likewise, the unique impact of a high-leverage
outlier will be lost to the resampling.

Dowiesz się również z tej dyskusji, dlaczego bootstrap z ustalonym x domyślnie zakłada, że ​​funkcjonalna forma modelu jest poprawna (nawet jeśli nie założono kształtu rozkładu błędów).

Zobacz także slajd 12 tego wykładu dla Society Of Actuaries in Ireland autorstwa Dereka Baina. Zawiera również ilustrację tego, co należy uznać za „ten sam wynik”:

The approach of re-sampling cases to generate pseudo data is the more usual form of   
bootstrapping. The approach is robust in that if an incorrect model is fitted an
appropriate measure of parameter meter uncertainty is still obtained. However re
sampling residuals is more efficient if the correct model has been fitted.

The graphs shows both approaches in estimating the variance of a 26 point data sample
mean and a 52 point sample mean. In the larger sample the two approaches are  
equivalent.
Hibernacja
źródło