model liniowy do moich danych:
Chciałbym oszacować przedział ufności (CI) współczynników ( , ) za pomocą metody bootstrap. Istnieją dwa sposoby zastosowania metody ładowania początkowego: β 1
Próbka sparowanego predyktora odpowiedzi: Losowo ponownie pary i zastosuj regresję liniową do każdego przebiegu. Po uruchomieniach otrzymujemy zbiór oszacowanych współczynników . Na koniec oblicz kwantyl . m ^ p j , j = 1 , . . . m ^ β j
Przykładowy błąd: najpierw zastosuj regresję liniową do oryginalnych zaobserwowanych danych, z tego modelu otrzymujemy i błąd . Następnie losowo ponownie próbkuj błąd i oblicz nowe dane za pomocą i . Zastosuj ponownie regresję liniową. Po uruchomieniach otrzymujemy zbiór szacunkowych współczynników . Na koniec oblicz kwantyl . εiε * i ^ β O r * i = ^ β O xI+ε * i m ^ β j ,j=1,. . . ,m ^ β j
Moje pytania to:
- Czym różnią się te dwie metody?
- Przy jakim założeniu te dwie metody dają ten sam wynik?
źródło
boot.ci(my.boot, type="basic")
R
rms
validate
icalibrate
funkcjach.Odpowiedzi:
Jeśli pary losowo-predykcyjne zostały uzyskane z populacji przez losową próbkę, można bezpiecznie użyć schematu resampling case / random-x / your-first. Jeśli predyktory były kontrolowane lub wartości predyktorów były ustawiane przez eksperymentatora, możesz rozważyć zastosowanie schematu resamplingowego opartego na modelu resztkowym / opartym na modelu / ustalonym x / twój drugi.
Czym się różnią? Wprowadzenie do bootstrap z aplikacjami w R autorstwa Davisona i Kounena zawiera dyskusję dotyczącą tego pytania (patrz str. 9). Zobacz także kod R w tym dodatku autorstwa Johna Foxa , w szczególności funkcje boot.huber na str. 5 dla schematu random-x i boot.huber.fixed na str.10 dla schematu fixed-x. Podczas gdy w notatkach do wykładu Shalizi dwa schematy dotyczą różnych zestawów danych / problemów, dodatek Foxa ilustruje, jak niewielka różnica może wynikać z obu schematów.
Kiedy można oczekiwać, że oba przyniosą niemal identyczne wyniki? Jedna sytuacja ma miejsce, gdy model regresji jest poprawnie określony, np. Nie ma niemodelowanej nieliniowości i spełnione są zwykłe założenia regresji (np. Błędy id, brak wartości odstających). Patrz rozdział 21 książki Foxa (w której pośrednio należy wspomniany dodatek z kodem R), w szczególności dyskusja na stronie 598 i ćwiczenie 21.3. zatytułowany „Losowe kontra stałe próbkowanie w regresji”. Cytat z książki
Dowiesz się również z tej dyskusji, dlaczego bootstrap z ustalonym x domyślnie zakłada, że funkcjonalna forma modelu jest poprawna (nawet jeśli nie założono kształtu rozkładu błędów).
Zobacz także slajd 12 tego wykładu dla Society Of Actuaries in Ireland autorstwa Dereka Baina. Zawiera również ilustrację tego, co należy uznać za „ten sam wynik”:
źródło