Obecnie czytam „Wszystkie statystyki” Larry'ego Wassermana i zastanawia mnie coś, co napisał w rozdziale o szacowaniu funkcji statystycznych modeli nieparametrycznych.
On napisał
„Czasami możemy znaleźć szacowany błąd standardowy funkcji statystycznej, wykonując pewne obliczenia. Jednak w innych przypadkach nie jest oczywiste, jak oszacować błąd standardowy”.
Chciałbym zaznaczyć, że w następnym rozdziale mówi o bootstrapie, aby rozwiązać ten problem, ale ponieważ tak naprawdę nie rozumiem tego stwierdzenia, nie mam w pełni motywacji do bootstrapowania?
Jaki jest przykład, gdy nie jest oczywiste, jak oszacować błąd standardowy?
Wszystkie dotychczasowe przykłady były „oczywiste”, takie jak a następnie
Odpowiedzi:
Dwie odpowiedzi.
źródło
Przykład może pomóc zilustrować. Załóżmy, że w ramach modelowania przyczynowego, jesteś zainteresowany w ustalaniu, czy relacja między (ekspozycja zainteresowania) W Y (wypadkową interesów) odbywa się za pośrednictwem zmiennej W . Oznacza to, że w dwóch modelach regresji:X Y W
Efekt jest inny niż efekt γ 1 .β1 γ1
Jako przykład weź pod uwagę związek między paleniem a ryzykiem sercowo-naczyniowym (CV). Palenie oczywiście zwiększa ryzyko CV (w przypadku zdarzeń takich jak zawał serca i udar), powodując kruchość i zwapnienie żył. Jednak palenie również tłumi apetyt. Bylibyśmy więc ciekawi, czy w szacowanym związku między paleniem a ryzykiem CV pośredniczy BMI, który niezależnie jest czynnikiem ryzyka dla ryzyka CV. Tutaj może być zdarzeniem binarnym (zawał mięśnia sercowego lub neurologicznego) w modelu regresji logistycznej lub zmienną ciągłą, taką jak zwapnienie tętnic wieńcowych (CAC), frakcja wyrzutowa lewej komory (LVEF) lub masa lewej komory (LVM).Y
Dopasowalibyśmy dwa modele 1: dostosowanie do palenia i wynik wraz z innymi zaburzeniami, takimi jak wiek, płeć, dochód i historia choroby serca, a następnie 2: wszystkie poprzednie zmienne towarzyszące, a także wskaźnik masy ciała. Różnica w efektach palenia między modelami 1 i 2 polega na tym, na czym opieramy nasze wnioskowanie.
Interesuje nas testowanie hipotez
Jednym z możliwych pomiarów efektu może być: lub S = β 1 / γ 1 lub dowolna liczba pomiarów. Można używać zwykłych estymatorów dla T i S . Wyznaczenie standardowego błędu tych estymatorów jest bardzo skomplikowane. Bootstrapowanie ich rozkładu jest jednak powszechnie stosowaną techniką i łatwo jest na tej podstawie obliczyć wartość p .T=β1−γ1 S=β1/γ1 T S p
źródło
Posiadanie rozwiązań parametrycznych dla każdej miary statystycznej byłoby pożądane, ale jednocześnie dość nierealne. Bootstrap jest przydatny w takich przypadkach. Przykład, który przychodzi mi do głowy, dotyczy różnicy między dwoma środkami bardzo wypaczonego rozkładu kosztów. W takim przypadku klasyczny test t dla dwóch próbek nie spełnia swoich wymagań teoretycznych (rozkłady, z których pobrano badane próbki, z pewnością odbiegają od normalności ze względu na ich długi prawy ogon), a testy nieparametryczne nie są w stanie przekazać przydatne informacje dla decydentów (którzy zwykle nie są zainteresowani szeregami). Możliwym rozwiązaniem pozwalającym uniknąć utknięcia w martwym punkcie jest test t bootstrap z dwoma próbkami.
źródło