Podstawowym założeniem stosowania modeli regresji do wnioskowania jest to, że „wszystkie istotne predyktory” zostały uwzględnione w równaniu predykcyjnym. Uzasadnieniem jest to, że nieuwzględnienie ważnego czynnika w świecie rzeczywistym prowadzi do tendencyjnych współczynników, a tym samym do niedokładnych wniosków (tj. Pominiętej zmienności stronniczości).
Ale w praktyce badawczej nigdy nie widziałem nikogo, w tym czegokolwiek przypominającego „wszystkie istotne predyktory”. Wiele zjawisk ma mnóstwo ważnych przyczyn i uwzględnienie ich wszystkich byłoby bardzo trudne, jeśli nie niemożliwe. Przykładem jest modelowanie depresji jako wyniku: nikt nie zbudował niczego podobnego do modelu, który zawiera „wszystkie istotne zmienne”: np. Historię rodziców, cechy osobowości, wsparcie społeczne, dochód, ich interakcje itp., itp...
Co więcej, dopasowanie tak złożonego modelu prowadziłoby do bardzo niestabilnych szacunków, chyba że byłyby bardzo duże próby.
Moje pytanie jest bardzo proste: czy założenie / rada „uwzględnienia wszystkich istotnych predyktorów” jest po prostu czymś, co „mówimy”, ale nigdy tak naprawdę nie oznacza? Jeśli nie, to dlaczego podajemy to jako rzeczywistą poradę modelowania?
Czy to oznacza, że większość współczynników prawdopodobnie wprowadza w błąd? (np. badanie czynników osobowości i depresji, które wykorzystuje tylko kilka predyktorów). Innymi słowy, jak duży jest to problem dla wniosków naszych nauk?
Odpowiedzi:
Masz rację - rzadko mówimy „wszystkie istotne predyktory”. W praktyce możemy być zadowoleni z tym czynników predykcyjnych, które wyjaśniają główne źródła zmienności w . W szczególnym przypadku wnioskowania na temat czynnika ryzyka lub leczenia w badaniu obserwacyjnym rzadko jest to wystarczająco dobre. W tym celu korekta ze względu na zamieszanie musi być bardzo agresywna, w tym zmienne, które mogą być związane z wynikiem i mogą być związane z wyborem leczenia lub czynnikiem ryzyka, który próbujesz opublikować.Y
Interesujące jest to, że przy normalnym modelu liniowym pominięte zmienne towarzyszące, zwłaszcza jeśli są ortogonalne do zmiennych towarzyszących, mogą być uważane za po prostu powiększenie terminu błędu. W modelach nieliniowych (logistycznych, Coxa, wielu innych) pominięcie zmiennych może wpływać na skutki wszystkich zmiennych zawartych w modelu (na przykład z powodu nieupadalności ilorazu szans).
źródło
Tak, musisz uwzględnić wszystkie „odpowiednie zmienne”, ale musisz być inteligentny. Musisz pomyśleć o sposobach konstruowania eksperymentów, które izolowałyby wpływ twojego fenomenu od niepowiązanych rzeczy, co jest dużą ilością badań w świecie rzeczywistym (w przeciwieństwie do badań w klasie). Zanim przejdziesz do statystyk, musisz ciężko podnieść się w swojej domenie, a nie w statystykach.
Zachęcam was, abyście nie zachowywali się cynicznie przy uwzględnianiu wszystkich istotnych zmiennych, ponieważ jest to nie tylko szlachetny cel, ale także dlatego, że często jest to możliwe. Nie mówimy tego tylko po to, żeby to powiedzieć. Naprawdę to rozumiemy. W rzeczywistości projektowanie eksperymentów i badań, które mogą uwzględniać wszystkie istotne zmienne, sprawia, że nauka jest naprawdę interesująca i różni się od „eksperymentów” mechanicznych płyt kotłowych.
Aby uzasadnić moje stwierdzenie, dam ci przykład, w jaki sposób Galileo studiował przyspieszenie. Oto jego opis faktycznego eksperymentu (z tej strony ):
Zwróć uwagę na to, jak mierzył czas. Jest tak prymitywny, że przypomina mi, jak w dzisiejszych czasach nienaturalne nauki mierzą swoje zmienne, myślą o „zadowoleniu klienta” lub „użyteczności”. Wspomina, że błąd pomiaru mieścił się w dziesiątej części jednostki czasu, przy okazji.
Czy uwzględnił wszystkie istotne zmienne? Tak, zrobił. Teraz musicie zrozumieć, że wszystkie ciała przyciągają się do siebie grawitacją. Tak więc teoretycznie, aby obliczyć dokładną siłę wywieraną na piłkę, należy dodać do równania każde ciało we wszechświecie. Co ważniejsze, nie uwzględnił oporu powierzchniowego, oporu powietrza, momentu pędu itp. Czy to wszystko wpłynęło na jego pomiary? Tak. Nie miały one jednak związku z tym, co studiował, ponieważ był w stanie zmniejszyć lub wyeliminować ich wpływ, izolując wpływ badanej nieruchomości.
źródło
Aby założenia modelu regresji działały idealnie, należy uwzględnić wszystkie odpowiednie predyktory. Jednak żadne z założeń w analizie statystycznej nie jest w pełni zgodne, a duża część praktyki statystycznej opiera się na „Close Enough”.
Przy projektowaniu eksperymentów i właściwej randomizacji efekt terminów nieuwzględnionych w modelach można często zignorować (zakładając, że jest równa szansie losowości). Ale regresja jest zwykle stosowana, gdy pełna randomizacja nie jest możliwa do uwzględnienia wszystkich możliwych zmiennych nie uwzględnionych w modelu, więc twoje pytanie staje się ważne.
Prawie w każdym modelu regresji, który kiedykolwiek byłby dopasowany, prawdopodobnie brakuje niektórych potencjalnych predyktorów, ale „Nie wiem” bez dalszych wyjaśnień nie pozwoliłoby pracującym statystykom kontynuować pracę, więc staramy się jak najlepiej, a następnie próbujemy ustalić, jaka jest różnica między założeniami a rzeczywistością wpłynie na nasze wyniki. W niektórych przypadkach różnica w stosunku do założeń robi niewielką różnicę i nie martwimy się o nią, ale w innych przypadkach może być bardzo poważna.
Jedną z opcji, gdy wiesz, że mogą istnieć predyktory, których nie uwzględniono w modelu, które byłyby istotne, jest wykonanie analizy wrażliwości. Mierzy to, ile stronniczości byłoby możliwe w oparciu o potencjalne relacje z nie mierzonymi zmiennymi zmiennymi. Ten papier:
podaje niektóre narzędzia (i przykłady) analizy wrażliwości.
źródło