Mam kilka zmiennych towarzyszących w moich obliczeniach dla modelu i nie wszystkie są istotne statystycznie. Czy powinienem usunąć te, które nie są?
To pytanie omawia to zjawisko, ale nie odpowiada na moje pytanie: Jak interpretować nieistotny wpływ zmiennej towarzyszącej w ANCOVA?
W odpowiedzi na to pytanie nie ma nic, co sugerowałoby, że należy usunąć nieistotne zmienne towarzyszące, więc w tej chwili jestem skłonny wierzyć, że powinny pozostać. Przed przeczytaniem tej odpowiedzi myślałem o tym samym od czasu współzmiennej wciąż mogę wyjaśnić niektóre wariancje (a tym samym pomóc modelowi) bez konieczności wyjaśniania kwoty przekraczającej pewien próg (próg istotności, który moim zdaniem nie ma zastosowania do zmiennych towarzyszących).
Gdzieś w CV jest inne pytanie, na które odpowiedź wydaje się sugerować, że zmienne towarzyszące powinny być utrzymywane niezależnie od znaczenia, ale nie jest to jasne. (Chcę link do tego pytania, ale nie byłem w stanie go teraz wyśledzić).
Więc ... Czy zmienne towarzyszące, które nie wykazują istotności statystycznej, powinny być uwzględniane w obliczeniach dla modelu? (Zredagowałem to pytanie, aby wyjaśnić, że zmienne towarzyszące nigdy nie są w danych wyjściowych modelu w obliczeniach.)
Aby dodać komplikację, co zrobić, jeśli zmienne towarzyszące są statystycznie istotne dla niektórych podzbiorów danych (podzbiorów, które muszą być przetwarzane osobno). Domyślnie trzymałbym taką zmienną towarzyszącą, w przeciwnym razie należałoby zastosować albo inne modele, albo w jednym z przypadków brakowałaby statystycznie istotnej zmiennej. Jeśli jednak masz odpowiedź na ten podzielony przypadek, proszę o tym wspomnieć.
Odpowiedzi:
Otrzymałeś już kilka dobrych odpowiedzi. Istnieją powody, aby zachować zmienne towarzyszące i powody, aby porzucić zmienne towarzyszące. Istotność statystyczna nie powinna być kluczowym czynnikiem, w zdecydowanej większości przypadków.
Jeśli jesteś w trybie bardzo eksploracyjnym, a zmienna towarzysząca nie jest ważna w literaturze, a wielkość efektu jest niewielka, a zmienna towarzysząca ma niewielki wpływ na model, a zmienna towarzysząca nie była w twojej hipotezie, prawdopodobnie możesz ją usunąć dla uproszczenia .
źródło
źródło
Przydatnym spostrzeżeniem jest to, że statystycznie rzecz biorąc nie ma nic konkretnego współzmiennego, patrz np. Pomoc w pisaniu współzmiennych w formule regresji . Nawiasem mówiąc, może to wyjaśniać, dlaczego nie ma
covariate
tagu. W związku z tym istotne są tu i gdzie indziej materiały o nieistotnych terminach w modelu liniowym, podobnie jak dobrze znani krytycy regresji krokowej, nawet jeśli ANCOVA nie jest wyraźnie wymieniona.Ogólnie rzecz biorąc, złym pomysłem jest wybór predyktorów na podstawie samego znaczenia. Jeśli z jakiegoś powodu nie możesz z góry określić modelu, powinieneś rozważyć inne podejścia, ale jeśli planujesz je w pierwszej kolejności uwzględnić, odpowiednio zebrać dane i nie napotkać konkretnych problemów (np. Kolinearność), po prostu je zachowaj.
Jeśli chodzi o powody, dla których je zatrzymałeś, przedstawione mi zarzuty wydają mi się słuszne. Innym powodem może być to, że usunięcie nieistotnych predyktorów stronniczości wnioskuje na podstawie modelu. Jeszcze innym sposobem spojrzenia na to wszystko jest pytanie, co można by uzyskać, usuwając te zmienne towarzyszące po fakcie.
źródło
Naprawdę potrzebujemy więcej informacji o twoich celach, aby odpowiedzieć na to pytanie. Regresje są wykorzystywane do dwóch głównych celów:
Prognozowanie polega na tym, że Twoim celem jest odgadnięcie wartości zmiennej wynikowej dla obserwacji, które nie znajdują się w próbie (chociaż zwykle mieszczą się w zakresie danych próbki - w przeciwnym razie czasami używamy słowa „prognozowanie”). Prognozy są przydatne do celów reklamowych, finansowych itp. Jeśli jesteś zainteresowany prognozowaniem zmiennej wynikowej, mam niewiele do zaoferowania.
Wnioskowanie jest tam, gdzie jest zabawa (nawet jeśli nie ma tam pieniędzy). Wnioskowanie polega na tym, że próbujesz wyciągnąć wnioski na temat określonych parametrów modelu - zwykle w celu ustalenia wpływu przyczynowego jednej zmiennej na drugą. Mimo powszechnej percepcji analiza regresji nigdy nie jest wystarczająca do wnioskowania przyczynowego. Zawsze musisz wiedzieć więcej o procesie generowania danych, aby wiedzieć, czy regresja uwzględnia efekt przyczynowy. Kluczową kwestią dla wnioskowania przyczynowego na podstawie regresji jest to, czy średnia warunkowa błędu (zależna od regresorów) wynosi zero. Nie można tego poznać na podstawie wartości p dla regresorów. Możliwe jest posiadanie estymatorów regresji, które są obiektywne lub spójne, ale wymaga to o wiele więcej wysiłku niż po prostu rzucenie oczywistych kontroli w regresję i nadzieję, że dostaniesz te ważne.Opanowanie wskaźników: ścieżka od przyczyny do skutku i w większości nieszkodliwe ekonometria ). Opanowanie metryk jest łatwiejsze do odczytania i jest dość tanie, ale należy pamiętać, że nie jest to leczenie regresji, ale ich znaczenie. Aby dobrze przedstawić przykłady dobrych i złych projektów obserwacyjnych, polecam David Freedman (1991) „Modele statystyczne i skóra obuwnicza”, Metodologia socjologiczna , tom 21 (krótki i łatwy do odczytania z fascynującymi przykładami).
Poza tym: obsesja na punkcie techniki statystycznej nad dobrym planowaniem badań na większości kursów uniwersyteckich jest moim pedagogicznym peeve.
Po drugie, aby uzasadnić obecne znaczenie tego problemu: różnica między prognozowaniem a wnioskowaniem polega na tym, że duże zbiory danych nie są substytutem nauki.
źródło