Czy zmienne towarzyszące, które nie są istotne statystycznie, powinny być „utrzymywane” podczas tworzenia modelu?

39

Mam kilka zmiennych towarzyszących w moich obliczeniach dla modelu i nie wszystkie są istotne statystycznie. Czy powinienem usunąć te, które nie są?

To pytanie omawia to zjawisko, ale nie odpowiada na moje pytanie: Jak interpretować nieistotny wpływ zmiennej towarzyszącej w ANCOVA?

W odpowiedzi na to pytanie nie ma nic, co sugerowałoby, że należy usunąć nieistotne zmienne towarzyszące, więc w tej chwili jestem skłonny wierzyć, że powinny pozostać. Przed przeczytaniem tej odpowiedzi myślałem o tym samym od czasu współzmiennej wciąż mogę wyjaśnić niektóre wariancje (a tym samym pomóc modelowi) bez konieczności wyjaśniania kwoty przekraczającej pewien próg (próg istotności, który moim zdaniem nie ma zastosowania do zmiennych towarzyszących).

Gdzieś w CV jest inne pytanie, na które odpowiedź wydaje się sugerować, że zmienne towarzyszące powinny być utrzymywane niezależnie od znaczenia, ale nie jest to jasne. (Chcę link do tego pytania, ale nie byłem w stanie go teraz wyśledzić).

Więc ... Czy zmienne towarzyszące, które nie wykazują istotności statystycznej, powinny być uwzględniane w obliczeniach dla modelu? (Zredagowałem to pytanie, aby wyjaśnić, że zmienne towarzyszące nigdy nie są w danych wyjściowych modelu w obliczeniach.)

Aby dodać komplikację, co zrobić, jeśli zmienne towarzyszące są statystycznie istotne dla niektórych podzbiorów danych (podzbiorów, które muszą być przetwarzane osobno). Domyślnie trzymałbym taką zmienną towarzyszącą, w przeciwnym razie należałoby zastosować albo inne modele, albo w jednym z przypadków brakowałaby statystycznie istotnej zmiennej. Jeśli jednak masz odpowiedź na ten podzielony przypadek, proszę o tym wspomnieć.

JESTEM
źródło
6
Ogólnie rzecz biorąc, powiedziałbym, że powinieneś zachować zmienne, które są teoretycznie ważne lub które były znaczące we wcześniejszych badaniach, nawet jeśli twoje dane nie potwierdzają ich wpływu. Biorąc to pod uwagę, aby uzyskać bardziej szczegółową odpowiedź, uważam, że powinieneś dodać kilka wierszy, aby wyjaśnić swój model i jego cel (np. Identyfikację czynników ryzyka, prognozowanie, ...).
ocram
Powiedziałbym, że to zależy. Testy to tylko wskaźniki. Jeśli uważasz, że powinna istnieć niewielka zależność, zastanów się nad utrzymaniem modelu. Jeśli wierzysz również, że zależność nie powinna tam istnieć, to pomiń ją.
Bene
OK, więc oboje mówicie, że nieistotność nie dyktuje, by zmienna towarzysząca została usunięta z rozważań, więc oboje faktycznie odpowiedzieliście na moje pytanie. Powinienem przeformułować moje pytanie, aby jaśniej wskazać, że pytam, czy stastystyczne znaczenie współzmiennej jest niezbędnym warunkiem jej zachowania („Czy brak znaczenia współzmiennej oznacza, że ​​należy ją usunąć ...”), i Zaakceptuję każdy z twoich komentarzy jako odpowiedzi.
AM
Zanim to jednak zrobię, chciałbym się upewnić, że używam właściwej terminologii. Pierwotnie napisałem „zachowane w modelu”, ale nie wydawało się to właściwe, ponieważ zmienne towarzyszące nigdy nie pojawiają się w modelu. Postawiłem na „zachowane w obliczeniach dla modelu ” (i „usunięte z rozważań ”), ale czy jest lepszy sposób na powiedzenie tego? Jaki jest właściwy termin, dla którego zmienna towarzysząca jest przechowywana lub usuwana?
AM
3
Konieczne będzie sprawdzenie poprawności wykonania takich procedur selekcji. Inne zawiodły.
Frank Harrell,

Odpowiedzi:

32

Otrzymałeś już kilka dobrych odpowiedzi. Istnieją powody, aby zachować zmienne towarzyszące i powody, aby porzucić zmienne towarzyszące. Istotność statystyczna nie powinna być kluczowym czynnikiem, w zdecydowanej większości przypadków.

  1. Współzmienne mogą mieć tak istotne znaczenie, że muszą tam być.
  2. Wielkość efektu zmiennej towarzyszącej może być wysoka, nawet jeśli nie jest znacząca.
  3. Zmienna towarzysząca może wpływać na inne aspekty modelu.
  4. Zmienna towarzysząca może być częścią tego, jak sformułowano twoją hipotezę.

Jeśli jesteś w trybie bardzo eksploracyjnym, a zmienna towarzysząca nie jest ważna w literaturze, a wielkość efektu jest niewielka, a zmienna towarzysząca ma niewielki wpływ na model, a zmienna towarzysząca nie była w twojej hipotezie, prawdopodobnie możesz ją usunąć dla uproszczenia .

Peter Flom - Przywróć Monikę
źródło
6
Bardzo ważna, ale często zaniedbana sytuacja została omówiona w punkcie 4, ale ja ją przeliteruję. Często - rzeczywiście zwykle - powinieneś chcieć porównać swoje wyniki z wynikami poprzednich pracowników o podobnych danych. Jeśli inni znaleźli określone zmienne towarzyszące warte uwzględnienia w swoich modelach, powinieneś porównać swoje wyniki z ich, niezależnie od tego, czy twoje zmienne towarzyszące osiągają (konwencjonalne) poziomy istotności. Pamiętaj, że przypadki tutaj mogą się różnić - od modeli raportowania, które według ciebie nie są (szczególnie) dobre, do modeli raportowania, które według ciebie są dobre.
Nick Cox
1
Zdecydowanie skłaniałem się do „trzymania się” (i przede wszystkim nie robiłem dużo wartości p dla zmiennych towarzyszących), ale twoja odpowiedź stanowi bardzo ładną listę kontrolną (cóż ... dwie) dla mniejszości do wyciągnięcia. Rozmiar efektu jest czymś, czego nie wziąłem pod uwagę, i chociaż rozważałem hipotezy, bardzo podoba mi się to, że go uwzględniłeś, z powodów wymienionych przez @NickCox i po prostu dla zniechęcenia do połowów.
AM
25

P.

Frank Harrell
źródło
10
Długa odpowiedź brzmi „tak”! +1 i LOL.
Peter Flom - Przywróć Monikę
Jeśli nie wartości p, jakie są inne powody, aby usunąć predyktory? Wspominasz o interpretacji przedziałów ufności, ale wydaje się, że „interesujący zakres” wynosiłby zero, co oznacza, że ​​ludzie interpretowaliby CI podobnie jak wartości p (włączenie lub wyłączenie zera).
Mark White
1
Jakie są powody, aby usunąć predyktory, gdy zniekształca to właściwości statystyczne? Nie jasne w twoim pytaniu i „zero”.
Frank Harrell,
7

Przydatnym spostrzeżeniem jest to, że statystycznie rzecz biorąc nie ma nic konkretnego współzmiennego, patrz np. Pomoc w pisaniu współzmiennych w formule regresji . Nawiasem mówiąc, może to wyjaśniać, dlaczego nie ma covariatetagu. W związku z tym istotne są tu i gdzie indziej materiały o nieistotnych terminach w modelu liniowym, podobnie jak dobrze znani krytycy regresji krokowej, nawet jeśli ANCOVA nie jest wyraźnie wymieniona.

Ogólnie rzecz biorąc, złym pomysłem jest wybór predyktorów na podstawie samego znaczenia. Jeśli z jakiegoś powodu nie możesz z góry określić modelu, powinieneś rozważyć inne podejścia, ale jeśli planujesz je w pierwszej kolejności uwzględnić, odpowiednio zebrać dane i nie napotkać konkretnych problemów (np. Kolinearność), po prostu je zachowaj.

Jeśli chodzi o powody, dla których je zatrzymałeś, przedstawione mi zarzuty wydają mi się słuszne. Innym powodem może być to, że usunięcie nieistotnych predyktorów stronniczości wnioskuje na podstawie modelu. Jeszcze innym sposobem spojrzenia na to wszystko jest pytanie, co można by uzyskać, usuwając te zmienne towarzyszące po fakcie.

Gala
źródło
4

Naprawdę potrzebujemy więcej informacji o twoich celach, aby odpowiedzieć na to pytanie. Regresje są wykorzystywane do dwóch głównych celów:

  1. Prognoza
  2. Wnioskowanie

Prognozowanie polega na tym, że Twoim celem jest odgadnięcie wartości zmiennej wynikowej dla obserwacji, które nie znajdują się w próbie (chociaż zwykle mieszczą się w zakresie danych próbki - w przeciwnym razie czasami używamy słowa „prognozowanie”). Prognozy są przydatne do celów reklamowych, finansowych itp. Jeśli jesteś zainteresowany prognozowaniem zmiennej wynikowej, mam niewiele do zaoferowania.

Wnioskowanie jest tam, gdzie jest zabawa (nawet jeśli nie ma tam pieniędzy). Wnioskowanie polega na tym, że próbujesz wyciągnąć wnioski na temat określonych parametrów modelu - zwykle w celu ustalenia wpływu przyczynowego jednej zmiennej na drugą. Mimo powszechnej percepcji analiza regresji nigdy nie jest wystarczająca do wnioskowania przyczynowego. Zawsze musisz wiedzieć więcej o procesie generowania danych, aby wiedzieć, czy regresja uwzględnia efekt przyczynowy. Kluczową kwestią dla wnioskowania przyczynowego na podstawie regresji jest to, czy średnia warunkowa błędu (zależna od regresorów) wynosi zero. Nie można tego poznać na podstawie wartości p dla regresorów. Możliwe jest posiadanie estymatorów regresji, które są obiektywne lub spójne, ale wymaga to o wiele więcej wysiłku niż po prostu rzucenie oczywistych kontroli w regresję i nadzieję, że dostaniesz te ważne.Opanowanie wskaźników: ścieżka od przyczyny do skutku i w większości nieszkodliwe ekonometria ). Opanowanie metryk jest łatwiejsze do odczytania i jest dość tanie, ale należy pamiętać, że nie jest to leczenie regresji, ale ich znaczenie. Aby dobrze przedstawić przykłady dobrych i złych projektów obserwacyjnych, polecam David Freedman (1991) „Modele statystyczne i skóra obuwnicza”, Metodologia socjologiczna , tom 21 (krótki i łatwy do odczytania z fascynującymi przykładami).

Poza tym: obsesja na punkcie techniki statystycznej nad dobrym planowaniem badań na większości kursów uniwersyteckich jest moim pedagogicznym peeve.

Po drugie, aby uzasadnić obecne znaczenie tego problemu: różnica między prognozowaniem a wnioskowaniem polega na tym, że duże zbiory danych nie są substytutem nauki.

Randy Cragun
źródło