Kiedy upuścić termin z modelu regresji?

20

Czy ktoś może doradzić, czy następujące działania mają sens:

Mam do czynienia ze zwykłym modelem liniowym z 4 predyktorami. Zastanawiam się, czy porzucić najmniej znaczący termin. Jego wartość wynosi nieco ponad 0,05. Opowiedziałem się za upuszczeniem go według następujących zasad: Pomnożenie oszacowania tego terminu przez (na przykład) zakres międzykwartylowy danych przykładowych dla tej zmiennej daje pewne znaczenie efektowi klinicznemu, jaki utrzymanie tego terminu ma na ogólny model . Ponieważ liczba ta jest bardzo niska, w przybliżeniu równa typowemu zakresowi wartości w ciągu dnia, które zmienna może przyjąć, mierząc ją w warunkach klinicznych, uważam ją za nieistotną klinicznie i dlatego można ją pominąć, aby uzyskać bardziej oszczędny model, nawet choć upuszczenie go nieco zmniejsza skorygowane .R 2pR2

P Sellaz
źródło
1
dlaczego szukasz modelu bardziej parsimonius?
Michael Bishop
3
Czy parsimony nie jest samo w sobie dobre? Moim zdaniem model ze zmiennymi, które w sensie klinicznym nie dodają żadnej mocy wyjaśniającej lub nie mają jej wcale, jest gorszy niż mniejszy model bez tych zmiennych, nawet jeśli zmienne te są znaczące w sensie statystycznym
P Sellaz
Postanowiłem napisać odpowiedź: stats.stackexchange.com/questions/17624/... . Ale w skrócie: Nie, nie uważam, że pasternactwo jest samo w sobie dobre. Czasami jest przydatny z określonych powodów.
Michael Bishop
1
Zgadzam się z Michaelem. Najlepiej jest uwzględnić zmienne bez widocznej zdolności wyjaśniającej, jeśli dano im szansę na bycie „znaczącym”; już spędziliście te stopnie swobody.
Frank Harrell,
Należy pamiętać, że predyktory, które nie są znaczącymi regresorami, mogą nadal wnosić niezerowe kwoty do wyjaśnionej wariancji w przypadku skorelowanych regresorów - wpływając na inne znaczące regresory. Zwłaszcza przy tylko czterech predyktorach, jeśli regresory są skorelowane, opowiadam się za utrzymaniem nieistotnego w modelu.
Torvon,

Odpowiedzi:

18

Nigdy nie zrozumiałem pragnienia oszczędności. Poszukiwanie parsymonu niszczy wszystkie aspekty wnioskowania statystycznego (stronniczość współczynników regresji, błędy standardowe, przedziały ufności, wartości P). Dobrym powodem do zachowania zmiennych jest zachowanie dokładności przedziałów ufności i innych wielkości. Pomyśl o tym w ten sposób: opracowano tylko dwa obiektywne estymatory wariancji rezydualnej w zwykłej regresji wielorakiej: (1) oszacowanie na podstawie wcześniej określonego (dużego) modelu oraz (2) oszacowanie na podstawie zredukowanego modelu zastępującego uogólnione stopnie wolności (GDF) dla pozornych (zredukowanych) stopni swobody regresji. GDF będzie znacznie bliżej liczby parametrów kandydujących niż liczby ostatecznych „znaczących” parametrów.

Oto inny sposób, aby o tym pomyśleć. Załóżmy, że robiłeś ANOVA w celu porównania 5 zabiegów, otrzymując test F. 4 df. Następnie z jakiegoś powodu patrzysz na różnice par pomiędzy zabiegami za pomocą testów t i zdecydowałeś się połączyć lub usunąć niektóre z zabiegów (jest to to samo, co etapowe wybieranie za pomocą P, AIC, BIC, Cp na 4 zmiennych zastępczych). Wynikowy test F z 1, 2 lub 3 df będzie miał zawyżony błąd typu I. Oryginalny test F z 4 df zawierał idealną regulację krotności.

Frank Harrell
źródło
3
+1 Parsimony to coś, co często ma sens tylko w bardzo specyficznych kontekstach. Nie ma powodu, aby grać w grę stronniczość kontra precyzja, jeśli masz wystarczająco dużo precyzji, aby wykonać obie te rzeczy.
Fomite
2
+1 za świetną odpowiedź. Ale co, jeśli masz wielokoliniowość, a usunięcie zmiennej zmniejsza ją? (Nie jest tak w pierwotnym pytaniu, ale często w innych danych). Czy uzyskany model nie jest często lepszy pod każdym względem (redukuje wariancję estymatorów, oznaki współczynników bardziej prawdopodobne dla odzwierciedlenia teorii leżącej u podstaw itp.)? Jeśli nadal korzystasz z właściwego (oryginalnego modelu) stopnia swobody.
Peter Ellis
4
Nadal lepiej jest uwzględnić obie zmienne. Jedyną ceną, którą płacisz, jest zwiększony błąd standardowy przy szacowaniu jednego z efektów zmiennej skorygowany o drugi. Wspólne testy dwóch zmiennych współliniowych są bardzo silne, ponieważ wtedy łączą siły, a nie konkurują ze sobą. Również jeśli chcesz usunąć zmienną, dane nie są w stanie powiedzieć, którą z nich usunąć.
Frank Harrell,
17

Te odpowiedzi na temat wyboru zmiennych zakładają, że koszt obserwacji zmiennych wynosi 0.

I to nie jest prawda.

Podczas gdy kwestia wyboru zmiennych dla danego modelu może, ale nie musi, obejmować selekcję, implikacje dla przyszłych zachowań NIE wymagają selekcji.

Zastanów się nad problemem przewidywania, który student college'u zrobi najlepiej w NFL. Jesteś zwiadowcą. Musisz rozważyć, które cechy obecnych liniowców w NFL są najbardziej predykcyjne dla ich sukcesu. Mierzysz 500 ilości i zaczynasz zadanie wyboru ilości, które będą potrzebne w przyszłości.

Co powinieneś zrobić? Czy powinieneś zatrzymać wszystkie 500? Czy należy wyeliminować niektóre (znak zodiaku, dzień tygodnia, w którym się urodził)?

To ważne pytanie i nie ma charakteru akademickiego. Obserwacja danych wiąże się z pewnymi kosztami, a ramy opłacalności sugerują, że niektóre zmienne NIE MUSZĄ być obserwowane w przyszłości, ponieważ ich wartość jest niska.

Paul A. Thompson
źródło
4
+1: ważny i interesujący punkt. Ujawnia również, że pytanie jest niekompletne, ponieważ nie wskazuje celu modelu. (Koszty byłyby mniej istotne dla modelu naukowego, który dąży do zbudowania teorii wyjaśniającej, ale
wysuną
6

Istnieją co najmniej dwa inne powody, dla których warto zachować zmienną: 1) Wpływa na parametry dla INNYCH zmiennych. 2) Fakt, że jest mały, sam w sobie jest klinicznie interesujący

Aby zobaczyć około 1, możesz spojrzeć na przewidywane wartości dla każdej osoby z modelu ze zmienną w modelu i bez. Sugeruję wykonanie wykresu rozrzutu tych dwóch zestawów wartości. Jeśli nie ma dużych różnic, jest to argument przeciwko temu powodowi

W przypadku 2 zastanów się, dlaczego umieściłeś tę zmienną na liście możliwych zmiennych. Czy opiera się na teorii? Czy inne badania wykazały duży rozmiar efektu?

Peter Flom - Przywróć Monikę
źródło
Kolinearność jest bardzo niewielka, więc usunięcie tej zmiennej robi bardzo małą różnicę dla innych. To interesujący punkt, ponieważ byłby klinicznie interesujący, gdyby był mały. Dane pochodzą z badania eksploracyjnego, w którym przynajmniej na tym etapie nie ma powodu, aby oczekiwać, że jedna zmienna będzie ważniejsza niż jakakolwiek inna. Jednak w tej zmiennej występują fluktuacje w ciągu dnia, więc na pierwszy rzut oka, jeśli efekt byłby podobny do wielkości tej fluktuacji, nie wydaje mi się to znaczące klinicznie.
P Sellaz,
OK, to brzmi jak dobry kandydat do usunięcia.
Peter Flom - Przywróć Monikę
@P Sellaz - jeśli „dane pochodzą z badania eksploracyjnego”, czy oznacza to, że uczestnicy wybrali siebie? Uważam, że komentarze @Franka Harrella są czymś, z czym należy się liczyć, ale obawa o ścisłą dokładność wartości p, przedziały ufności itp. Staje się dyskusyjna, jeśli próbka zostanie wybrana samodzielnie.
rolando2
Myślę, że stanie się dyskusyjne tylko wtedy, gdy ich nie użyjesz.
Frank Harrell,
@FrankHarrel - proszę wyjaśnić: „one” =?
rolando2
6

Najczęstszą radą w dzisiejszych czasach jest uzyskanie AIC obu modeli i wybranie tego z niższym AIC. Tak więc, jeśli twój pełny model ma AIC wynoszącą -20, a model bez najsłabszego predyktora ma AIC> -20, wówczas zachowujesz pełny model. Niektórzy mogą argumentować, że jeśli różnica <3 utrzymasz prostszą. Wolę radę, byś mógł użyć BIC do zerwania „więzi”, gdy AIC są w odległości 3 od siebie.

Jeśli używasz R następnie polecenie, aby uzyskać AIC jest ... AIC.

Mam tutaj podręcznik na temat modelowania z początku lat 90. sugerujący, że porzuciłeś wszystkie swoje predyktory, które nie są znaczące. Jednak to naprawdę oznacza, że ​​upuścisz niezależnie od złożoności, którą predyktor dodaje lub odejmuje od modelu. Dotyczy to również ANOVA, w której znaczenie ma wyjaśniona zmienność, a nie wielkość nachylenia w świetle innych wyjaśnień. Bardziej nowoczesne porady dotyczące korzystania z AIC uwzględniają te czynniki. Istnieje wiele powodów, dla których należy uwzględnić nieistotny predyktor, nawet jeśli nie jest on istotny. Na przykład mogą występować problemy z korelacją z innymi predyktorami, ponieważ może to być stosunkowo prosty predyktor. Jeśli chcesz najprostszej porady, skorzystaj z AIC i użyj BIC do zerwania więzi i użyj różnicy 3 jako okna równości.

Jan
źródło
Im mniejsza, tym lepsza reprezentacja R, tak?
Aaron - Przywróć Monikę
Dzięki za odpowiedź. Stwierdziłem, że różnica w AIC między dwoma modelami wynosi tylko 2.
P Sellaz
Mniejszy model ma nieco większy AIC i BIC AIC: duży niedrobnokomórkowego AIC = -2 BIC: dużą małe BIC- 7,8
P Sellaz
Aaron ... Ups ... niżej, naprawiono ...
John
1
Żeby coś wyjaśnić, ten dodatkowy termin jest tylko inną zmienną towarzyszącą, a kolinearność jest bardzo mała.
P Sellaz
4

Do czego używasz tego modelu? Czy parsimony jest ważnym celem?

W niektórych sytuacjach preferowane są bardziej oszczędne modele, ale nie powiedziałbym, że oszczędność sama w sobie jest dobra. Modele oszczędne można łatwiej zrozumieć i przekazać, a oszczędność może pomóc w zapobieganiu nadmiernemu dopasowaniu, ale często te problemy nie są poważnymi obawami lub można je rozwiązać w inny sposób.

Podejście z przeciwnego kierunku, w tym dodatkowy termin w równaniu regresji, ma pewne zalety, nawet w sytuacjach, w których sam dodatkowy termin nie jest interesujący i nie poprawia znacznie dopasowania modelu ... możesz nie myśleć, że to jest ważną zmienną, którą można kontrolować, ale inni mogą. Oczywiście istnieją inne bardzo ważne merytoryczne powody, aby wykluczyć zmienną, np. Może to być spowodowane wynikiem.

Michael Bishop
źródło
3

Z twojego sformułowania brzmi to tak, jakbyś był skłonny upuścić ostatni predyktor, ponieważ jego wartość predykcyjna jest niska; istotna zmiana tego predyktora nie oznaczałaby istotnej zmiany zmiennej odpowiedzi. Jeśli tak, to podoba mi się to kryterium włączenia / upuszczenia predyktora. Jest bardziej zakorzeniony w praktycznej rzeczywistości niż może być AIC lub BIC i bardziej zrozumiały dla twoich odbiorców dla tych badań.

rolando2
źródło
Tak, dokładnie o to mi chodziło.
P Sellaz,