Czy ktoś może doradzić, czy następujące działania mają sens:
Mam do czynienia ze zwykłym modelem liniowym z 4 predyktorami. Zastanawiam się, czy porzucić najmniej znaczący termin. Jego wartość wynosi nieco ponad 0,05. Opowiedziałem się za upuszczeniem go według następujących zasad: Pomnożenie oszacowania tego terminu przez (na przykład) zakres międzykwartylowy danych przykładowych dla tej zmiennej daje pewne znaczenie efektowi klinicznemu, jaki utrzymanie tego terminu ma na ogólny model . Ponieważ liczba ta jest bardzo niska, w przybliżeniu równa typowemu zakresowi wartości w ciągu dnia, które zmienna może przyjąć, mierząc ją w warunkach klinicznych, uważam ją za nieistotną klinicznie i dlatego można ją pominąć, aby uzyskać bardziej oszczędny model, nawet choć upuszczenie go nieco zmniejsza skorygowane .R 2
źródło
Odpowiedzi:
Nigdy nie zrozumiałem pragnienia oszczędności. Poszukiwanie parsymonu niszczy wszystkie aspekty wnioskowania statystycznego (stronniczość współczynników regresji, błędy standardowe, przedziały ufności, wartości P). Dobrym powodem do zachowania zmiennych jest zachowanie dokładności przedziałów ufności i innych wielkości. Pomyśl o tym w ten sposób: opracowano tylko dwa obiektywne estymatory wariancji rezydualnej w zwykłej regresji wielorakiej: (1) oszacowanie na podstawie wcześniej określonego (dużego) modelu oraz (2) oszacowanie na podstawie zredukowanego modelu zastępującego uogólnione stopnie wolności (GDF) dla pozornych (zredukowanych) stopni swobody regresji. GDF będzie znacznie bliżej liczby parametrów kandydujących niż liczby ostatecznych „znaczących” parametrów.
Oto inny sposób, aby o tym pomyśleć. Załóżmy, że robiłeś ANOVA w celu porównania 5 zabiegów, otrzymując test F. 4 df. Następnie z jakiegoś powodu patrzysz na różnice par pomiędzy zabiegami za pomocą testów t i zdecydowałeś się połączyć lub usunąć niektóre z zabiegów (jest to to samo, co etapowe wybieranie za pomocą P, AIC, BIC, Cp na 4 zmiennych zastępczych). Wynikowy test F z 1, 2 lub 3 df będzie miał zawyżony błąd typu I. Oryginalny test F z 4 df zawierał idealną regulację krotności.
źródło
Te odpowiedzi na temat wyboru zmiennych zakładają, że koszt obserwacji zmiennych wynosi 0.
I to nie jest prawda.
Podczas gdy kwestia wyboru zmiennych dla danego modelu może, ale nie musi, obejmować selekcję, implikacje dla przyszłych zachowań NIE wymagają selekcji.
Zastanów się nad problemem przewidywania, który student college'u zrobi najlepiej w NFL. Jesteś zwiadowcą. Musisz rozważyć, które cechy obecnych liniowców w NFL są najbardziej predykcyjne dla ich sukcesu. Mierzysz 500 ilości i zaczynasz zadanie wyboru ilości, które będą potrzebne w przyszłości.
Co powinieneś zrobić? Czy powinieneś zatrzymać wszystkie 500? Czy należy wyeliminować niektóre (znak zodiaku, dzień tygodnia, w którym się urodził)?
To ważne pytanie i nie ma charakteru akademickiego. Obserwacja danych wiąże się z pewnymi kosztami, a ramy opłacalności sugerują, że niektóre zmienne NIE MUSZĄ być obserwowane w przyszłości, ponieważ ich wartość jest niska.
źródło
Istnieją co najmniej dwa inne powody, dla których warto zachować zmienną: 1) Wpływa na parametry dla INNYCH zmiennych. 2) Fakt, że jest mały, sam w sobie jest klinicznie interesujący
Aby zobaczyć około 1, możesz spojrzeć na przewidywane wartości dla każdej osoby z modelu ze zmienną w modelu i bez. Sugeruję wykonanie wykresu rozrzutu tych dwóch zestawów wartości. Jeśli nie ma dużych różnic, jest to argument przeciwko temu powodowi
W przypadku 2 zastanów się, dlaczego umieściłeś tę zmienną na liście możliwych zmiennych. Czy opiera się na teorii? Czy inne badania wykazały duży rozmiar efektu?
źródło
Najczęstszą radą w dzisiejszych czasach jest uzyskanie AIC obu modeli i wybranie tego z niższym AIC. Tak więc, jeśli twój pełny model ma AIC wynoszącą -20, a model bez najsłabszego predyktora ma AIC> -20, wówczas zachowujesz pełny model. Niektórzy mogą argumentować, że jeśli różnica <3 utrzymasz prostszą. Wolę radę, byś mógł użyć BIC do zerwania „więzi”, gdy AIC są w odległości 3 od siebie.
Jeśli używasz R następnie polecenie, aby uzyskać AIC jest ...
AIC
.Mam tutaj podręcznik na temat modelowania z początku lat 90. sugerujący, że porzuciłeś wszystkie swoje predyktory, które nie są znaczące. Jednak to naprawdę oznacza, że upuścisz niezależnie od złożoności, którą predyktor dodaje lub odejmuje od modelu. Dotyczy to również ANOVA, w której znaczenie ma wyjaśniona zmienność, a nie wielkość nachylenia w świetle innych wyjaśnień. Bardziej nowoczesne porady dotyczące korzystania z AIC uwzględniają te czynniki. Istnieje wiele powodów, dla których należy uwzględnić nieistotny predyktor, nawet jeśli nie jest on istotny. Na przykład mogą występować problemy z korelacją z innymi predyktorami, ponieważ może to być stosunkowo prosty predyktor. Jeśli chcesz najprostszej porady, skorzystaj z AIC i użyj BIC do zerwania więzi i użyj różnicy 3 jako okna równości.
źródło
Do czego używasz tego modelu? Czy parsimony jest ważnym celem?
W niektórych sytuacjach preferowane są bardziej oszczędne modele, ale nie powiedziałbym, że oszczędność sama w sobie jest dobra. Modele oszczędne można łatwiej zrozumieć i przekazać, a oszczędność może pomóc w zapobieganiu nadmiernemu dopasowaniu, ale często te problemy nie są poważnymi obawami lub można je rozwiązać w inny sposób.
Podejście z przeciwnego kierunku, w tym dodatkowy termin w równaniu regresji, ma pewne zalety, nawet w sytuacjach, w których sam dodatkowy termin nie jest interesujący i nie poprawia znacznie dopasowania modelu ... możesz nie myśleć, że to jest ważną zmienną, którą można kontrolować, ale inni mogą. Oczywiście istnieją inne bardzo ważne merytoryczne powody, aby wykluczyć zmienną, np. Może to być spowodowane wynikiem.
źródło
Z twojego sformułowania brzmi to tak, jakbyś był skłonny upuścić ostatni predyktor, ponieważ jego wartość predykcyjna jest niska; istotna zmiana tego predyktora nie oznaczałaby istotnej zmiany zmiennej odpowiedzi. Jeśli tak, to podoba mi się to kryterium włączenia / upuszczenia predyktora. Jest bardziej zakorzeniony w praktycznej rzeczywistości niż może być AIC lub BIC i bardziej zrozumiały dla twoich odbiorców dla tych badań.
źródło