Mam klasyczny model liniowy z 5 możliwymi regresorami. Nie są ze sobą skorelowane i mają dość niską korelację z odpowiedzią. Doszedłem do modelu, w którym 3 regresory mają znaczące współczynniki dla ich statystyki t (p <0,05). Dodanie jednej lub obu pozostałych 2 zmiennych daje wartości p> 0,05 dla statystyki t, dla dodanych zmiennych. To prowadzi mnie do przekonania, że model 3 zmiennych jest „najlepszy”.
Jednak używając komendy anova (a, b) w R, gdzie a jest modelem 3 zmiennych, a b jest modelem pełnym, wartość p dla statystyki F wynosi <0,05, co mówi mi, że wolę model pełny od zmiennej 3 Model. Jak pogodzić te pozorne sprzeczności?
Dzięki PS Edytuj: Dalsze informacje. To praca domowa, więc nie będę publikować szczegółów, ale nie podajemy szczegółów tego, co reprezentują regresory - są one ponumerowane od 1 do 5. Jesteśmy proszeni o „wyprowadzenie odpowiedniego modelu, podając uzasadnienie”.
źródło
Odpowiedzi:
Problem zaczął się, gdy szukałeś zredukowanego modelu i korzystałeś z danych, a nie z wiedzy merytorycznej, aby wybrać predyktory. Krokowe wybieranie zmiennych bez jednoczesnego przesuwania się w celu ukarania za wybór zmiennych, choć często stosowane, jest podejściem niewłaściwym. Wiele o tym napisano. Nie ma powodu, aby ufać, że model z trzema zmiennymi jest „najlepszy” i nie ma powodu, aby nie używać oryginalnej listy predyktorów. Wartości P obliczone po użyciu wartości P do wyboru zmiennych są nieprawidłowe. W literaturze z zakresu obrazowania funkcjonalnego nazywa się to „podwójnym zanurzeniem”.
Oto analogia. Załóżmy, że ktoś jest zainteresowany porównywaniem 6 zabiegów, ale używa parowych testów t, aby wybrać, które zabiegi są „różne”, co skutkuje zmniejszonym zestawem 4 zabiegów. Następnie analityk sprawdza ogólną różnicę przy 3 stopniach swobody. Ten test F spowoduje napompowanie błędu typu I. Oryginalny test F z 5 df jest dość ważny.
Więcej informacji można znaleźć na stronie http://www.stata.com/support/faqs/stat/stepwise.html i regresji krokowej .
źródło
Jedna odpowiedź brzmiałaby „nie można tego zrobić bez wiedzy merytorycznej”. Niestety, prawdopodobnie dostaniesz literę F na twoim zadaniu. Chyba że byłem twoim profesorem. Wtedy otrzyma A.
Potem jest
Cóż, jeśli WIESZ (to znaczy, instruktor ci powiedział) i jeśli przez „niezależny” masz na myśli „niezwiązany z DV”, to wiesz, że najlepszy model to taki bez predyktorów, a Twoja intuicja jest prawidłowa.
źródło
Możesz spróbować przeprowadzić weryfikację krzyżową. Wybierz podzbiór próbki, znajdź „najlepszy” model dla tego podzbioru za pomocą testów F lub t, a następnie zastosuj go do pełnego zestawu danych (pełna weryfikacja krzyżowa może być bardziej skomplikowana, ale to byłby dobry początek). Pomaga to złagodzić niektóre problemy związane z testowaniem krokowym.
Zobacz notatkę na temat równań regresji skriningowej autorstwa Davida Freedmana, aby uzyskać uroczą symulację tego pomysłu.
źródło
Naprawdę podoba mi się metoda zastosowana w
caret
pakiecie: rekurencyjna eliminacja funkcji. Możesz przeczytać więcej na ten temat w winiecie , ale oto podstawowy proces:Podstawową ideą jest zastosowanie kryteriów (takich jak statystyki t) w celu wyeliminowania nieistotnych zmiennych i zobaczenia, jak to poprawia dokładność predykcyjną modelu. Całość zawijasz w pętlę ponownego próbkowania, na przykład sprawdzanie poprawności krzyżowej. Oto przykład użycia modelu liniowego do uszeregowania zmiennych w sposób podobny do opisanego przez Ciebie:
W tym przykładzie algorytm wykrywa, że istnieją 3 „ważne” zmienne, ale otrzymuje tylko 2 z nich.
źródło