Załóżmy, że jesteś badaczem nauk społecznych / ekonometrycznym próbującym znaleźć odpowiednie predyktory zapotrzebowania na usługę. Masz 2 zmienne wynikowe / zależne opisujące zapotrzebowanie (za pomocą usługi tak / nie i liczby okazji). Masz 10 zmiennych predykcyjnych / niezależnych, które mogłyby teoretycznie wyjaśnić popyt (np. Wiek, płeć, dochód, cena, rasę itp.). Uruchomienie dwóch oddzielnych regresji wielokrotnych da 20 oszacowań współczynników i ich wartości p. Przy wystarczającej liczbie zmiennych niezależnych w regresach prędzej czy później znajdziesz przynajmniej jedną zmienną ze statystycznie istotną korelacją między zmiennymi zależnymi i niezależnymi.
Moje pytanie: czy dobrym pomysłem jest poprawienie wartości p dla wielu testów, jeśli chcę uwzględnić w regresji wszystkie zmienne niezależne? Wszelkie odniesienia do wcześniejszych prac są bardzo mile widziane.
źródło
Odpowiedzi:
Wydaje się, że twoje pytanie bardziej ogólnie dotyczy problemu identyfikacji dobrych predyktorów. W takim przypadku należy rozważyć zastosowanie pewnego rodzaju regresji karnej ( odpowiednie są również metody dotyczące wyboru zmiennych lub cech ), np. Z karami L1, L2 (lub ich kombinacją, tak zwaną elastyczną siecią ) (poszukaj powiązanych pytań dotyczących ta strona lub R karane i elasticnet pakiet, między innymi).
Teraz, jeśli chodzi o korygowanie wartości p dla współczynników regresji (lub równoważnie współczynników częściowej korelacji) w celu ochrony przed nadmiernym optymizmem (np. Za pomocą Bonferroni lub, lepiej, metod obniżających), wydaje się, że byłoby to istotne tylko, jeśli rozważasz jeden model i poszukaj predyktorów, które wnoszą znaczną część wyjaśnionej wariancji, to znaczy, jeśli nie wykonasz wyboru modelu (z krokowym lub testowaniem hierarchicznym). Ten artykuł może być dobrym początkiem: korekty Bonferroniego w testach na współczynniki regresji . Należy pamiętać, że taka korekta nie ochroni Cię przed problemem wielokoliniowości, który wpływa na zgłaszane wartości p.
Biorąc pod uwagę twoje dane, zaleciłbym użycie pewnego rodzaju iteracyjnych technik wyboru modelu. Na przykład w RR2
stepAIC
funkcja pozwala na stopniowy wybór modelu według dokładnego AIC. Możesz także oszacować względne znaczenie swoich predyktorów na podstawie ich wkładu w za pomocą boostrap (zobacz pakiet relaimpo ). Myślę, że miara wielkości efektu raportowania lub% wyjaśnionej wariancji ma więcej informacji niż wartość p, szczególnie w modelu potwierdzającym.Należy zauważyć, że podejścia krokowe mają również swoje wady (np. Testy Walda nie są dostosowane do hipotezy warunkowej wywołanej przez procedurę krokową), lub jak wskazał Frank Harrell w mailingu R , „krokowa selekcja zmiennych oparta na AIC ma wszystkie problemy z krokowym wyborem zmiennych w oparciu o wartości P. AIC jest tylko ponownym przekształceniem wartości P. ”(ale AIC pozostaje użyteczne, jeśli zbiór predyktorów jest już zdefiniowany); powiązane pytanie - czy zmienna jest znacząca w modelu regresji liniowej? - podniósł ciekawe komentarze ( między innymi @Rob ) na temat wykorzystania AIC do selekcji zmiennych. Na końcu dołączam kilka odnośników (w tym artykuły dostarczone przez @Stephan); istnieje również wiele innych odniesień na P.Mean .
Frank Harrell jest autorem książki o strategii modelowania regresji, która zawiera wiele dyskusji i porad dotyczących tego problemu (§ 4.3, s. 56–60). Opracował również wydajne procedury R do obsługi uogólnionych modeli liniowych (patrz Pakiety projektowe lub rms ). Myślę więc, że zdecydowanie musisz na to rzucić okiem (jego materiały informacyjne są dostępne na jego stronie głównej).
Bibliografia
step.adj()
w pakiecie R someMTP .źródło
W znacznym stopniu możesz robić, co chcesz, pod warunkiem, że losowo wybierzesz wystarczającą ilość danych, aby przetestować dowolny model, który stworzysz na podstawie zachowanych danych. Podział 50% może być dobrym pomysłem. Tak, tracisz zdolność wykrywania związków, ale to, co zyskujesz, jest ogromne; mianowicie możliwość replikacji pracy przed jej opublikowaniem. Bez względu na to, jak wyrafinowane są techniki statystyczne, będziesz zaskoczony, jak wiele „znaczących” predyktorów jest całkowicie bezużytecznych po zastosowaniu do danych potwierdzających.
Należy również pamiętać, że „istotne” dla prognozowania oznacza więcej niż niską wartość p. To w końcu oznacza tylko, że prawdopodobnie związek znaleziony w tym konkretnym zestawie danych nie wynika z przypadku. Do prognozowania ważniejsze jest znalezienie zmiennych, które wywierają znaczący wpływ na predykcję (bez nadmiernego dopasowania modelu); to znaczy, aby znaleźć zmienne, które mogą być „rzeczywiste”, a gdy są zmienne w rozsądnym zakresie wartości (nie tylko wartości, które mogą wystąpić w twojej próbce!), powodują znaczne różnice w przewidywaniu i przewidywalności. Gdy masz dane wstrzymujące do potwierdzenia modelu, możesz być bardziej komfortowo tymczasowo przechowując nieznacznie „znaczące” zmienne, które mogą nie mieć niskich wartości p.
Z tych powodów (i w oparciu o dobrą odpowiedź chl), chociaż uważam, że modele krokowe, porównania AIC i korekty Bonferroniego są całkiem przydatne (szczególnie przy setkach lub tysiącach możliwych predyktorów w grze), nie powinny one być jedynymi wyznacznikami, które zmienne wprowadź swój model. Nie trać też z oczu wskazówek, jakie daje teoria: zmienne mające silne teoretyczne uzasadnienie, aby znaleźć się w modelu, zwykle powinny być zachowane, nawet jeśli nie są znaczące, pod warunkiem, że nie tworzą źle uwarunkowanych równań ( np. Kolinearność) .
Uwaga : po ustaleniu modelu i potwierdzeniu jego przydatności z danymi dotyczącymi wstrzymania, można ponownie połączyć zatrzymane dane z danymi wstrzymania w celu ostatecznego oszacowania. Zatem nic nie jest stracone pod względem precyzji, z jaką można oszacować współczynniki modelu.
źródło
Myślę, że to bardzo dobre pytanie; dociera do sedna spornego „problemu” wielokrotnego testowania, który nęka dziedziny od epidemiologii po ekonometrię. Po tym wszystkim, w jaki sposób można się dowiedzieć, czy znaczenie znajdujemy jest fałszywy czy nie? Jak prawdziwy jest nasz model wielowymiarowy?
Jeśli chodzi o techniczne podejście do wyrównania prawdopodobieństwa opublikowania zmiennych hałasu, serdecznie zgodziłbym się z „whuber”, że użycie części próbki jako danych treningowych, a reszty jako danych testowych, jest dobrym pomysłem. To podejście jest omawiane w literaturze technicznej, więc jeśli poświęcisz trochę czasu, prawdopodobnie znajdziesz dobre wytyczne dotyczące tego, kiedy i jak z niego korzystać.
Aby jednak bardziej bezpośrednio odnieść się do filozofii wielokrotnych testów, sugeruję przeczytanie artykułów, do których się odwołuję poniżej, z których niektóre potwierdzają stanowisko, że dostosowanie do wielokrotnych testów jest często szkodliwe (siła kosztów), niepotrzebne, a może nawet być logicznym błędem . Z jednej strony nie akceptuję automatycznie twierdzenia, że nasza zdolność do badania jednego potencjalnego predyktora jest nieuchronnie ograniczona przez badanie innego. Rodzina mądry Type 1 stopa błędów może wzrosnąć ponieważ zawierają więcej czynników predykcyjnych w danym modelu, ale tak długo, jak nie wykraczają poza granice naszej wielkości próby, prawdopodobieństwo błędu typu 1 dla każdej osobypredyktor jest stały; a kontrolowanie błędu rodzinnego nie oświeca, która konkretna zmienna jest szumem, a która nie. Oczywiście istnieją również przekonujące kontrargumenty.
Tak więc, dopóki ograniczysz listę potencjalnych zmiennych do tych, które są prawdopodobne (tj. Znałyby ścieżki do wyniku), ryzyko fałszywości jest już dość dobrze obsługiwane.
Dodałbym jednak, że model predykcyjny nie dotyczy tak „wartości prawdziwości” jego predyktorów, jak model przyczynowy ; w modelu może występować wiele nieporozumień, ale dopóki wyjaśniamy duży stopień wariancji, nie martwimy się zbytnio. Ułatwia to pracę, przynajmniej w jednym sensie.
Twoje zdrowie,
Brenden, konsultant biostatystyczny
PS: możesz chcieć wykonać zerowaną regresję Poissona dla opisywanych danych, zamiast dwóch osobnych regresji.
źródło
Tutaj są dobre odpowiedzi. Pozwolę sobie dodać kilka drobnych punktów, których nigdzie indziej nie widzę.
Po pierwsze, jaka jest natura zmiennych odpowiedzi? Mówiąc dokładniej, czy są one rozumiane jako powiązane ze sobą? Powinieneś zrobić dwie oddzielne wielokrotne regresje tylko wtedy, gdy są one rozumiane jako niezależne (teoretycznie) / jeśli reszty z dwóch modeli są niezależne (empirycznie). W przeciwnym razie należy rozważyć regresję wielowymiarową. („Wielowymiarowy” oznacza> 1 zmienną odpowiedzi; „wielokrotność” oznacza> 1 zmienną predykcyjną.)
Inną rzeczą, o której należy pamiętać, jest to, że model jest wyposażony w globalny test , który jest jednoczesnym testem wszystkich predyktorów. Możliwe jest, że globalny test jest „nieistotny”, podczas gdy niektóre indywidualne predyktory wydają się „znaczące”. To powinno dać ci przerwę, jeśli tak się stanie. Z drugiej strony, jeśli test globalny sugeruje, że przynajmniej niektóre predyktory są ze sobą powiązane, daje to pewną ochronę przed problemem wielokrotnych porównań (tj. Sugeruje, że nie wszystkie wartości zerowe są prawdziwe).F
źródło
Możesz wykonać pozornie niepowiązaną regresję i użyć testu F. Umieść swoje dane w takiej formie:
tak, że predyktory dla pierwszego wyniku mają swoje wartości, gdy ten wynik jest zmienną y, a 0 w przeciwnym razie i odwrotnie. Więc twoje y jest listą obu wyników. P11 i P12 są dwoma predyktorami dla pierwszego wyniku, a P21 i P22 są dwoma predyktorami dla drugiego wyniku. Jeśli seks, powiedzmy, jest predyktorem dla obu wyników, jego użycie do przewidywania wyniku 1 powinno znajdować się w osobnej zmiennej / kolumnie podczas przewidywania wyniku 2. To pozwala twojej regresji mieć różne nachylenie / wpływ na seks dla każdego wyniku.
W tej strukturze możesz użyć standardowych procedur testowania F.
źródło