Czy dostosowanie wartości p w regresji wielokrotnej w celu wielokrotnych porównań jest dobrym pomysłem?

54

Załóżmy, że jesteś badaczem nauk społecznych / ekonometrycznym próbującym znaleźć odpowiednie predyktory zapotrzebowania na usługę. Masz 2 zmienne wynikowe / zależne opisujące zapotrzebowanie (za pomocą usługi tak / nie i liczby okazji). Masz 10 zmiennych predykcyjnych / niezależnych, które mogłyby teoretycznie wyjaśnić popyt (np. Wiek, płeć, dochód, cena, rasę itp.). Uruchomienie dwóch oddzielnych regresji wielokrotnych da 20 oszacowań współczynników i ich wartości p. Przy wystarczającej liczbie zmiennych niezależnych w regresach prędzej czy później znajdziesz przynajmniej jedną zmienną ze statystycznie istotną korelacją między zmiennymi zależnymi i niezależnymi.

Moje pytanie: czy dobrym pomysłem jest poprawienie wartości p dla wielu testów, jeśli chcę uwzględnić w regresji wszystkie zmienne niezależne? Wszelkie odniesienia do wcześniejszych prac są bardzo mile widziane.

Mikael M.
źródło
hmmm ... interesujący problem - regresja dwuwariantowa z jedną zmienną [swego rodzaju] ciągłą i jedną dychotomiczną. zwykła teoria regresji MVN mówi, że oddzielne regresje dla każdej z dwóch dwuwymiarowych normalnych odpowiedzi - a następnie zebranie wyników razem - jest poprawną analizą - w sensie gaussa-markowa zminimalizowania macierzy vc estymatorów regresji wśród wszystkich obiektywnych estymatorów liniowych - i w sprawie MVN, wśród wszystkich obiektywnych estymatorów]. czy „oddzielne regresje” są nadal najlepsze, co można zrobić, gdy regresja jest logistyczna? [nieobciążoności wydaje się nieco na odcinku w tym przypadku excep
ronaf

Odpowiedzi:

48

Wydaje się, że twoje pytanie bardziej ogólnie dotyczy problemu identyfikacji dobrych predyktorów. W takim przypadku należy rozważyć zastosowanie pewnego rodzaju regresji karnej ( odpowiednie są również metody dotyczące wyboru zmiennych lub cech ), np. Z karami L1, L2 (lub ich kombinacją, tak zwaną elastyczną siecią ) (poszukaj powiązanych pytań dotyczących ta strona lub R karane i elasticnet pakiet, między innymi).

Teraz, jeśli chodzi o korygowanie wartości p dla współczynników regresji (lub równoważnie współczynników częściowej korelacji) w celu ochrony przed nadmiernym optymizmem (np. Za pomocą Bonferroni lub, lepiej, metod obniżających), wydaje się, że byłoby to istotne tylko, jeśli rozważasz jeden model i poszukaj predyktorów, które wnoszą znaczną część wyjaśnionej wariancji, to znaczy, jeśli nie wykonasz wyboru modelu (z krokowym lub testowaniem hierarchicznym). Ten artykuł może być dobrym początkiem: korekty Bonferroniego w testach na współczynniki regresji . Należy pamiętać, że taka korekta nie ochroni Cię przed problemem wielokoliniowości, który wpływa na zgłaszane wartości p.

Biorąc pod uwagę twoje dane, zaleciłbym użycie pewnego rodzaju iteracyjnych technik wyboru modelu. Na przykład w R stepAICfunkcja pozwala na stopniowy wybór modelu według dokładnego AIC. Możesz także oszacować względne znaczenie swoich predyktorów na podstawie ich wkładu w za pomocą boostrap (zobacz pakiet relaimpo ). Myślę, że miara wielkości efektu raportowania lub% wyjaśnionej wariancji ma więcej informacji niż wartość p, szczególnie w modelu potwierdzającym.R2

Należy zauważyć, że podejścia krokowe mają również swoje wady (np. Testy Walda nie są dostosowane do hipotezy warunkowej wywołanej przez procedurę krokową), lub jak wskazał Frank Harrell w mailingu R , „krokowa selekcja zmiennych oparta na AIC ma wszystkie problemy z krokowym wyborem zmiennych w oparciu o wartości P. AIC jest tylko ponownym przekształceniem wartości P. ”(ale AIC pozostaje użyteczne, jeśli zbiór predyktorów jest już zdefiniowany); powiązane pytanie - czy zmienna jest znacząca w modelu regresji liniowej? - podniósł ciekawe komentarze ( między innymi @Rob ) na temat wykorzystania AIC do selekcji zmiennych. Na końcu dołączam kilka odnośników (w tym artykuły dostarczone przez @Stephan); istnieje również wiele innych odniesień na P.Mean .

Frank Harrell jest autorem książki o strategii modelowania regresji, która zawiera wiele dyskusji i porad dotyczących tego problemu (§ 4.3, s. 56–60). Opracował również wydajne procedury R do obsługi uogólnionych modeli liniowych (patrz Pakiety projektowe lub rms ). Myślę więc, że zdecydowanie musisz na to rzucić okiem (jego materiały informacyjne są dostępne na jego stronie głównej).

Bibliografia

  1. Whittingham, MJ, Stephens, P, Bradbury, RB i Freckleton, RP (2006). Dlaczego nadal stosujemy modelowanie krokowe w ekologii i zachowaniu? Journal of Animal Ecology , 75 , 1182-1189.
  2. Austin, PC (2008). Wybór modelu Bootstrap miał podobną wydajność do wybierania zmiennych autentycznych i szumowych w porównaniu do eliminacji zmiennych wstecznych: badanie symulacyjne . Journal of Clinical Epidemiology , 61 (10) , 1009-1017.
  3. Austin, PC i Tu, JV (2004). Zautomatyzowane metody selekcji zmiennych dla regresji logistycznej stworzyły niestabilne modele do przewidywania śmiertelności z powodu zawału mięśnia sercowego . Journal of Clinical Epidemiology , 57 , 1138–1146.
  4. Greenland, S (1994). Hierarchiczna regresja dla analiz epidemiologicznych wielokrotnych ekspozycji . Environmental Health Perspectives , 102 (Suppl 8) , 33–39.
  5. Grenlandia, S (2008). Wielokrotne porównania i wybór asocjacji w ogólnej epidemiologii . International Journal of Epidemiology , 37 (3) , 430–434.
  6. Beyene, J, Atenafu, EG, Hamid, JS, To, T i Sung L (2009). Określanie względnego znaczenia zmiennych w opracowywaniu i zatwierdzaniu modeli predykcyjnych . BMC Medical Research Methodology , 9 , 64.
  7. Bursac, Z, Gauss, CH, Williams, DK i Hosmer, DW (2008). Celowy wybór zmiennych w regresji logistycznej . Kod źródłowy dla biologii i medycyny , 3 , 17.
  8. Brombin, C, Finos, L i Salmaso, L (2007). Dostosowywanie stopniowych wartości p w uogólnionych modelach liniowych . Międzynarodowa konferencja nt. Wielu procedur porównawczych . - patrz step.adj()w pakiecie R someMTP .
  9. Wiegand, RE (2010). Wydajność stosowania wielu algorytmów krokowych do wyboru zmiennych . Statystyka w medycynie , 29 (15), 1647–1659.
  10. Moons KG, Donders AR, Steyerberg EW i Harrell FE (2004). Karane oszacowanie maksymalnego prawdopodobieństwa w celu przewidzenia wyników binarnych. Journal of Clinical Epidemiology , 57 (12) , 1262–1270.
  11. Tibshirani, R (1996). Skurcz regresji i selekcja poprzez lasso . Journal of The Royal Statistics Society B , 58 (1) , 267–288.
  12. Efron, B, Hastie, T, Johnstone, I i Tibshirani, R (2004). Regresja najmniejszego kąta . Annals of Statistics , 32 (2) , 407-499.
  13. Flom, PL i Cassell, DL (2007). Zatrzymywanie krok po kroku: Dlaczego krokowe i podobne metody selekcji są złe i czego powinieneś użyć . Postępowania NESUG 2007 .
  14. Shtatland, ES, Cain, E. i Barton, MB (2001). Niebezpieczeństwa związane ze stopniową regresją logistyczną i sposoby ich ucieczki przy użyciu kryteriów informacyjnych i systemu dostarczania wyników . SUGI 26 Postępowania (str. 222–226).
chl
źródło
10
Nie mam nic przeciwko przegłosowaniu, ale komentarz byłby mile widziany (dzięki czemu mogę się nauczyć, zrozumieć, co było nie tak i poprawić moje przyszłe odpowiedzi).
chl
3
+1, dobra odpowiedź, a także przekazanie komentarza chl o pozostawieniu wyjaśnienia głosów negatywnych, aby pomóc zarówno autorowi, jak i czytelnikom zrozumieć, czego może brakować. Dzięki.
ars
Po drugie zalecam chl, aby użyć pewnego rodzaju regresji karnej (np. Lasso).
S. Kolassa - Przywróć Monikę
10
@chl: Nie jestem zadowolony z zalecania stopniowego wyboru predyktora. Zwykle opiera się to na wartościach p („wyklucz predyktor z p> 0,15, włącz go, jeśli p <.05”) i prowadzi do stronniczych szacunków i złych wyników predykcyjnych (Whittingham i in., 2006, Dlaczego nadal zastosować modelowanie krokowe w ekologii i zachowaniu? J Anim Ecol, 75, 1182-1189). Jednak podejścia krokowe oparte na AIC mają tę samą słabość - Frank Harrell omówił to w poście do R-help w poniedziałek, 09 sierpnia 2010 16:34:19 -0500 (CDT) w wątku „Regresja logistyczna w R (SAS - jak wyjście) ”.
S. Kolassa - Przywróć Monikę
Czy jest jakiś sposób na umieszczenie linków w komentarzach?
S. Kolassa - Przywróć Monikę
25

W znacznym stopniu możesz robić, co chcesz, pod warunkiem, że losowo wybierzesz wystarczającą ilość danych, aby przetestować dowolny model, który stworzysz na podstawie zachowanych danych. Podział 50% może być dobrym pomysłem. Tak, tracisz zdolność wykrywania związków, ale to, co zyskujesz, jest ogromne; mianowicie możliwość replikacji pracy przed jej opublikowaniem. Bez względu na to, jak wyrafinowane są techniki statystyczne, będziesz zaskoczony, jak wiele „znaczących” predyktorów jest całkowicie bezużytecznych po zastosowaniu do danych potwierdzających.

Należy również pamiętać, że „istotne” dla prognozowania oznacza więcej niż niską wartość p. To w końcu oznacza tylko, że prawdopodobnie związek znaleziony w tym konkretnym zestawie danych nie wynika z przypadku. Do prognozowania ważniejsze jest znalezienie zmiennych, które wywierają znaczący wpływ na predykcję (bez nadmiernego dopasowania modelu); to znaczy, aby znaleźć zmienne, które mogą być „rzeczywiste”, a gdy są zmienne w rozsądnym zakresie wartości (nie tylko wartości, które mogą wystąpić w twojej próbce!), powodują znaczne różnice w przewidywaniu i przewidywalności. Gdy masz dane wstrzymujące do potwierdzenia modelu, możesz być bardziej komfortowo tymczasowo przechowując nieznacznie „znaczące” zmienne, które mogą nie mieć niskich wartości p.

Z tych powodów (i w oparciu o dobrą odpowiedź chl), chociaż uważam, że modele krokowe, porównania AIC i korekty Bonferroniego są całkiem przydatne (szczególnie przy setkach lub tysiącach możliwych predyktorów w grze), nie powinny one być jedynymi wyznacznikami, które zmienne wprowadź swój model. Nie trać też z oczu wskazówek, jakie daje teoria: zmienne mające silne teoretyczne uzasadnienie, aby znaleźć się w modelu, zwykle powinny być zachowane, nawet jeśli nie są znaczące, pod warunkiem, że nie tworzą źle uwarunkowanych równań ( np. Kolinearność) .

Uwaga : po ustaleniu modelu i potwierdzeniu jego przydatności z danymi dotyczącymi wstrzymania, można ponownie połączyć zatrzymane dane z danymi wstrzymania w celu ostatecznego oszacowania. Zatem nic nie jest stracone pod względem precyzji, z jaką można oszacować współczynniki modelu.

Whuber
źródło
Dzięki! Jeśli nie masz dostępu do oryginalnych danych, a jedynie tabelę współczynników regresji, czy dostosowanie Bonferroniego jest twoim jedynym wyborem?
Mikael M
4
Prawdopodobnie masz również wartości p :-). Ale mając tylko te i współczynniki, trudno sobie wyobrazić, co jeszcze możesz zrobić oprócz korekty Bonferroniego. (Zawsze dokonuję takiej korekty za każdym razem, gdy czytam dowolny artykuł z wieloma testami: jest to szybki sposób na poznanie wyników, które mogą być śmieciami.) Większość osób dostarcza również statystyki podsumowujące dla zmiennych: możesz używać zakresów lub sds wraz z współczynniki do oszacowania, jak duży wpływ każda zmienna objaśniająca może mieć na predyktor.
whuber
Dziękuję za wyjaśnienie, szczególnie. w sprawie walidacji krzyżowej. Doceniam twój ostatni argument, tzn. Że musimy także poszukać znaczenia teoretycznego (poza wartościami p).
chl
19

Myślę, że to bardzo dobre pytanie; dociera do sedna spornego „problemu” wielokrotnego testowania, który nęka dziedziny od epidemiologii po ekonometrię. Po tym wszystkim, w jaki sposób można się dowiedzieć, czy znaczenie znajdujemy jest fałszywy czy nie? Jak prawdziwy jest nasz model wielowymiarowy?

Jeśli chodzi o techniczne podejście do wyrównania prawdopodobieństwa opublikowania zmiennych hałasu, serdecznie zgodziłbym się z „whuber”, że użycie części próbki jako danych treningowych, a reszty jako danych testowych, jest dobrym pomysłem. To podejście jest omawiane w literaturze technicznej, więc jeśli poświęcisz trochę czasu, prawdopodobnie znajdziesz dobre wytyczne dotyczące tego, kiedy i jak z niego korzystać.

Aby jednak bardziej bezpośrednio odnieść się do filozofii wielokrotnych testów, sugeruję przeczytanie artykułów, do których się odwołuję poniżej, z których niektóre potwierdzają stanowisko, że dostosowanie do wielokrotnych testów jest często szkodliwe (siła kosztów), niepotrzebne, a może nawet być logicznym błędem . Z jednej strony nie akceptuję automatycznie twierdzenia, że ​​nasza zdolność do badania jednego potencjalnego predyktora jest nieuchronnie ograniczona przez badanie innego. Rodzina mądry Type 1 stopa błędów może wzrosnąć ponieważ zawierają więcej czynników predykcyjnych w danym modelu, ale tak długo, jak nie wykraczają poza granice naszej wielkości próby, prawdopodobieństwo błędu typu 1 dla każdej osobypredyktor jest stały; a kontrolowanie błędu rodzinnego nie oświeca, która konkretna zmienna jest szumem, a która nie. Oczywiście istnieją również przekonujące kontrargumenty.

Tak więc, dopóki ograniczysz listę potencjalnych zmiennych do tych, które są prawdopodobne (tj. Znałyby ścieżki do wyniku), ryzyko fałszywości jest już dość dobrze obsługiwane.

Dodałbym jednak, że model predykcyjny nie dotyczy tak „wartości prawdziwości” jego predyktorów, jak model przyczynowy ; w modelu może występować wiele nieporozumień, ale dopóki wyjaśniamy duży stopień wariancji, nie martwimy się zbytnio. Ułatwia to pracę, przynajmniej w jednym sensie.

Twoje zdrowie,

Brenden, konsultant biostatystyczny

PS: możesz chcieć wykonać zerowaną regresję Poissona dla opisywanych danych, zamiast dwóch osobnych regresji.

  1. Perneger, TV Co jest nie tak z dostosowaniami Bonferroni . BMJ 1998; 316: 1236
  2. Cook, RJ i Pożegnanie, VT Zagadnienia dotyczące różnorodności w projektowaniu i analizie badań klinicznych . Journal of Royal Statistics Society , Series A 1996; Vol. 159, nr 1: 93–110
  3. Rothman, KJ Nie ma potrzeby dokonywania korekt dla wielu porównań . Epidemiologia 1990; Vol. 1, nr 1: 43–46
  4. Marshall, JR Pogłębianie danych i godne uwagi . Epidemiologia 1990; Vol. 1, nr 1: 5-7
  5. Czasami przydatne są korekty Greenland, S. i Robins, JM Empirical-Bayes dla wielu porównań . Epidemiologia 1991; Vol. 2, nr 4: 244–251
Brenden
źródło
Ciąg dalszy: 2. Przygotuj uwagi dotyczące RJ i pożegnania VT Wielokrotność podczas projektowania i analizy badań klinicznych. Journal of Royal Statistics Society, Series A 1996; Vol. 159, nr 1: 93–110
Brenden,
Dziękuję za komentarze, Brenden, szczególnie ostatnie na temat przewidywania a wyjaśnienia przyczynowe. Witamy na stronie! Mam nadzieję, że w przyszłości zobaczę o wiele więcej.
whuber
Ciąg dalszy: 3. Rothman KJ Nie trzeba dostosowywać wielu porównań. Epidemiologia 1990; Vol. 1, nr 1: 43–46 4. Marshall JR Pogłębianie danych i godne uwagi. Epidemiologia 1990; Vol. 1, nr 1: 5-7 5. Czasem przydatne są korekty Greenland S. i Robins JM Empirical-Bayes dla wielu porównań. Epidemiologia 1991; Vol. 2, nr 4: 244–251
Brenden,
(+1) Możesz być zainteresowany następującym wątkiem: stats.stackexchange.com/questions/3252/… . Wygląda na to, że mamy wiele wspólnych linków :-)
chl
6

Tutaj są dobre odpowiedzi. Pozwolę sobie dodać kilka drobnych punktów, których nigdzie indziej nie widzę.

Po pierwsze, jaka jest natura zmiennych odpowiedzi? Mówiąc dokładniej, czy są one rozumiane jako powiązane ze sobą? Powinieneś zrobić dwie oddzielne wielokrotne regresje tylko wtedy, gdy są one rozumiane jako niezależne (teoretycznie) / jeśli reszty z dwóch modeli są niezależne (empirycznie). W przeciwnym razie należy rozważyć regresję wielowymiarową. („Wielowymiarowy” oznacza> 1 zmienną odpowiedzi; „wielokrotność” oznacza> 1 zmienną predykcyjną.)

Inną rzeczą, o której należy pamiętać, jest to, że model jest wyposażony w globalny test , który jest jednoczesnym testem wszystkich predyktorów. Możliwe jest, że globalny test jest „nieistotny”, podczas gdy niektóre indywidualne predyktory wydają się „znaczące”. To powinno dać ci przerwę, jeśli tak się stanie. Z drugiej strony, jeśli test globalny sugeruje, że przynajmniej niektóre predyktory są ze sobą powiązane, daje to pewną ochronę przed problemem wielokrotnych porównań (tj. Sugeruje, że nie wszystkie wartości zerowe są prawdziwe). F

gung - Przywróć Monikę
źródło
0

Możesz wykonać pozornie niepowiązaną regresję i użyć testu F. Umieść swoje dane w takiej formie:

Out1 1 P11 P12 0  0   0
Out2 0 0   0   1  P21 P22

tak, że predyktory dla pierwszego wyniku mają swoje wartości, gdy ten wynik jest zmienną y, a 0 w przeciwnym razie i odwrotnie. Więc twoje y jest listą obu wyników. P11 i P12 są dwoma predyktorami dla pierwszego wyniku, a P21 i P22 są dwoma predyktorami dla drugiego wyniku. Jeśli seks, powiedzmy, jest predyktorem dla obu wyników, jego użycie do przewidywania wyniku 1 powinno znajdować się w osobnej zmiennej / kolumnie podczas przewidywania wyniku 2. To pozwala twojej regresji mieć różne nachylenie / wpływ na seks dla każdego wyniku.

W tej strukturze możesz użyć standardowych procedur testowania F.

Charlie
źródło