GLM po wyborze lub legalizacji modelu

12

Chciałbym zadać to pytanie w dwóch częściach. Oba dotyczą uogólnionego modelu liniowego, ale pierwszy dotyczy wyboru modelu, a drugi dotyczy regularyzacji.

Tło: Używam modeli GLM (liniowych, logistycznych, regresji gamma) zarówno do prognozowania, jak i do opisu. Kiedy odnoszę się do „ normalnych rzeczy, które robi się z regresją ”, mam na myśli głównie opis z (i) przedziałami ufności wokół współczynników, (ii) przedziałami ufności wokół prognoz i (iii) testami hipotez dotyczącymi liniowych kombinacji współczynników takich jak „jest jest różnica między leczeniem A a leczeniem B? ”.

Czy słusznie tracisz zdolność robienia tych rzeczy, stosując normalną teorię pod każdym z poniższych elementów? A jeśli tak, to czy te rzeczy są naprawdę dobre tylko dla modeli używanych do czystej prognozy?

I. Gdy GLM został dopasowany w procesie wyboru modelu (dla konkretności powiedz, że jest to procedura krokowa oparta na AIC).

II. Kiedy GLM został dopasowany metodą regularyzacji (powiedzmy używając glmnet w R).

Wydaje mi się, że w przypadku I. odpowiedź brzmi technicznie, że powinieneś użyć bootstrapu do „ normalnych rzeczy, które robi się z regresją ”, ale tak naprawdę nikt tego nie przestrzega.

Dodaj:
Po otrzymaniu kilku odpowiedzi i przeczytaniu gdzie indziej, oto moje zdanie na ten temat (dla wszystkich innych korzyści, jak również w celu otrzymania korekty).

I.
A) RE: Błąd uogólnienia. W celu uogólnienia poziomów błędów w nowych danych, gdy nie ma ustalonego wstrzymania, sprawdzanie poprawności krzyżowej może działać, ale trzeba całkowicie powtórzyć proces dla każdego zagięcia - używając zagnieżdżonych pętli - dlatego każdy wybór funkcji, dostrajanie parametrów itp. Musi być wykonywane niezależnie za każdym razem. Pomysł ten powinien dotyczyć wszelkich wysiłków związanych z modelowaniem (w tym metod karanych).

B) RE: Testowanie hipotez i przedziały ufności GLM.W przypadku korzystania z wyboru modelu (wybór funkcji, dostrajanie parametrów, wybór zmiennych) dla uogólnionego modelu liniowego i istnieje zestaw wstrzymania, można trenować model na partycji, a następnie dopasować model do pozostałych danych lub pełnego zestawu danych i użyj tego modelu / danych do przeprowadzenia testów hipotez itp. Jeśli zestaw wstrzymania nie istnieje, można użyć ładowania początkowego, o ile cały proces jest powtarzany dla każdej próbki ładowania początkowego. Ogranicza to testy hipotez, które można wykonać, ponieważ być może zmienna nie zawsze będzie na przykład wybierana.

C) RE: Nie dotyczy przewidywania przyszłych zestawów danych, a następnie dopasuj celowy model kierowany teorią i kilkoma testami hipotez, a nawet rozważ pozostawienie wszystkich zmiennych w modelu (znaczących lub nie) (na wzór Hosmera i Lemeshowa). Jest to klasyczny model regresji z małym zestawem zmiennych, a następnie pozwala na zastosowanie testu CI i testu hipotez.

D) RE: Regresja karana. Żadna rada, być może uważaj to za odpowiednie tylko do przewidywania (lub jako rodzaj wyboru funkcji, aby następnie zastosować go do innego zestawu danych, jak w punkcie B powyżej), ponieważ wprowadzone odchylenie sprawia, że ​​testy CI i hipotezy są nierozsądne - nawet w przypadku ładowania początkowego.

B_Miner
źródło
1
Ludzie czasem to robią - nieświadomie (tj. Niewłaściwie wykorzystują statystyki, ponieważ uzyskują pożądany rezultat) i świadomie (zrobili bootstrap i nie wpłynęło to znacząco na wynik). Twój punkt widzenia jest ważny, a profesor Harrell podkreśla to we wstępie do swojej książki, że bootstrap jest korzystny.
suncoolsu
1
Oto coś w rodzaju „tak” dla twojego punktu (II): arxiv.org/abs/1001.0188
Alex

Odpowiedzi:

5

Możesz przeczytać artykuł Davida Freedmana „ Uwaga na temat równania regresji skriningowej.

Wykorzystując całkowicie nieskorelowane dane w symulacji, pokazuje, że jeśli istnieje wiele predyktorów w stosunku do liczby obserwacji, wówczas standardowa procedura przesiewowa wytworzy końcową regresję, która zawiera wiele (więcej niż przez przypadek) znaczących predyktorów i bardzo istotny F Statystyczny. Ostateczny model sugeruje, że jest skuteczny w przewidywaniu wyniku, ale ten sukces jest fałszywy. Ilustruje również te wyniki za pomocą obliczeń asymptotycznych. Sugerowane rozwiązania obejmują badanie przesiewowe na próbce i ocenę modelu na pełnym zbiorze danych oraz wykorzystanie przynajmniej o rząd wielkości więcej obserwacji niż predyktorów.

Charlie
źródło
Uwaga: Aby bootstrap był skutecznym rozwiązaniem, będziesz musiał załadować całą procedurę, zaczynając przed jakimkolwiek screeningiem, przeskanuj próbkę bootstrap, a następnie oblicz współczynniki. Ale teraz masz różne zestawy predyktorów w każdej regresji i nie jest już jasne, jak obliczyć rozkład dla jednego z nich. Jednak przedziały ufności ładowania dla przewidywanych wartości wyniku mogą być skuteczne.
Charlie
@charlie: [Czy dobrze przeczytałem, że mówisz tylko do I. (wybór modelu), a nie do II. (ukarany)] Czy mówisz, że w przypadku przedziałów predykcji ważne jest, aby użyć wyboru modelu, a następnie uruchomić prognozy z tego modelu, ale w przypadku czegokolwiek innego musisz uruchomić cały proces?
B_Miner
@charlie Odnośnie sugerowanego rozwiązania badania przesiewowego na próbce. Czy byłoby to zgodne z zasadami podziału danych, (ab) przy użyciu jednego zestawu (wybór modelu itp.), A następnie zastosowania tego modelu do pozostałych danych - i na tych danych z modelem, który był dopasowany przy użyciu tradycyjnej teorii do testów hipotez, CI itp?
B_Miner
Myślałem tylko o wyborze modelu, ale głównie dlatego, że nie wiem aż tak dużo o regresji karanej. Powiedziałbym, że musisz przeładować cały proces, aby wyciągnąć wnioski na temat prognoz z modelu. Cały problem polega na tym, że w jednej próbce prawdopodobnie znajdziesz fałszywe korelacje, które powiększają się, gdy uwzględnisz niektóre zmienne, a inne pominiesz. Jedynym sposobem obejścia tego jest obejrzenie wielu próbek --- tzn. Bootstrap. Oczywiście nikt tego nie robi.
Charlie
Tak, używasz jednej partycji próbki, aby wymyślić swój model przy użyciu procedur wyboru modelu, a następnie wnioskować na drugiej partycji lub na pełnej próbce.
Charlie,
2

Odnośnie 1) Tak, tracisz to. Patrz np. Strategie modelowania regresji Harrella, książka opublikowana przez Wiley lub artykuł, który przedstawiłem Davidowi Cassellowi zatytułowany „Stopping Stepwise” dostępny np. Www.nesug.org/proceedings/nesug07/sa/sa07.pdf

Peter Flom - Przywróć Monikę
źródło
Widziałem ten artykuł - bardzo interesujący. Dwa pytania. 1) Weźmy regresję logistyczną. Wydaje się, że jedynym sposobem na przeprowadzenie testów CI lub hipotez jest zbudowanie modelu w stylu hosmer i lemeshow (wykluczając jakiekolwiek zbiory danych z dużym p)? Pozostaje ci więc „używać” modelu tylko do oszacowań punktowych? 2) Twój artykuł omawia lasso wśród innych alternatyw. Czy uważasz, że pozwala to na późniejsze testowanie hipotez, czy też jest „po prostu” podane jako lepsza opcja wyboru modelu?
B_Miner