Kiedy można użyć kryteriów opartych na danych, aby określić model regresji?

20

Słyszałem, że gdy wiele specyfikacji modelu regresji (powiedzmy w OLS) jest rozważanych jako możliwości zestawu danych, powoduje to wiele problemów z porównaniem, a wartości p i przedziały ufności nie są już wiarygodne. Jednym z ekstremalnych przykładów jest regresja stopniowa.

Kiedy mogę użyć samych danych, aby pomóc w określeniu modelu, a kiedy nie jest to prawidłowe podejście? Czy zawsze potrzebujesz teorii merytorycznej, aby stworzyć model?

Zadowolenie
źródło

Odpowiedzi:

9

Techniki selekcji zmiennych, ogólnie (krokowe, wstecz, do przodu, wszystkie podzbiory, AIC itp.), Wykorzystują przypadkowe lub losowe wzorce w przykładowych danych, które nie istnieją w populacji. Termin techniczny na to jest nadmiernie dopasowany i jest szczególnie problematyczny w przypadku małych zestawów danych, choć nie jest do nich wyłączny. Dzięki zastosowaniu procedury, która wybiera zmienne na podstawie najlepszego dopasowania, wszystkie losowe zmiany, które wyglądają jak dopasowanie w tej konkretnej próbce, przyczyniają się do oszacowań i błędów standardowych. Jest to problem zarówno dla prognozowania, jak i interpretacji modelu.

W szczególności r-kwadrat jest zbyt wysoki, a oszacowania parametrów są tendencyjne (są zbyt dalekie od 0), standardowe błędy parametrów są zbyt małe (a zatem wartości p i odstępy wokół parametrów są zbyt małe / wąskie).

Najlepszą linią obrony przed tymi problemami jest przemyślane budowanie modeli i uwzględnianie predyktorów, które mają sens na podstawie teorii, logiki i wcześniejszej wiedzy. Jeśli konieczna jest procedura wyboru zmiennej, należy wybrać metodę, która penalizuje oszacowania parametrów (metody skurczu) poprzez dostosowanie parametrów i błędów standardowych w celu uwzględnienia nadmiernego dopasowania. Niektóre typowe metody kurczenia się to regresja grzbietu, regresja najmniejszego kąta lub lasso. Ponadto weryfikacja krzyżowa przy użyciu zestawu danych szkoleniowych i zestawu danych testowych lub uśredniania modelu może być użyteczna do testowania lub zmniejszania skutków nadmiernego dopasowania.

Harrell jest doskonałym źródłem szczegółowej dyskusji na temat tych problemów. Harrell (2001). „Strategie modelowania regresji”.

Brett
źródło
Przyjmowanie, dużo czasu później! Dziękuję za ten szczegółowy przegląd problemów technicznych, a ja spojrzę na książkę Harrella.
Statisfactions
7

W kontekście nauk społecznych, z którego pochodzę, problemem jest to, czy interesuje Cię (a) przewidywanie lub (b) testowanie ukierunkowanego pytania badawczego. Jeśli celem jest przewidywanie, odpowiednie są podejścia oparte na danych. Jeśli celem jest zbadanie ukierunkowanego pytania badawczego, ważne jest, aby rozważyć, który model regresji konkretnie testuje twoje pytanie.

Na przykład, jeśli Twoim zadaniem było wybranie zestawu testów selekcyjnych do przewidywania wydajności pracy, cel może w pewnym sensie być postrzegany jako maksymalizacja przewidywania wydajności pracy. Przydatne byłyby zatem podejścia oparte na danych.

Natomiast jeśli chcesz zrozumieć względną rolę zmiennych osobowości i zmiennych zdolności w wpływie na wydajność, bardziej odpowiednie może być podejście oparte na porównywaniu modeli.

Zazwyczaj podczas badania szczegółowych pytań badawczych celem jest wyjaśnienie podstawowych procesów przyczynowych, które działają, w przeciwieństwie do opracowania modelu z optymalną prognozą.

Gdy jestem w trakcie opracowywania modeli dotyczących procesów opartych na danych przekrojowych, uważałbym na: (a) uwzględnianie predyktorów, które teoretycznie można by traktować jako konsekwencje zmiennej wynikowej. Na przykład przekonanie osoby, że jest dobrym wykonawcą, jest dobrym prognostykiem wydajności pracy, ale jest prawdopodobne, że jest to przynajmniej częściowo spowodowane faktem, że zaobserwowała ona własne wyniki. (b) obejmujący dużą liczbę predyktorów, które odzwierciedlają te same podstawowe zjawiska. Np. W tym 20 pozycji, z których każda mierzy satysfakcję z życia na różne sposoby.

Tak więc skoncentrowane pytania badawcze opierają się w większym stopniu na wiedzy specyficznej dla danej dziedziny. To prawdopodobnie tłumaczy, dlaczego podejścia oparte na danych są rzadziej stosowane w naukach społecznych.

Jeromy Anglim
źródło
4

Nie sądzę, aby możliwe było wykonanie Bonferoniego lub podobnych poprawek w celu dostosowania wyboru zmiennych w regresji, ponieważ wszystkie testy i kroki związane z wyborem modelu nie są niezależne.

Jednym z podejść jest sformułowanie modelu przy użyciu jednego zestawu danych i wnioskowanie na podstawie innego zestawu danych. Odbywa się to poprzez prognozowanie przez cały czas, gdy mamy zestaw treningowy i zestaw testowy. Nie jest to zbyt powszechne w innych dziedzinach, prawdopodobnie dlatego, że dane są tak cenne, że chcemy wykorzystać każdą pojedynczą obserwację do wyboru modelu i wnioskowania. Jednak, jak zauważasz w swoim pytaniu, wadą jest to, że wnioskowanie jest w rzeczywistości mylące.

Istnieje wiele sytuacji, w których podejście oparte na teorii jest niemożliwe, ponieważ nie ma dobrze rozwiniętej teorii. W rzeczywistości uważam, że jest to znacznie częstsze niż przypadki, w których teoria sugeruje model.

Rob Hyndman
źródło
4

Richard Berk ma najnowszy artykuł, w którym demonstruje poprzez symulację problemy związane z szpiegowaniem danych i wnioskami statystycznymi. Jak sugerował Rob , jest to bardziej problematyczne niż po prostu poprawianie wielu testów hipotez.

Wnioskowanie statystyczne po wyborze modelu : Richard Berk, Lawrence Brown, Linda Zhao Journal of Quantitative Criminology, tom. 26, nr 2. (1 czerwca 2010 r.), S. 217–236.

Wersja PDF tutaj

Andy W.
źródło
(+1) Dzięki za link! Możesz być zainteresowany tym powiązanym pytaniem, stats.stackexchange.com/questions/3200/… . Zapraszamy do współpracy.
chl,
@chl, nie sądzę, żebym mógł dodać coś do i tak doskonałych odpowiedzi na to pytanie. Wydaje mi się, że odpowiedź Brendana jest bardzo wzruszająca, ponieważ podejrzewam, że oryginalny plakat naprawdę interesuje się wnioskami przyczynowymi, a nie tylko przewidywaniem opartym na kontekście pytania.
Andy W
Tak, myślałem o jego odpowiedzi. Zainicjowałem refleksję na temat pogłębiania danych (nie do końca na temat kwestii wyboru modelu / zmiennych lub wnioskowania przyczynowego), ale jak dotąd otrzymałem niewiele odpowiedzi. Jeśli chcesz dodać własne pomysły, byłoby interesujące: stats.stackexchange.com/questions/3252/...
chl
2

Jeśli dobrze rozumiem twoje pytanie, odpowiedzią na twój problem jest poprawienie wartości p odpowiednio do liczby hipotez.

Na przykład korekty Holma-Bonferoniego, w których sortujesz hipotezę (= różne modele) według ich wartości p i odrzucasz te z ap samller niż (pożądana wartość p / indeks).

Więcej na ten temat można znaleźć na Wikipedii

Peter Smit
źródło
1
Być może zechcesz przeczytać tę odpowiedź na osobne pytanie i przekonać się, dlaczego dostosowanie wartości p w taki sposób może nie być najlepszym rozwiązaniem, stats.stackexchange.com/questions/3200/…
Andy W