Techniki selekcji zmiennych, ogólnie (krokowe, wstecz, do przodu, wszystkie podzbiory, AIC itp.), Wykorzystują przypadkowe lub losowe wzorce w przykładowych danych, które nie istnieją w populacji. Termin techniczny na to jest nadmiernie dopasowany i jest szczególnie problematyczny w przypadku małych zestawów danych, choć nie jest do nich wyłączny. Dzięki zastosowaniu procedury, która wybiera zmienne na podstawie najlepszego dopasowania, wszystkie losowe zmiany, które wyglądają jak dopasowanie w tej konkretnej próbce, przyczyniają się do oszacowań i błędów standardowych. Jest to problem zarówno dla prognozowania, jak i interpretacji modelu.
W szczególności r-kwadrat jest zbyt wysoki, a oszacowania parametrów są tendencyjne (są zbyt dalekie od 0), standardowe błędy parametrów są zbyt małe (a zatem wartości p i odstępy wokół parametrów są zbyt małe / wąskie).
Najlepszą linią obrony przed tymi problemami jest przemyślane budowanie modeli i uwzględnianie predyktorów, które mają sens na podstawie teorii, logiki i wcześniejszej wiedzy. Jeśli konieczna jest procedura wyboru zmiennej, należy wybrać metodę, która penalizuje oszacowania parametrów (metody skurczu) poprzez dostosowanie parametrów i błędów standardowych w celu uwzględnienia nadmiernego dopasowania. Niektóre typowe metody kurczenia się to regresja grzbietu, regresja najmniejszego kąta lub lasso. Ponadto weryfikacja krzyżowa przy użyciu zestawu danych szkoleniowych i zestawu danych testowych lub uśredniania modelu może być użyteczna do testowania lub zmniejszania skutków nadmiernego dopasowania.
Harrell jest doskonałym źródłem szczegółowej dyskusji na temat tych problemów. Harrell (2001). „Strategie modelowania regresji”.
W kontekście nauk społecznych, z którego pochodzę, problemem jest to, czy interesuje Cię (a) przewidywanie lub (b) testowanie ukierunkowanego pytania badawczego. Jeśli celem jest przewidywanie, odpowiednie są podejścia oparte na danych. Jeśli celem jest zbadanie ukierunkowanego pytania badawczego, ważne jest, aby rozważyć, który model regresji konkretnie testuje twoje pytanie.
Na przykład, jeśli Twoim zadaniem było wybranie zestawu testów selekcyjnych do przewidywania wydajności pracy, cel może w pewnym sensie być postrzegany jako maksymalizacja przewidywania wydajności pracy. Przydatne byłyby zatem podejścia oparte na danych.
Natomiast jeśli chcesz zrozumieć względną rolę zmiennych osobowości i zmiennych zdolności w wpływie na wydajność, bardziej odpowiednie może być podejście oparte na porównywaniu modeli.
Zazwyczaj podczas badania szczegółowych pytań badawczych celem jest wyjaśnienie podstawowych procesów przyczynowych, które działają, w przeciwieństwie do opracowania modelu z optymalną prognozą.
Gdy jestem w trakcie opracowywania modeli dotyczących procesów opartych na danych przekrojowych, uważałbym na: (a) uwzględnianie predyktorów, które teoretycznie można by traktować jako konsekwencje zmiennej wynikowej. Na przykład przekonanie osoby, że jest dobrym wykonawcą, jest dobrym prognostykiem wydajności pracy, ale jest prawdopodobne, że jest to przynajmniej częściowo spowodowane faktem, że zaobserwowała ona własne wyniki. (b) obejmujący dużą liczbę predyktorów, które odzwierciedlają te same podstawowe zjawiska. Np. W tym 20 pozycji, z których każda mierzy satysfakcję z życia na różne sposoby.
Tak więc skoncentrowane pytania badawcze opierają się w większym stopniu na wiedzy specyficznej dla danej dziedziny. To prawdopodobnie tłumaczy, dlaczego podejścia oparte na danych są rzadziej stosowane w naukach społecznych.
źródło
Nie sądzę, aby możliwe było wykonanie Bonferoniego lub podobnych poprawek w celu dostosowania wyboru zmiennych w regresji, ponieważ wszystkie testy i kroki związane z wyborem modelu nie są niezależne.
Jednym z podejść jest sformułowanie modelu przy użyciu jednego zestawu danych i wnioskowanie na podstawie innego zestawu danych. Odbywa się to poprzez prognozowanie przez cały czas, gdy mamy zestaw treningowy i zestaw testowy. Nie jest to zbyt powszechne w innych dziedzinach, prawdopodobnie dlatego, że dane są tak cenne, że chcemy wykorzystać każdą pojedynczą obserwację do wyboru modelu i wnioskowania. Jednak, jak zauważasz w swoim pytaniu, wadą jest to, że wnioskowanie jest w rzeczywistości mylące.
Istnieje wiele sytuacji, w których podejście oparte na teorii jest niemożliwe, ponieważ nie ma dobrze rozwiniętej teorii. W rzeczywistości uważam, że jest to znacznie częstsze niż przypadki, w których teoria sugeruje model.
źródło
Richard Berk ma najnowszy artykuł, w którym demonstruje poprzez symulację problemy związane z szpiegowaniem danych i wnioskami statystycznymi. Jak sugerował Rob , jest to bardziej problematyczne niż po prostu poprawianie wielu testów hipotez.
Wnioskowanie statystyczne po wyborze modelu : Richard Berk, Lawrence Brown, Linda Zhao Journal of Quantitative Criminology, tom. 26, nr 2. (1 czerwca 2010 r.), S. 217–236.
Wersja PDF tutaj
źródło
Jeśli dobrze rozumiem twoje pytanie, odpowiedzią na twój problem jest poprawienie wartości p odpowiednio do liczby hipotez.
Na przykład korekty Holma-Bonferoniego, w których sortujesz hipotezę (= różne modele) według ich wartości p i odrzucasz te z ap samller niż (pożądana wartość p / indeks).
Więcej na ten temat można znaleźć na Wikipedii
źródło