Obecnie pracuję nad zbudowaniem modelu przy użyciu wielokrotnej regresji liniowej. Po manipulowaniu moim modelem nie jestem pewien, jak najlepiej określić, które zmienne zachować, a które usunąć.
Mój model zaczął się od 10 predyktorów dla DV. Przy zastosowaniu wszystkich 10 predyktorów cztery zostały uznane za znaczące. Jeśli usunę tylko niektóre z oczywiście niepoprawnych predyktorów, niektóre z moich predyktorów, które początkowo nie były znaczące, staną się znaczące. Co prowadzi mnie do pytania: w jaki sposób można określić, które predyktory należy uwzględnić w ich modelu? Wydawało mi się, że należy raz uruchomić model ze wszystkimi predyktorami, usunąć te, które nie są znaczące, a następnie ponownie uruchomić. Ale jeśli usunięcie tylko niektórych z tych predyktorów czyni inne znaczącymi, pozostawiam pytanie, czy podchodzę do tego źle.
Uważam, że ten wątek jest podobny do mojego pytania, ale nie jestem pewien, czy poprawnie interpretuję dyskusję. Być może jest to bardziej eksperymentalny temat projektowania, ale może ktoś ma doświadczenie, którym może się podzielić.
Odpowiedzi:
Na podstawie twojej reakcji na mój komentarz:
Szukasz prognozy. Dlatego tak naprawdę nie powinieneś polegać na (nie) znaczeniu współczynników. Lepiej byś to zrobił
Wrt każdy interesujący model : tutaj leży całkiem niezły haczyk. Z 10 potencjalnymi predyktorami, to jest mnóstwo potencjalnych modeli. Jeśli masz na to czas lub procesory (lub jeśli Twoje dane są wystarczająco małe, aby modele były odpowiednio dopasowane i ocenione): przygotuj piłkę. Jeśli nie, możesz to zrobić przez wyuczone domysły, modelowanie do przodu lub do tyłu (ale przy użyciu kryterium zamiast znaczenia) lub jeszcze lepiej: użyj algorytmu, który wybiera rozsądny zestaw modeli. Jednym z algorytmów, który to robi, jest regresja karana, w szczególności regresja Lasso. Jeśli używasz R, po prostu podłącz pakiet glmnet i już jesteś gotowy.
źródło
Nie ma na to prostej odpowiedzi. Po usunięciu niektórych nieistotnych zmiennych objaśniających inne, skorelowane z nimi, mogą stać się znaczące. Nie ma w tym nic złego, ale sprawia, że wybór modelu jest przynajmniej częściowo sztuką, a nie nauką. Właśnie dlatego eksperymenty mają na celu zachowanie względem siebie zmiennych objaśniających, aby uniknąć tego problemu.
Tradycyjnie analitycy krok po kroku dodawali i odejmowali zmienne do modelu (podobnie do tego, co zrobiliście) i testowali je pojedynczo lub w małych grupach za pomocą testów t lub F. Problem polega na tym, że możesz przeoczyć pewną kombinację zmiennych, aby odjąć (lub dodać), gdzie ich połączony efekt (lub brak efektu) jest ukryty przez kolinearność.
Dzięki nowoczesnej mocy obliczeniowej możliwe jest dopasowanie wszystkich 2 ^ 10 = 1024 możliwych kombinacji zmiennych objaśniających i wybranie najlepszego modelu według jednego z wielu możliwych kryteriów, np. AIC, BIC lub mocy predykcyjnej (na przykład zdolność do przewidywania wartości testowego podzbioru danych, które oddzieliłeś od zestawu używanego do dopasowania do modelu). Jeśli jednak zamierzasz testować (domyślnie lub jawnie) 1024 modele, musisz przemyśleć swoje wartości p z klasycznego podejścia - zachowaj ostrożność ...
źródło
Jeśli interesuje Cię tylko wydajność predykcyjna, prawdopodobnie lepiej jest użyć wszystkich funkcji i użyć regresji grzbietu, aby uniknąć nadmiernego dopasowania próbki treningowej. Jest to zasadniczo rada zawarta w załączniku do monografii Millara na temat „wyboru podzbiorów w regresji” , więc ma rozsądny rodowód!
Powodem tego jest to, że jeśli wybierzesz podzbiór oparty na oszacowaniu wydajności opartym na stałej próbce danych (np. AIC, BIC, walidacja krzyżowa itp.), Kryterium wyboru będzie miało skończoną wariancję, dzięki czemu możliwe jest przewyższają same kryterium wyboru. Innymi słowy, na początku, gdy minimalizujesz kryterium wyboru, poprawi się ogólna wydajność, jednak przyjdzie moment, w którym im bardziej zmniejszysz kryterium wyboru, tym gorsza będzie generalizacja. Jeśli masz pecha, możesz łatwo skończyć z modelem regresji, który działa gorzej niż ten, który zacząłeś (tj. Model ze wszystkimi atrybutami).
Jest to szczególnie prawdopodobne, gdy zestaw danych jest mały (więc kryterium wyboru ma dużą wariancję) i gdy istnieje wiele możliwych wyborów modelu (np. Wybór kombinacji cech). Wydaje się, że regularyzacja jest mniej podatna na nadmierne dopasowanie, ponieważ jest to parametr skalarowy, który należy dostosować, co daje bardziej ograniczony obraz złożoności modelu, tj. Mniej efektywnych stopni swobody, z którymi można by przesadzić kryterium wyboru .
źródło
Użyj biblioteki skoków. Podczas kreślenia zmiennych oś y pokazuje skorygowane R ^ 2. Patrzysz, gdzie pola są czarne przy najwyższym R ^ 2. Spowoduje to wyświetlenie zmiennych, których należy użyć do wielokrotnej regresji liniowej.
Przykład wina poniżej:
źródło
leaps
wyraźnie oblicza „najlepsze podzbiory”, chociaż nie radzi, jak wybierać spośród podzbiorów o różnych rozmiarach. (To kwestia między tobą a duchownym statystycznym.)leaps
jest to, że opiera się na „kodzie FORTRAN77 Alana Millera [...] opisanym bardziej szczegółowo w jego książce„ Subset Selection in Regression ””, książce wspomnianej przez Dikrana w innej odpowiedzi na to pytanie :-)Możesz także użyć funkcji kroku w kryterium informacyjnym Akaike. Przykład poniżej. https://en.wikipedia.org/wiki/Akaike_information_criterion
źródło
Dlaczego nie zrobić najpierw analizy korelacji, a następnie włączyć w regresji tylko te, które korelują z Dv?
źródło
Mój doradca zaproponował inny możliwy sposób rozwiązania tego problemu. Uruchom wszystkie zmienne jeden raz, a następnie usuń te, które nie spełniają pewnego progu (ustawiliśmy nasz próg na p <0,25). Kontynuuj iterację w ten sposób, aż wszystkie zmienne spadną poniżej tej wartości .25, a następnie zgłoś te wartości, które są znaczące.
źródło