Mam pytanie, które moim zdaniem będzie dość proste dla wielu użytkowników.
Używam modeli regresji liniowej, aby (i) zbadać związek kilku zmiennych objaśniających i mojej zmiennej odpowiedzi oraz (ii) przewidzieć moją zmienną odpowiedzi za pomocą zmiennych objaśniających.
Wydaje się, że jedna szczególna zmienna objaśniająca X ma znaczący wpływ na moją zmienną odpowiedzi. W celu przetestowania wartości dodanej tej zmiennej objaśniającej X na potrzeby przewidywań mojej zmiennej odpowiedzi poza próbą zastosowałem dwa modele: model (a), który wykorzystał wszystkie zmienne objaśniające, i model (b), który wykorzystał wszystkie zmienne oprócz zmiennej X. W przypadku obu modeli zgłaszam wyłącznie wyniki poza próbą. Wygląda na to, że oba modele zachowują się prawie tak samo dobrze. Innymi słowy, dodanie zmiennej objaśniającej X nie poprawia przewidywań poza próbą. Zauważ, że użyłem również modelu (a), tj. Modelu ze wszystkimi zmiennymi objaśniającymi, aby stwierdzić, że zmienna objaśniająca X ma znaczący wpływ na moją zmienną odpowiedzi.
Moje pytanie brzmi: jak zinterpretować to odkrycie? Bezpośredni wniosek jest taki, że chociaż zmienna X wydaje się znacząco wpływać na moją zmienną odpowiedzi za pomocą modeli wnioskowania, nie poprawia ona przewidywań poza próbą. Mam jednak problem z dalszym wyjaśnieniem tego odkrycia. Jak to możliwe i jakie są wyjaśnienia tego odkrycia?
Z góry dziękuję!
Informacje dodatkowe: przy „znaczącym wpływie” mam na myśli to, że 0 nie jest uwzględnione w najwyższym 95% przednim przedziale gęstości szacunku parametru (im stosując podejście bayesowskie). W kategoriach częstych odpowiada to mniej więcej wartości p niższej niż 0,05. Używam tylko rozproszonych (nieinformacyjnych) priorów dla wszystkich parametrów moich modeli. Moje dane mają strukturę podłużną i zawierają łącznie około 7000 obserwacji. Do prognoz poza próbą wykorzystałem 90% danych, aby dopasować je do moich modeli, a 10% danych do oceny modeli przy użyciu wielu replikacji. Oznacza to, że przeprowadziłem wielokrotny test pociągu i ostatecznie podałem średnie wskaźniki wydajności.
Odpowiedzi:
Kiedy dany predyktor jest statystycznie istotny, tak naprawdę nie oznacza to, że znacznie poprawia wydajność predykcyjną modelu. Wydajność predykcyjna jest bardziej związana z rozmiarem efektu. Jako przykład, funkcja poniżej danych symuluje z modelu regresji liniowej z dwoma czynnikami prognostycznymiR2
x1
ix2
, i mieści dwa modele jednego z obydwomax1
, ax2
, a drugax1
sama. W funkcji możesz zmienić rozmiar efektux2
. Funkcja zgłasza przedziały ufności dla współczynnikówx1
ix2
oraz wartości dwóch modeli jako miarę wydajności predykcyjnej.Funkcja to:
Jako przykład, dla wartości domyślnych, które otrzymujemy,
x2
Jest to więc znaczące i nieuwzględnienie go w modelu ma duży wpływ na .Ale jeśli ustawimy wielkość efektu na 0.3, otrzymamy:
Współczynnik jest nadal znaczący, ale poprawa jest bardzo niewielka.R2
źródło
Jest to dość normalna rzecz w przypadku regresji wielokrotnej. Najczęstszym powodem jest to, że twoje predyktory są ze sobą powiązane. Innymi słowy, można wywnioskować X na podstawie wartości innych predyktorów. Dlatego, chociaż jest przydatny do przewidywań, jeśli jest to jedyny predyktor, który masz, kiedy już masz wszystkie inne predyktory, nie zapewnia on zbyt wielu dodatkowych informacji. Możesz sprawdzić, czy tak jest, regresując X na innych predyktorach. Chciałbym również odnieść się do rozdziału dotyczącego regresji liniowej w darmowym podręczniku online, Elementy uczenia statystycznego.
źródło