Wykonuję wielokrotną regresję liniową. Mam 21 obserwacji i 5 zmiennych. Moim celem jest po prostu znalezienie relacji między zmiennymi
- Czy moje dane są wystarczające do przeprowadzenia wielokrotnej regresji?
Wynik testu t ujawnił, że 3 z moich zmiennych nie są znaczące. Czy muszę ponownie wykonać regresję ze znaczącymi zmiennymi (czy moja pierwsza regresja wystarczy, aby dojść do wniosku)? Moja macierz korelacji jest następująca
var 1 var 2 var 3 var 4 var 5 Y var 1 1.0 0.0 0.0 -0.1 -0.3 -0.2 var 2 0.0 1.0 0.4 0.3 -0.4 -0.4 var 3 0.0 0.4 1.0 0.7 -0.7 -0.6 var 4 -0.1 0.3 0.7 1.0 -0.7 -0.9 var 5 -0.3 -0.4 -0.7 -0.7 1.0 0.8 Y -0.2 -0.4 -0.6 -0.9 0.8 1.0
var 1 i var 2 są zmiennymi ciągłymi, a var 3 do 5 są zmiennymi kategorialnymi, a y jest moją zmienną zależną.
Należy wspomnieć o ważnej zmiennej, która została rozważona w literaturze jako najbardziej wpływowy czynnik na moją zmienną zależną, nie znajduje się również wśród moich zmiennych regresji z powodu moich ograniczeń danych. Czy nadal ma sens przeprowadzanie regresji bez tej ważnej zmiennej?
oto mój przedział ufności
Varibales Regression Coefficient Lower 95% C.L. Upper 95% C.L.
Intercept 53.61 38.46 68.76
var 1 -0.39 -0.97 0.19
var 2 -0.01 -0.03 0.01
var 3 5.28 -2.28 12.84
var 4 -27.65 -37.04 -18.26
**var 5 11.52 0.90 22.15**
Odpowiedź na ogólne pytanie jest taka, że zależy to od wielu czynników, z których głównymi jest (1) liczba zmiennych towarzyszących (2) wariancja szacunków i reszt. Przy małej próbce nie masz dużej mocy, aby wykryć różnicę od 0. Więc przyjrzałbym się szacunkowej wariancji parametrów regresji. Z mojego doświadczenia z regresją wynika, że 21 obserwacji z 5 zmiennymi to za mało danych, aby wykluczyć zmienne. Więc nie byłbym tak szybki, aby wyrzucać zmienne ani zbytnio się zakochać w tych, które wydają się znaczące. Najlepszą odpowiedzią jest poczekanie, aż będzie o wiele więcej danych. Czasami jest to łatwe do powiedzenia, ale trudne do zrobienia. Chciałbym spojrzeć na regresję krokową, regresję do przodu i do tyłu, aby zobaczyć, które zmienne zostaną wybrane. Jeśli zmienne towarzyszące są wysoce skorelowane, może to wskazywać na bardzo różne zestawy wybranych zmiennych. Rozpocznij procedurę wyboru modelu, ponieważ ujawni to wrażliwość wyboru zmiennych na zmiany danych. Należy obliczyć macierz korelacji dla zmiennych towarzyszących. Może Frank Harrell się tym zajmie. Jest prawdziwym ekspertem w doborze zmiennych. Myślę, że przynajmniej zgodziłby się ze mną, że nie powinieneś wybierać ostatecznego modelu opartego wyłącznie na tych 21 punktach danych.
źródło