Minimalna liczba obserwacji dla wielokrotnej regresji liniowej

12

Wykonuję wielokrotną regresję liniową. Mam 21 obserwacji i 5 zmiennych. Moim celem jest po prostu znalezienie relacji między zmiennymi

  1. Czy moje dane są wystarczające do przeprowadzenia wielokrotnej regresji?
  2. Wynik testu t ujawnił, że 3 z moich zmiennych nie są znaczące. Czy muszę ponownie wykonać regresję ze znaczącymi zmiennymi (czy moja pierwsza regresja wystarczy, aby dojść do wniosku)? Moja macierz korelacji jest następująca

           var 1   var 2    var 3   var 4   var 5     Y
    var 1   1.0     0.0       0.0   -0.1    -0.3    -0.2
    var 2   0.0     1.0       0.4    0.3    -0.4    -0.4
    var 3   0.0     0.4       1.0    0.7    -0.7    -0.6
    var 4  -0.1     0.3       0.7    1.0    -0.7    -0.9
    var 5  -0.3    -0.4      -0.7   -0.7    1.0      0.8
    Y      -0.2    -0.4      -0.6   -0.9    0.8      1.0
    

var 1 i var 2 są zmiennymi ciągłymi, a var 3 do 5 są zmiennymi kategorialnymi, a y jest moją zmienną zależną.

Należy wspomnieć o ważnej zmiennej, która została rozważona w literaturze jako najbardziej wpływowy czynnik na moją zmienną zależną, nie znajduje się również wśród moich zmiennych regresji z powodu moich ograniczeń danych. Czy nadal ma sens przeprowadzanie regresji bez tej ważnej zmiennej?

oto mój przedział ufności

    Varibales   Regression Coefficient  Lower 95% C.L.  Upper 95% C.L.
    Intercept   53.61                       38.46        68.76
    var 1       -0.39                      -0.97         0.19
    var 2       -0.01                      -0.03         0.01
    var 3        5.28                      -2.28         12.84
    var 4       -27.65                     -37.04       -18.26
    **var 5      11.52                      0.90         22.15**
Róża
źródło

Odpowiedzi:

17

Ogólna ogólna zasada (oparta na materiałach z książki Franka Harrella, Strategie modelowania regresji ) jest taka, że jeśli spodziewasz się, że będziesz w stanie wykryć efekty o rozsądnej wielkości z rozsądną mocą , potrzebujesz 10-20 obserwacji na szacowany parametr (zmienną towarzyszącą). Harrell omawia wiele opcji „redukcji wymiarów” (zmniejszenie liczby zmiennych towarzyszących do bardziej rozsądnego rozmiaru), takich jak PCA, ale najważniejsze jest to, że aby mieć pewność co do wyników, należy zmniejszyć wymiary bez patrzenia na zmienną odpowiedzi . Ponowne wykonanie regresji tylko ze znaczącymi zmiennymi, jak sugerujesz powyżej, jest prawie w każdym przypadku złym pomysłem.

Ponieważ jednak utknąłeś z zestawem danych i zestawem zmiennych towarzyszących, którymi jesteś zainteresowany, nie sądzę, aby uruchamianie regresji wielokrotnej w ten sposób było z natury złe. Myślę, że najlepszą rzeczą byłoby zaakceptowanie wyników takimi, jakie są, z pełnego modelu (nie zapomnij spojrzeć na oszacowania punktowe i przedziały ufności, aby zobaczyć, czy znaczące efekty są szacowane jako „duże” w niektórych rzeczywistych światowy sens i to, czy nieistotne skutki są faktycznie szacowane jako mniejsze niż znaczące skutki, czy nie).

Co do tego, czy ma sens robienie analizy bez predyktora, który twoje pole uważa za ważne: nie wiem. Zależy to od tego, jakie wnioski należy wyciągnąć na podstawie modelu. W wąskim znaczeniu model regresji jest nadal dobrze zdefiniowany („jakie są marginalne skutki tych predyktorów na tę odpowiedź?”), Ale ktoś w twojej dziedzinie może słusznie powiedzieć, że analiza po prostu nie ma sensu. Przydałoby się trochę, gdybyś wiedział, że posiadane przez ciebie predyktory są niepowiązane ze znanym predyktorem (cokolwiek to jest), lub że dobrze znany predyktor jest stały lub prawie stały dla twoich danych: to przynajmniej możesz to powiedzieć coś innego niż znany predyktor ma wpływ na odpowiedź.

Ben Bolker
źródło
Dzięki za komentarz, ale nie rozumiem, jaki jest sens sprawdzania przedziału ufności?
róża
Ponieważ Ben odpowiedział za Franka, odpowiem za Bena, a on może mnie poprawić, jeśli miał na myśli coś innego. Ben sugeruje użycie jsut przy użyciu pełnego modelu. Wtedy przynajmniej wiesz, że nie pozostawiłeś ważnej zmiennej z zestawu 5. Problem przeładowania może zaszkodzić prognozowaniu, ale przynajmniej masz przedziały ufności dla parametrów i możesz uzyskać przedziały ufności dla prognozy. Myślę, że to zadziała dobrze, jeśli masz problem z kolinearnością, a przedziały ufności parametrów informują, czy wartość parametru może wynosić 0.
Michael R. Chernick
Jeśli w modelu nadal brakuje istotnych zmiennych, przewidywanie może nie być dobre, a ocena dokładności prognoz na podstawie danych może być błędna. Martw się o błędną specyfikację modelu i zawsze sprawdzaj resztki. Frank Harrell jest aktywnym członkiem tej strony. Mam więc nadzieję, że to pytanie przyciągnie jego uwagę i będziemy mogli usłyszeć bezpośrednio od niego.
Michael R. Chernick
Zawsze możesz przegapić ważne zmienne i nigdy tak naprawdę nie możesz wiedzieć ... Zasugerowałem spojrzenie na przedziały ufności, ponieważ po prostu pytam, czy zmienna ma znaczenie p<0.05czy nie traci dużo informacji. Jednym ze scenariuszy byłoby, że wszystkie twoje parametry mają mniej więcej tę samą szacunkową wielkość efektu, ale ich niepewności są różne, więc niektóre są znaczące, a inne nie. Na pewno nie chcesz wnioskować w tym przypadku, że „zmienne A i B są ważne, zmienne C, D i E nie są”. CI przekażą ci te informacje.
Ben Bolker
Myślę, że z dyskusji wynika, że ​​z powodu braku wystarczającej obserwacji i braku najważniejszej zmiennej niezależnej w moim zbiorze danych muszę wyciągnąć wniosek: 1-Znaczące zmienne nie są zmienną, która przeszła test t. Istotnym jest ten, który pomyślnie przeszedł test t, a jego przedział ufności nie obejmuje 0. 2-Należy sprawdzić normalność reszt. 3-Matryca korelacji musi zostać sprawdzona.
rose
2

Odpowiedź na ogólne pytanie jest taka, że ​​zależy to od wielu czynników, z których głównymi jest (1) liczba zmiennych towarzyszących (2) wariancja szacunków i reszt. Przy małej próbce nie masz dużej mocy, aby wykryć różnicę od 0. Więc przyjrzałbym się szacunkowej wariancji parametrów regresji. Z mojego doświadczenia z regresją wynika, że ​​21 obserwacji z 5 zmiennymi to za mało danych, aby wykluczyć zmienne. Więc nie byłbym tak szybki, aby wyrzucać zmienne ani zbytnio się zakochać w tych, które wydają się znaczące. Najlepszą odpowiedzią jest poczekanie, aż będzie o wiele więcej danych. Czasami jest to łatwe do powiedzenia, ale trudne do zrobienia. Chciałbym spojrzeć na regresję krokową, regresję do przodu i do tyłu, aby zobaczyć, które zmienne zostaną wybrane. Jeśli zmienne towarzyszące są wysoce skorelowane, może to wskazywać na bardzo różne zestawy wybranych zmiennych. Rozpocznij procedurę wyboru modelu, ponieważ ujawni to wrażliwość wyboru zmiennych na zmiany danych. Należy obliczyć macierz korelacji dla zmiennych towarzyszących. Może Frank Harrell się tym zajmie. Jest prawdziwym ekspertem w doborze zmiennych. Myślę, że przynajmniej zgodziłby się ze mną, że nie powinieneś wybierać ostatecznego modelu opartego wyłącznie na tych 21 punktach danych.

Michael R. Chernick
źródło
Dziękuję za twoją sugestię. Dodałem swoją macierz korelacji. Czy uważasz, że przy tej macierzy korelacji regresja jest rozsądna? Podkreśl tylko, że nie mogę zebrać więcej danych, a także nie chcę modelować ani przewidywać. Chcę tylko znaleźć jakikolwiek możliwy związek między zmiennymi niezależnymi a zmienną zależną.
rose
Macierz korelacji ma dać ci pojęcie o kolinearności. Szacunki będą prawdopodobnie miały dużą zmienność, dlatego też nie powinno się skupiać na znaczeniu statystycznym. Ypu może przyjrzeć się diagnostyce regresji pod kątem kolinearności. To może pomóc. Ale zaleciłbym przyjrzenie się różnym modelom podzbiorów, aby zobaczyć, jak zmiany dopasowania i które kombinacje zmiennych wydają się dobrze i źle. Naprawdę myślę, że ładowanie danych pokaże ci coś o stabilności wyboru predyktorów.
Michael R. Chernick
1
Ale nic nie zrekompensuje braku danych. Myślę, że chcesz po prostu sprawdzić, czy istnieje jedna lub dwie zmienne, które wydają się stać na głowie ponad resztą. Ale możesz znaleźć cokolwiek.
Michael R. Chernick
Co dokładnie rozumiemy przez zmienne towarzyszące? Powiedzmy, że mamy zmienną predykcyjnąx, powiedzmy x2liczyć jako osobną zmienną towarzyszącą? Co powiesz nax3, x4itp. Ponieważ istnieje pewna korelacja między tymi predyktorami, przypuszczalnie ich szacunkowe współczynniki są „warte” mniej niż 1 stopień swobody. A co powiedzmy, na przykład, splajny regresji lub inną regresję lokalną: czy musimy uwzględnić fakt, że tylko podzbiór obserwacji jest wykorzystywany w konstrukcji komponentów? A jeśli użyjemy jądra do zastosowania wag do predyktorów, czy to wpłynie na efektywną liczbę zastosowanych obserwacji?
Zagubiony