Dlaczego R miałby zwracać NA jako współczynnik lm ()?

NA jako współczynnik w regresji wskazuje, że dana zmienna jest liniowo powiązana z innymi zmiennymi. W twoim przypadku oznacza to, że dla niektórych . Jeśli tak jest, to nie ma unikalnego rozwiązania regresji bez upuszczenia jednej ze zmiennych. Dodawanie będzie tylko gorsza. $Q3 = a \times Q1 + b \times Q2 + c$ $a, b, c$ $Q4$

Martin O'Leary
źródło

Zgadzam się ... wydaje się, że występuje problem z definicjami zmiennych fikcyjnych.

Dominic Comtois,

(+1). NA bardziej ogólnie oznacza, że tego współczynnika nie da się oszacować. Może się to zdarzyć z powodu dokładnej kolinearności, jak już wspomniałeś. Ale może się to również zdarzyć z powodu braku wystarczających obserwacji do oszacowania odpowiednich parametrów (np. Jeśli

). Jeśli predyktory są kategoryczne i dodajesz terminy interakcji, NA może również oznaczać, że nie ma żadnych obserwacji z tą kombinacją poziomów czynników.

p > n

$p > n$

Makro

p > n

$p > n$

Zmienne nie są powiązane liniowo, ponieważ Q3 = 1 iff Q1 = Q2 = 0. Co więcej, użycie stepAIC () i zmuszenie modelu do uwzględnienia wszystkich trzech zmiennych nie powoduje problemów. Poza tym mam około 3 razy więcej obserwacji zmiennych. Moim najlepszym przypuszczeniem jest kolinearność między Q3 a jakąś inną zmienną, która, jak sądzę, nie jest uwzględniona w stepAIC.

Fraijo,

Dlaczego R miałby zwracać NA jako współczynnik lm ()?

Odpowiedzi: