Jak sprawdzić istotność statystyczną zmiennej jakościowej w regresji liniowej?

Jeśli w regresji liniowej mam zmienną kategorialną ... skąd mam poznać stastyczne znaczenie zmiennej kategorialnej?

Powiedzmy, że współczynnik ma 10 poziomów ... będzie 10 różnych wynikowych wartości t, pod parasolem jednej zmiennej czynnikowej ... $X_1$ $X_1$

Wydaje mi się, że istotność statystyczna jest testowana dla każdego poziomu zmiennej czynnikowej? Nie?

@Macro: Zgodnie z twoją sugestią zbudowałem następujący przykład:

Wygląda na to, że x3 jest przydatne i musi zostać uwzględnione w modelu na podstawie poniższego porównania modeli.

Ale tak naprawdę to źle ...

n=100    
x1=1:n
x2=(1:n)^2 
x3=rnorm(n)
ee=rnorm(n)
y=3*x1-2*x2+x3+3+ee
lm1=lm(y~x1+x2+x3)
summary(lm1)

lm2=lm(y~x1+x2) 
summary(lm2)

anova(lm1, lm2)

> anova(lm1, lm2)
Analysis of Variance Table

Model 1: y ~ x1 + x2 + x3
Model 2: y ~ x1 + x2
  Res.Df     RSS Df Sum of Sq      F    Pr(>F)    
1     96  82.782                                  
2     97 146.773 -1    -63.99 74.207 1.401e-13 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

regression statistical-significance categorical-data Luna
źródło

@Luna, dlaczego to źle? Wygląda na to, że użyłeś x3do wygenerowania ys, więc powinien zostać uwzględniony w modelu, a wartość

zgadza się z tym wnioskiem.

p

$p$

Makro

@Seth - masz rację. Podałem tylko zabawkowy przykład użycia anova ogólnie w porównaniu modeli. Nie ma to więc związku z moim pierwotnym pytaniem.

Luna,

@Macro - masz rację. Teraz rozumiem o co chodzi. Dziękuję Ci!

Luna

Funkcja „Anova” z pakietu „samochód” R ( pdf ) pozwala przetestować ogólne znaczenie zmiennej kategorialnej. Działa z wieloma różnymi pakietami i typami regresji.

SK4ndal

Masz rację, że te wartości mówią tylko, czy średnia każdego poziomu jest znacząco różna od średniej poziomu odniesienia. Dlatego mówią tylko o różnicach między parami między poziomami. Testowanie, czy predyktor jakościowy jako całość jest znaczący, jest równoważne testowaniu, czy istnieje jakakolwiek niejednorodność w średnich poziomów predyktora. Gdy w modelu nie ma innych predyktorów, jest to klasyczny problem ANOVA . $p$

Gdy w modelu występują inne predyktory. masz dwie opcje sprawdzenia znaczenia predyktora jakościowego:

(1) Test ilorazu wiarygodności: Załóżmy, że masz wynik , predyktorami ilościowe , a kategoryczne czynnikiem o poziomach. Model bez predyktora jakościowego jest $Y_i$ $X_{i1}, ..., X_{ip}$ $C_i$ $k$

Y_{i} = β_{0} + β_{1} X_{i 1} + . . . + β_{p} X_{i p} + ε_{i}

$Y_i = \beta_0 + \beta_1 X_{i1} + ... + \beta_p X_{ip} + \varepsilon_i$

W Rmożna dopasować ten model za pomocą lm()polecenia i wyodrębnić prawdopodobieństwo dziennika za pomocą logLikpolecenia. Nazwij to prawdopodobieństwo logarytmu . Następnie możesz dopasować model do predyktora jakościowego: $L_0$

Y_{i} = β_{0} + β_{1} X_{i 1} + . . . + β_{p} X_{i p} + \sum_{j = 1}^{k - 1} α_{j} B_{j} + ε_{i}

$Y_i = \beta_0 + \beta_1 X_{i1} + ... + \beta_p X_{ip} + \sum_{j=1}^{k-1} \alpha_j B_j + \varepsilon_i$

w którym jest zmienną, która jest obojętne jeśli i inaczej. Poziom jest poziomem odniesienia, dlatego suma zawiera tylko terminy . automatycznie wykona to kodowanie dla Ciebie, jeśli podasz zmienną kategorialną do . Możesz dopasować ten model podobnie i wyodrębnić prawdopodobieństwo dziennika jak wyżej. Nazwij to prawdopodobieństwo dziennika . Następnie, zgodnie z hipotezą zerową, że nie ma wpływu, $B_j$ $1$ $D_i = j$ $0$ $k$ $k-1$ Rlm() $L_1$ $D_i$

λ = 2 (L_{1} - L_{0})

$\lambda = 2 \left( L_1 - L_0 \right )$

ma rozkład z stopniami swobody. Możesz więc obliczyć wartość za pomocą in, aby sprawdzić istotność. $\chi^2$ $k-1$ $p$ 1-pchisq(2*(L1-L0),df=k-1)R

(2) Test : $F$ Bez wchodzenia w szczegóły (które są podobne do LRT, z wyjątkiem tego, że używa się sum kwadratów zamiast prawdopodobieństw logarytmicznych), wyjaśnię, jak to zrobić R. Jeśli dopasujesz model „pełny” (tj. Model ze wszystkimi predyktorami, w tym predyktorem jakościowym) przy Rużyciu lm()polecenia (nazwij to g1) i model bez predyktora jakościowego (nazwij to g0), wówczas anova(g1,g0)przetestuje tę hipotezę dla równie dobrze.

Uwaga: oba podejścia, o których tu wspomniałem, wymagają normalności błędów. Również test współczynnika prawdopodobieństwa jest bardzo ogólnym narzędziem stosowanym do porównań zagnieżdżonych, dlatego tutaj o nim wspominam (i dlaczego pojawia się najpierw), chociaż test jest bardziej znany w porównywaniu modeli regresji liniowej. $F$

Makro
źródło

Wielkie dzięki Makro. Odkryłem, że moje dane są bardzo nietypowe. Wykres QQ wygląda następująco: krzywa znajduje się poniżej prostej linii 45 stopni. Krzywa jest styczna do tej linii prostej. A krzywa wygląda jak krzywa f (x) = - x ^ 2 (pod względem kształtu). Z jakim problemem mam do czynienia? Jak mam to naprawić? Dziękuję Ci!

Luna,

@Luna, Twoje dane są bardzo nietypowe, czy reszty są wysoce nienormalne? Nie sądzę też, aby cały zestaw punktów mógł leżeć poniżej linii 45 stopni.

Makro

och, właściwie masz rację ... Jeszcze raz rzuciłem okiem na fabułę QQ. To nie cały zestaw punktów znajduje się poniżej linii 45 stopni. Jest to krzywa o kształcie f (x) = - x ^ 2 jest „styczna” do linii 45 stopni. Przez „styczną” powinienem rozumieć, że te punkty wokół punktu „stycznej” są w rzeczywistości powyżej linii 45 stopni, choć bardzo nieznacznie. Dlatego wizualnie większość danych (~ 98%) znajduje się poniżej linii 45 stopni ... co mam zrobić, aby rozwiązać ten problem przed porównaniem modelu? Dziękuję Ci!

Luna,

p

$p$

@ Druss2k, tak, to prawda.

Makro,

Jak sprawdzić istotność statystyczną zmiennej jakościowej w regresji liniowej?

Odpowiedzi: