Jeśli w regresji liniowej mam zmienną kategorialną ... skąd mam poznać stastyczne znaczenie zmiennej kategorialnej?
Powiedzmy, że współczynnik ma 10 poziomów ... będzie 10 różnych wynikowych wartości t, pod parasolem jednej zmiennej czynnikowej ...
Wydaje mi się, że istotność statystyczna jest testowana dla każdego poziomu zmiennej czynnikowej? Nie?
@Macro: Zgodnie z twoją sugestią zbudowałem następujący przykład:
Wygląda na to, że x3 jest przydatne i musi zostać uwzględnione w modelu na podstawie poniższego porównania modeli.
Ale tak naprawdę to źle ...
n=100
x1=1:n
x2=(1:n)^2
x3=rnorm(n)
ee=rnorm(n)
y=3*x1-2*x2+x3+3+ee
lm1=lm(y~x1+x2+x3)
summary(lm1)
lm2=lm(y~x1+x2)
summary(lm2)
anova(lm1, lm2)
> anova(lm1, lm2)
Analysis of Variance Table
Model 1: y ~ x1 + x2 + x3
Model 2: y ~ x1 + x2
Res.Df RSS Df Sum of Sq F Pr(>F)
1 96 82.782
2 97 146.773 -1 -63.99 74.207 1.401e-13 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
x3
do wygenerowaniay
s, więc powinien zostać uwzględniony w modelu, a wartość zgadza się z tym wnioskiem.Odpowiedzi:
Masz rację, że te wartości mówią tylko, czy średnia każdego poziomu jest znacząco różna od średniej poziomu odniesienia. Dlatego mówią tylko o różnicach między parami między poziomami. Testowanie, czy predyktor jakościowy jako całość jest znaczący, jest równoważne testowaniu, czy istnieje jakakolwiek niejednorodność w średnich poziomów predyktora. Gdy w modelu nie ma innych predyktorów, jest to klasyczny problem ANOVA .p
Gdy w modelu występują inne predyktory. masz dwie opcje sprawdzenia znaczenia predyktora jakościowego:
(1) Test ilorazu wiarygodności: Załóżmy, że masz wynik , predyktorami ilościowe x I 1 , . . . , X i P , a kategoryczne czynnikiem C i o k poziomach. Model bez predyktora jakościowego jestYi Xi1,...,Xip Ci k
WL0
R
można dopasować ten model za pomocąlm()
polecenia i wyodrębnić prawdopodobieństwo dziennika za pomocąlogLik
polecenia. Nazwij to prawdopodobieństwo logarytmu . Następnie możesz dopasować model do predyktora jakościowego:w którym jest zmienną, która jest obojętne 1 jeśli D i = j i 0 inaczej. Poziom k jest poziomem odniesienia, dlatego suma zawiera tylko terminy k - 1 . automatycznie wykona to kodowanie dla Ciebie, jeśli podasz zmienną kategorialną do . Możesz dopasować ten model podobnie i wyodrębnić prawdopodobieństwo dziennika jak wyżej. Nazwij to prawdopodobieństwo dziennika L 1 . Następnie, zgodnie z hipotezą zerową, że D i nie ma wpływu,Bj 1 Di=j 0 k k−1 L1 Di
R
lm()
ma rozkład z k - 1 stopniami swobody. Możesz więc obliczyć wartość p za pomocą in, aby sprawdzić istotność.χ2 k−1 p
1-pchisq(2*(L1-L0),df=k-1)
R
(2) Test :F Bez wchodzenia w szczegóły (które są podobne do LRT, z wyjątkiem tego, że używa się sum kwadratów zamiast prawdopodobieństw logarytmicznych), wyjaśnię, jak to zrobić
R
. Jeśli dopasujesz model „pełny” (tj. Model ze wszystkimi predyktorami, w tym predyktorem jakościowym) przyR
użyciulm()
polecenia (nazwij tog1
) i model bez predyktora jakościowego (nazwij tog0
), wówczasanova(g1,g0)
przetestuje tę hipotezę dla równie dobrze.Uwaga: oba podejścia, o których tu wspomniałem, wymagają normalności błędów. Również test współczynnika prawdopodobieństwa jest bardzo ogólnym narzędziem stosowanym do porównań zagnieżdżonych, dlatego tutaj o nim wspominam (i dlaczego pojawia się najpierw), chociaż test jest bardziej znany w porównywaniu modeli regresji liniowej.F
źródło