Sprzeczność istotności w regresji liniowej: istotny test t dla współczynnika vs nieistotna ogólna statystyka F

35

Dopasowuję model wielokrotnej regresji liniowej między 4 zmiennymi kategorialnymi (z 4 poziomami każda) i danymi liczbowymi. Mój zestaw danych ma 43 obserwacje.

Regresja daje mi następujące wartości z testu dla każdego współczynnika nachylenia: . Tak więc współczynnik dla 4. predyktora jest istotny na poziomie ufności .pt.15,.67,.27,.02α=.05

Z drugiej strony regresja daje mi wartość z ogólnego testu hipotezy zerowej, że wszystkie moje współczynniki nachylenia są równe zero. Dla mojego zestawu danych ta wartość wynosi .pfap.11

Moje pytanie: jak mam interpretować te wyniki? Która -value powinienem użyć i dlaczego? Czy współczynnik dla czwartej zmiennej znacznie różni się od na poziomie ufności ?p0α=.05

Widziałem powiązane pytanie, i statystyk w regresji , ale tam sytuacja była przeciwieństwem: wysoka -test -values i niskie -test -value. Szczerze mówiąc, nie do końca rozumiem, dlaczego potrzebujemy testu oprócz testu aby sprawdzić, czy współczynniki regresji liniowej znacznie różnią się od zera.fattpfapfat

Lew
źródło
2
Jeśli masz 4 zmienne kategoryczne z 4 poziomami każdy, powinieneś mieć 3 * 4 = 12 współczynników dla zmiennych niezależnych (plus punkt przecięcia) ...
boscovich
@ andrea: Postanowiłem traktować je jako zmienne numeryczne.
Lew
4
0,02 jest mało znaczący (zwłaszcza jeśli weźmiesz pod uwagę fakt, że masz w sumie pięć testów), a 0,11 nie jest bardzo wysoki. Hojną interpretacją byłoby to, że przy odrobinie większej mocy ogólny test F byłby również znaczący (i być może również pierwszy współczynnik). Bardziej konserwatywna interpretacja jest taka, że ​​nie powinieneś mieć dużego zaufania do żadnego z tych wyników (w tym współczynnika o wartości 0,02 p). Tak czy inaczej, nie powinieneś czytać za dużo w różnicach między .02 a .11.
Gala
3
W celu omówienia przeciwnego przypadku można również zobaczyć tutaj: w jaki sposób regresja może być znacząca, ale wszystkie predyktory mogą być nieistotne , oprócz pytania powiązanego powyżej.
gung - Przywróć Monikę

Odpowiedzi:

37

Nie jestem pewien, czy tutaj dzieje się wielokoliniowość. Z pewnością może tak być, ale z podanych informacji nie mogę dojść do wniosku i nie chcę od tego zaczynać. Po pierwsze sądzę, że może to być problem wielokrotnych porównań. Oznacza to, że jeśli wykonasz wystarczającą liczbę testów, coś się pojawi, nawet jeśli nic tam nie ma.

Jednym z problemów, nad którymi się zastanawiam, jest to, że problem wielokrotnych porównań jest zawsze omawiany w kontekście badania wielu porównań parami - np. Przeprowadzanie testów t dla każdej unikalnej pary poziomów. (Zabawne podejście do wielu porównań, spójrz tutaj .) To sprawia, że ​​ludzie mają wrażenie, że to jedyne miejsce, w którym pojawia się ten problem. Ale to po prostu nieprawda - problem wielokrotnych porównań pojawia się wszędzie. Na przykład, jeśli uruchomisz regresję z 4 zmiennymi objaśniającymi, występują te same problemy. W dobrze zaprojektowanym eksperymencie IV mogą być ortogonalne, ale ludzie rutynowo martwią się zastosowaniem poprawek Bonferroniego na zestawach kontrastów a-priori i ortogonalnych i nie zastanawiają się dwa razy nad czynnikową ANOVA. Moim zdaniem jest to niespójne.

Globalny test F to tak zwany test „jednoczesny”. Sprawdza to, czy wszystkie predyktory nie są powiązane ze zmienną odpowiedzi. Test równoczesny zapewnia pewną ochronę przed problemem wielokrotnych porównań bez konieczności podążania drogą Bonferroniego, która traci moc. Niestety, moja interpretacja tego, co zgłaszasz, jest taka, że ​​masz zerowe stwierdzenie.

Kilka rzeczy łagodzi tę interpretację. Po pierwsze, mając tylko 43 dane, prawie na pewno nie masz dużej mocy. Jest całkiem możliwe, że istnieje prawdziwy efekt, ale nie można go rozwiązać bez większej ilości danych. Po drugie, podobnie jak @andrea i @Dimitriy, martwię się o zasadność traktowania 4-poziomowych zmiennych kategorialnych jako liczbowych. Może to nie być odpowiednie i może mieć dowolną liczbę efektów, w tym zmniejszenie zdolności wykrywania tego, co naprawdę tam jest. Wreszcie nie jestem pewien, czy testowanie istotności jest tak samo ważne, jak ludzie wierzą. p z .11 jest rodzaj niski; czy naprawdę coś się tam dzieje? może! kto wie? - nie ma „jasnej linii” na 0,05, która rozgranicza rzeczywiste efekty od samego wyglądu.

gung - Przywróć Monikę
źródło
24

Chciałbym zasugerować, że to zjawisko (nieistotnego testu ogólnego pomimo znaczącej zmiennej indywidualnej) może być rozumiane jako rodzaj zagregowanego „efektu maskującego” i że, chociaż możliwe, że może wynikać z wielokoliniowych zmiennych objaśniających, nie musi tego robić to w ogóle. Okazuje się również, że nie wynika to z wielu korekt porównawczych. Tak więc odpowiedź ta dodaje pewne kwalifikacje do odpowiedzi, które już się pojawiły, co wręcz przeciwnie sugeruje, że winowajcami powinny być wielokliniowość lub wielokrotne porównania.

Aby ustalić wiarygodność tych twierdzeń, wygenerujmy zbiór idealnie ortogonalnych zmiennych - możliwie jak najbardziej nieliniowych - i zmienną zależną, która jest wyraźnie określona wyłącznie przez pierwsze objaśnienie (plus duża liczba błędów losowych niezależne od wszystkiego innego). W Rtym można zrobić (odtwarzalnie, jeśli chcesz eksperymentować) jak

set.seed(17)
p <- 5 # Number of explanatory variables
x <- as.matrix(do.call(expand.grid, lapply(as.list(1:p), function(i) c(-1,1))))
y <- x[,1] + rnorm(2^p, mean=0, sd=2)

Nie ma znaczenia, że ​​zmienne objaśniające są binarne; liczy się ich ortogonalność, którą możemy sprawdzić, aby upewnić się, że kod działa zgodnie z oczekiwaniami, co można zrobić, sprawdzając ich korelacje. Rzeczywiście, macierz korelacji jest interesująca : sugeruje, że małe współczynniki ymają niewiele wspólnego z dowolną zmienną, z wyjątkiem pierwszej (która jest z założenia), a zerowe przekątne potwierdzają ortogonalność zmiennych objaśniających:

> cor(cbind(x,y))
     Var1  Var2  Var3   Var4  Var5      y
Var1 1.00 0.000 0.000  0.000  0.00  0.486
Var2 0.00 1.000 0.000  0.000  0.00  0.088
Var3 0.00 0.000 1.000  0.000  0.00  0.044
Var4 0.00 0.000 0.000  1.000  0.00 -0.014
Var5 0.00 0.000 0.000  0.000  1.00 -0.167
y    0.49 0.088 0.044 -0.014 -0.17  1.000

Uruchommy serię regresji , używając tylko pierwszej zmiennej, a następnie pierwszych dwóch i tak dalej. Dla zwięzłości i łatwego porównania, w każdym pokazuję tylko linię dla pierwszej zmiennej i ogólny test F:

>temp <- sapply(1:p, function(i) print(summary(lm(y ~ x[, 1:i]))))

#              Estimate Std. Error t value Pr(>|t|)   
1  x[, 1:i]       0.898      0.294    3.05   0.0048 **
F-statistic: 9.29 on 1 and 30 DF,  p-value: 0.00478 

2  x[, 1:i]Var1    0.898      0.298    3.01   0.0053 **
F-statistic: 4.68 on 2 and 29 DF,  p-value: 0.0173 

3  x[, 1:i]Var1   0.8975     0.3029    2.96   0.0062 **
F-statistic: 3.05 on 3 and 28 DF,  p-value: 0.0451 

4  x[, 1:i]Var1   0.8975     0.3084    2.91   0.0072 **
F-statistic: 2.21 on 4 and 27 DF,  p-value: 0.095 

5  x[, 1:i]Var1   0.8975     0.3084    2.91   0.0073 **
F-statistic: 1.96 on 5 and 26 DF,  p-value: 0.118

Zobacz, jak (a) znaczenie pierwszej zmiennej prawie się nie zmienia, (a ') pierwsza zmienna pozostaje znacząca (p <0,05), nawet przy korekcie dla wielu porównań ( np. Zastosuj Bonferroni, mnożąc nominalną wartość p przez liczba zmiennych objaśniających), (b) współczynnik pierwszej zmiennej prawie się nie zmienia, ale (c) ogólne znaczenie rośnie wykładniczo, szybko zwiększając się do nieistotnego poziomu.

Interpretuję to jako wykazanie, że uwzględnienie zmiennych objaśniających, które są w dużej mierze niezależne od zmiennej zależnej, może „maskować” ogólną wartość p regresji. Gdy nowe zmienne są prostopadłe do istniejących i do zmiennej zależnej, nie zmienią poszczególnych wartości p. (Widoczne tutaj niewielkie zmiany są spowodowane tym, że dodany błąd losowy yjest przypadkowo skorelowany ze wszystkimi pozostałymi zmiennymi.) Jedną z lekcji, którą należy wyciągnąć z tego, jest to, że parsimony jest wartościowe : użycie tak małej liczby zmiennych, jak to konieczne, może wzmocnić znaczenie wyniki.

Ja nie mówiąc, że to niekoniecznie dzieje się na zbiorze danych w kwestii, o której niewiele zostało ujawnione. Ale wiedza, że ​​ten efekt maskowania może się zdarzyć, powinna stanowić podstawę naszej interpretacji wyników, a także naszych strategii wyboru zmiennych i budowy modelu.

Whuber
źródło
+1, zgadzam się z tą analizą. FWIW, to jest wyjaśnienie, na które sugerowałem (być może nie dobrze) w mojej dyskusji na temat władzy w mojej odpowiedzi na inne pytanie . Mam tutaj 1 pytanie dotyczące twojej wersji, dlaczego używasz 32 jako średniej z terminu błędu? Czy to literówka, czy jest to w jakiś sposób ważne?
Gung - Przywróć Monikę
@gung Gdzie widzisz 32? Jeśli masz na myśli rnorm(2^p, sd=2), pamiętaj, że pierwszym argumentem jest liczba terminów, a nie średnia. Średnia domyślnie wynosi zero i dlatego nie została wyraźnie określona.
whuber
rnorm()N.(μ,σ)
@gung Jestem wdzięczny za możliwość wyjaśnienia kodu i dlatego dokonałem edycji linii obrażającej.
whuber
11

Często zdarza się tak, gdy masz wysoki stopień kolinearności między zmiennymi objaśniającymi. ANOVA F to wspólny test, w którym wszystkie regresory są wspólnie nieinformacyjne. Kiedy twoje Xs zawierają podobne informacje, model nie może przypisać mocy wyjaśniającej jednemu lub drugiemu regresorowi, ale ich kombinacja może wyjaśnić dużą zmienność zmiennej odpowiedzi.

x1y

Dimitriy V. Masterov
źródło
Jeśli kolinearność stanowi problem, będziesz miał wysokie standardowe błędy i być może nieprawdopodobnie duże współczynniki, może nawet przy niewłaściwych znakach. Aby upewnić się, że tak się dzieje, oblicz współczynniki inflacji wariancji (VIF) po regresji. Rozsądną zasadą jest to, że kolinearność jest problemem, jeśli największy VIF jest większy niż 10. Jeśli tak, naprawdę masz tutaj dwie opcje. Jednym z nich jest ponowne określenie modelu w celu zmniejszenia zależności prawie liniowej przez usunięcie niektórych zmiennych. Drugim jest uzyskanie większej i / lub lepszej (mniej jednorodnej) próbki.
Dimitriy V. Masterov
1
(+1) To wyjaśnienie jest dobre, ale niepotrzebne jest przypisywanie tego zjawiska do wielokoliniowości: kluczowe jest rozróżnienie między informacją wspólną i informacyjną indywidualnie. Uwzględnienie dodatkowych nieskorelowanych regresorów (co pozwala uniknąć wielokoliniowości) obniża pierwsze z nich, pozostawiając drugie bez zmian.
whuber