Interpretowanie współczynników interakcji między zmienną jakościową a ciągłą

10

Mam pytanie dotyczące interpretacji współczynników interakcji między zmienną ciągłą a kategoryczną. oto mój model:

model_glm3=glm(cog~lg_hag+race+pdg+sex+as.factor(educa)+(lg_hag:as.factor(educa)), 
               data=base_708)

Coefficients:
                         Estimate Std. Error t value Pr(>|t|)    
(Intercept)               21.4836     2.0698  10.380  < 2e-16 ***
lg_hag                     8.5691     3.7688   2.274  0.02334 *  
raceblack                 -8.4715     1.7482  -4.846 1.61e-06 ***
racemexican               -3.0483     1.7073  -1.785  0.07469 .  
racemulti/other           -4.6002     2.3098  -1.992  0.04687 *  
pdg                        2.8038     0.4268   6.570 1.10e-10 ***
sexfemale                  4.5691     1.1203   4.078 5.15e-05 ***
as.factor(educa)2         13.8266     2.6362   5.245 2.17e-07 ***
as.factor(educa)3         21.7913     2.4424   8.922  < 2e-16 ***
as.factor(educa)4         19.0179     2.5219   7.541 1.74e-13 ***
as.factor(educa)5         23.7470     2.7406   8.665  < 2e-16 ***
lg_hag:as.factor(educa)2 -21.2224     6.5904  -3.220  0.00135 ** 
lg_hag:as.factor(educa)3 -19.8083     6.1255  -3.234  0.00129 ** 
lg_hag:as.factor(educa)4  -8.5502     6.6018  -1.295  0.19577    
lg_hag:as.factor(educa)5 -17.2230     6.3711  -2.703  0.00706 ***

powiedzmy, że równanie modelu to:

E [tryb] = a + b1 (lg_hag) + b2 (educa2 * lg_hag) + b3 (educa3 * lg_hag) + b4 (educa4 * lg_hag) + b5 (pdg, wyśrodkowany) + inne zmienne, gdzie

b1 = difference in cog  with higher lg_hag among lowest education (coded as 1)
b1 + b2 = difference in cog with higher lg_hag among middle education (coded as 2)
b1 + b3 = difference in cog with higher lg_hag among high education (coded as 3)
b1 + b3 = difference in cog with higher lg_hag among very high education (coded as 4)
b5 = difference in cog with each unit increase in pdg

Moje pytanie brzmi: jeśli moja interpretacja jest słuszna, jak skonstruować przedziały ufności dla każdego oszacowania efektu interakcji (np .: b1 + b2) na podstawie przedziałów ufności b1 i b2.

Jesteś bezpieczny
źródło
niezbyt obeznany z tym, jak to zrobić w R. załóżmy, że w sas można uzyskać wynik za pomocą instrukcji „szacunek”, patrz support.sas.com/documentation/cdl/en/statug/63033/HTML/default/…
boomean

Odpowiedzi:

8

Twoja interpretacja współczynników modelu nie jest całkowicie dokładna. Pozwól mi najpierw podsumować warunki modelu.

Zmienne kategorialne (czynniki): , iracesexeduca

Współczynnik racema cztery poziomy: .race={white,black,mexican,multi/other}

Czynnik sexma dwa poziomy: .sex={male,female}

Współczynnik educama pięć poziomów: .educa={1,2,3,4,5}

Domyślnie R używa kontrastów leczenia dla zmiennych jakościowych. W tych kontrastach pierwsza wartość współczynnika jest używana jako poziom odniesienia, a pozostałe wartości są testowane względem odniesienia. Maksymalna liczba kontrastów dla zmiennej jakościowej jest równa liczbie poziomów minus jeden.

Kontrasty racepozwalają przetestować następujące różnice: , , a .race=black vs.race=whiterace=mexican vs.race=whiterace=multi/other vs.race=white

Dla współczynnika poziom odniesienia wynosi , wzór kontrastów jest analogiczny. Efekty te można interpretować jako różnicę w zmiennej zależnej. W twoim przykładzie średnia wartość wynosi jednostek wyższa dla porównaniu do ( ).educa1cog13.8266educa=2educa=1as.factor(educa)2

Jedna ważna uwaga: jeśli kontrasty leczenia dla zmiennej kategorialnej występują w modelu, oszacowanie dalszych efektów opiera się na poziomie odniesienia zmiennej jakościowej, jeśli uwzględnione są również interakcje między dalszymi efektami a zmienną kategoryczną. Jeśli zmienna nie jest częścią interakcji, jej współczynnik odpowiada średniej poszczególnych nachyleń podzbiorów tej zmiennej wzdłuż wszystkich pozostałych zmiennych kategorialnych. Efekty i odpowiadają średnim efektom w odniesieniu do poziomów czynników innych zmiennych. Aby przetestować ogólny wpływ , musisz wykluczyć i z modelu.raceeducaraceeducasex

Zmienne liczbowe: ilg_hagpdg

Zarówno lg_hagi pdgsą tym samym zmienne współczynniki liczbowe reprezentują zmiany zmiennej zależnej związanej ze wzrostem w predykcyjnych.1

Zasadniczo interpretacja tych efektów jest prosta. Należy jednak pamiętać, że jeśli występują interakcje, oszacowanie współczynników opiera się na kategoriach referencyjnych czynników (jeśli stosowane są kontrasty leczenia). Ponieważ nie jest częścią interakcji, jego współczynnik odpowiada względem średniego nachylenia zmiennej. Zmienna jest także częścią interakcji z . Dlatego jego efekt odnosi się do , poziom podstawowy .; nie jest to test ogólnego wpływu zmiennej numerycznej niezależnie od poziomów czynników.pdglg_hageducaeduca=1lg_hag

Interakcje między zmiennymi kategorycznymi i liczbowymi: lg_hag×educa

Model obejmuje nie tylko główne efekty, ale także interakcje między zmienną numeryczną a czterema kontrastami związanymi z . Efekty te mogą być interpretowane jako różnicę zboczach pomiędzy pewnym poziomie a poziomem odniesienia ( ).lg_hageducalg_hageducaeduca=1

Na przykład współczynnik lg_hag:as.factor(educa)2( -21.2224) oznacza, że ​​nachylenie jest o jednostki niższe dla porównaniu do .lg_hag21.2224educa=2educa=1

Sven Hohenstein
źródło
„Te współczynniki interakcji obowiązują również race=whitei sex=maletylko”. Jesteś tego pewien? Pytam, ponieważ ani racenie sexwchodzi w interakcję z tym lg_hag×educaterminem ... Patrzę na kilka tekstów, ale nie widzę tego wyraźnie wskazanego.
landroni
2
@landroni Stoki są szacowane dla punktu, w którym wszystkie pozostałe predyktory są równe 0.
Sven Hohenstein
Tak, to też rozumiem. Wszystkie pozostałe predyktory są utrzymywane na stałym poziomie, co oznacza, że ​​czynniki są ustalone na poziomie wyjściowym. Ale na tym polega moja zagadka: przyjrzałem się kilku książkom, które wydają się przeważnie połyskiwać ten subtelny, ale dalekosiężny niuans. Co więcej, dokumenty często „kontrolują przemysł”, ale wyciągają wnioski, jak gdyby współczynniki były bezwarunkowe w stosunku do pełnej próbki, zamiast wyróżniać, że dotyczy to tylko poziomu wyjściowego. Zobacz także: stats.stackexchange.com/questions/146665/ …
landroni
1
„Jeśli kontrasty leczenia dla zmiennej kategorialnej występują w modelu, oszacowanie dalszych efektów opiera się na poziomie odniesienia zmiennej kategorialnej”. Po dalszych rozważaniach nie jestem przekonany (lub nie podążam całkowicie za twoją argumentacją). Wydaje się, że sugerujesz, że oszacowanie beta dla np. pdgZależy od poziomu odniesienia, co oczywiście nie jest prawdą. Jeśli zmienię poziom odniesienia któregokolwiek z czynników (np. sex), Szacunkowa wartość pdgNIE ulegnie zmianie ...
landroni 17.04.15
1
@landroni Dzięki za wskazanie. Masz rację, to stwierdzenie wprowadza w błąd. W rzeczywistości dotyczy to tylko predyktorów, które są również częścią warunków interakcji ze zmiennymi kategorialnymi. Dlatego oszacowanie pdgrzeczywiście nie zależy od specyfikacji kontrastów. Odpowiednio zmodyfikuję odpowiedź.
Sven Hohenstein,