Interpretacja beta, gdy istnieje wiele zmiennych kategorialnych

18

Rozumiem pojęcie, że jest średnią, gdy zmienna kategorialna jest równa 0 (lub jest grupą odniesienia), co daje końcową interpretację, że współczynnik regresji jest różnicą średniej z dwóch kategorii. Zakładam, że nawet przy> 2 kategoriach każda wyjaśnia różnicę między średnią tej kategorii a odniesieniem.β^0β^

Ale co jeśli więcej zmiennych zostanie wprowadzonych do modelu wielowymiarowego? Co teraz oznacza punkt przecięcia, biorąc pod uwagę, że nie ma sensu, aby był to środek odniesienia dla dwóch zmiennych kategorialnych? Przykładem może być płeć (M (odniesienie) / F) i rasa (biały (odniesienie) / czarny) w modelu. Czy oznacza tylko dla białych mężczyzn? Jak interpretuje się inne możliwości?β^0

Jako osobna uwaga: czy instrukcje kontrastowe służą jako metoda do badania modyfikacji efektu? A może po prostu zobaczyć efekt ( ) na różnych poziomach?β^

Renee
źródło
Jako uwaga terminologiczna „wielowymiarowy” oznacza wiele zmiennych odpowiedzi , a nie wiele zmiennych predykcyjnych (patrz tutaj ). Nie śledzę również twojego ostatniego pytania.
gung - Przywróć Monikę
Dziękuję za to wyjaśnienie. Poprawność języka jest dla mnie ważna! Przypuszczam, że po prostu nie jestem w stanie zrozumieć, dlaczego w ogóle używane są instrukcje kontrastu, ponieważ zawsze można po prostu ustawić zmienną odniesienia na tę, z którą się kontrastuje?
Renee
1
Myślę, że mógłbyś po prostu dopasowywać model w / różnych poziomach odniesienia. Nie jestem pewien, czy to wygodniejsze. W przypadku kontrastów możesz również określić zestaw kontrastów ortogonalnych lub teoretycznie implikowany kontrast (A kontra kombinacja B&C) do przetestowania.
gung - Przywróć Monikę

Odpowiedzi:

19

Masz rację co do interpretacji bet, gdy istnieje jedna zmienna kategorialna z poziomami . Jeśli istniało wiele zmiennych kategorialnych (i nie było terminu interakcji), punkt przecięcia ( ) jest średnią grupy, która stanowi poziom odniesienia dla obu (wszystkich) zmiennych kategorialnych. Korzystając z przykładowego scenariusza, rozważ przypadek, w którym nie ma interakcji, a następnie beta: kβ 0β^0

  • β^0 : średnia białych mężczyzn
  • β^famimzalmi : różnica między średnią kobiet i średnią mężczyzn
  • β^blzadok : różnica między średnią czarnych a średnią białą

Możemy również pomyśleć o tym, jak obliczyć różne grupy:

x¯W.hjatmi M.zalmis=β^0x¯W.hjatmi famimzalmis=β^0+β^famimzalmix¯blzadok M.zalmis=β^0+β^blzadokx¯blzadok famimzalmis=β^0+β^famimzalmi+β^blzadok

Jeśli masz termin interakcji, zostanie dodany na końcu równania dla czarnych kobiet. (Interpretacja takiego terminu interakcji jest dość skomplikowana, ale przechodzę przez to tutaj: Interpretacja terminu interakcji ).


Aktualizacja : Aby wyjaśnić moje punkty, zastanówmy się nad zakodowanym przykładem w puszce R.

d = data.frame(Sex  =factor(rep(c("Male","Female"),times=2), levels=c("Male","Female")),
               Race =factor(rep(c("White","Black"),each=2),  levels=c("White","Black")),
               y    =c(1, 3, 5, 7))
d
#      Sex  Race y
# 1   Male White 1
# 2 Female White 3
# 3   Male Black 5
# 4 Female Black 7

wprowadź opis zdjęcia tutaj

Średnie ydla tych zmiennych kategorialnych są:

aggregate(y~Sex,  d, mean)
#      Sex y
# 1   Male 3
# 2 Female 5
## i.e., the difference is 2
aggregate(y~Race, d, mean)
#    Race y
# 1 White 2
# 2 Black 6
## i.e., the difference is 4

Możemy porównać różnice między tymi średnimi do współczynników z dopasowanego modelu:

summary(lm(y~Sex+Race, d))
# ...
# Coefficients:
#             Estimate Std. Error  t value Pr(>|t|)    
# (Intercept)        1   3.85e-16 2.60e+15  2.4e-16 ***
# SexFemale          2   4.44e-16 4.50e+15  < 2e-16 ***
# RaceBlack          4   4.44e-16 9.01e+15  < 2e-16 ***
# ...
# Warning message:
#   In summary.lm(lm(y ~ Sex + Race, d)) :
#   essentially perfect fit: summary may be unreliable

W tej sytuacji należy rozpoznać, że bez terminu interakcji zakładamy linie równoległe. Zatem Estimatefor (Intercept)oznacza średnią białych mężczyzn. EstimateZa SexFemaleto różnica pomiędzy średnią z samicami, a średnia z mężczyzn. EstimateZa RaceBlackto różnica pomiędzy średnią z czarnych i średnia białych. Ponownie, ponieważ model bez terminu interakcji zakłada, że ​​skutki są ściśle addytywne (linie są ściśle równoległe), średnia czarnych kobiet jest wówczas średnią białych mężczyzn plus różnica między średnią kobiet i średnią mężczyzn plus różnica między średnią czerni a średnią bieli.

gung - Przywróć Monikę
źródło
Dziękuję Ci! Bardzo jasne i pomocne. Na koniec wspominasz o terminach interakcji. Jeśli ktoś używa terminu interakcji, to jak to zmienia bety (czyli nowe bety z modelu terminu interakcji)? Wiem, że wartość p dla terminu interakcji jest ważna, ale czy termin interakcji beta ma sensowną interpretację? Jeszcze raz dziękuję za pomoc!
Renee
1
W przypadku interakcji beta „efektu głównego” odnoszą się tylko do różnic w poziomie odniesienia drugiego czynnika. Np. to tylko różnica między a . β^famimzalmix¯W.hjatmi M.zalmix¯W.hjatmi famimzalmi
gung - Przywróć Monikę
Ma sens. Dziękuję Ci! i to jest zmienione w stosunku do modelu bez terminu interakcji z powodu terminu interakcji łagodzącego główny efekt? Czy w przypadku braku interakcji termin efektu głównego teoretycznie byłby taki sam?
Renee
Gdyby efekt interakcji wynosił dokładnie 0 (do nieskończonych miejsc po przecinku), nie tylko w populacji, ale także w próbie, główny efekt bety byłby taki sam w modelu bez lub bez terminu interakcji.
gung - Przywróć Monikę
1
@ hans0l0, byłoby lepiej jako nowe pytanie niż informacje ukryte tutaj w komentarzach; możesz link do tego dla kontekstu. W skrócie, jest to średnia z poziomów odniesienia, gdy wszystkie zmienne ciągłe wynoszą = 0.
Gung - Przywróć Monikę
6

W rzeczywistości, jak słusznie zauważyłeś, w przypadku jednej zmiennej kategorialnej (potencjalnie większej niż 2 poziomy) jest rzeczywiście średnią odniesienia, a druga jest różnicą między średnia tego poziomu kategorii i średnia odniesienia.β^0β^

Jeśli rozszerzymy nieco twój przykład, aby uwzględnić trzeci poziom w kategorii wyścigu (powiedzmy azjatycki ) i wybraliśmy biały jako punkt odniesienia, to masz:

  • β^0=x¯W.hjatmi
  • β^blzadok=x¯blzadok-x¯W.hjatmi
  • β^ZAsjazan=x¯ZAsjazan-x¯W.hjatmi

W takim przypadku interpretacja wszystkich jest łatwa, a znalezienie średniej z dowolnego poziomu kategorii jest proste. Na przykład:β^

  • x¯ZAsjazan=β^ZAsjazan+β^0

Niestety w przypadku wielu zmiennych kategorycznych poprawna interpretacja przechwytywania nie jest już tak jasna (patrz uwaga na końcu). Gdy istnieje n kategorii, każda z wieloma poziomami i jednym poziomem odniesienia (np. W tobie biały i męski ), ogólna forma przechwytywania jest:

β^0=ja=1nx¯rmifamirmindomi,ja-(n-1)x¯,
gdzie
x¯rmifamirmindomi,ja jest średnią poziomu odniesienia i-tej zmiennej kategorialnej,
x¯ jest średnią z całego zestawu danych

Inne są takie same, jak w przypadku jednej kategorii: są różnicą między średnią tego poziomu kategorii a średnią poziomu odniesienia tej samej kategorii.β^

Gdybyśmy wrócili do twojego przykładu, otrzymalibyśmy:

  • β^0=x¯W.hjatmi+x¯M.zalmi-x¯
  • β^blzadok=x¯blzadok-x¯W.hjatmi
  • β^ZAsjazan=x¯ZAsjazan-x¯W.hjatmi
  • β^famimzalmi=x¯famimzalmi-x¯M.zalmi

Zauważysz, że średnia z kategorii krzyżowych (np. Białe samce ) nie występuje w żadnej z . W rzeczywistości nie można dokładnie obliczyć tych środków na podstawie wyników tego rodzaju regresji .β^

Powodem tego jest to, że liczba zmiennych predykcyjnych (tj. ) jest mniejsza niż liczba kategorii krzyżowych (o ile masz więcej niż 1 kategorię), więc idealne dopasowanie nie zawsze jest możliwe. Jeśli wrócimy do twojego przykładu, liczba predyktorów wynosi 4 (tj. i ), podczas gdy liczba krzyżowych kategorii wynosi 6.β^β^0, β^blzadok, β^ZAsjazanβ^famimzalmi

Przykład numeryczny

Pozwól, że pożyczę od @Gung na przykład w postaci liczbowej w puszce:

d = data.frame(Sex=factor(rep(c("Male","Female"),times=3), levels=c("Male","Female")),
    Race =factor(rep(c("White","Black","Asian"),each=2),levels=c("White","Black","Asian")),
    y    =c(0, 3, 7, 8, 9, 10))
d

#      Sex  Race  y
# 1   Male White  0
# 2 Female White  3
# 3   Male Black  7
# 4 Female Black  8
# 5   Male Asian  9
# 6 Female Asian 10

W takim przypadku różne średnie, które będą brane pod uwagę przy obliczaniu to:β^

aggregate(y~1,  d, mean)

#          y
# 1 6.166667

aggregate(y~Sex,  d, mean)

#      Sex        y
# 1   Male 5.333333
# 2 Female 7.000000

aggregate(y~Race, d, mean)

#    Race   y
# 1 White 1.5
# 2 Black 7.5
# 3 Asian 9.5

Możemy porównać te liczby z wynikami regresji:

summary(lm(y~Sex+Race, d))

# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)
# (Intercept)   0.6667     0.6667   1.000   0.4226
# SexFemale     1.6667     0.6667   2.500   0.1296
# RaceBlack     6.0000     0.8165   7.348   0.0180
# RaceAsian     8.0000     0.8165   9.798   0.0103

Jak widać, różne oszacowane na podstawie regresji wszystkie są zgodne z powyższymi wzorami. Na przykład podaje: Co daje:β^β^0

β^0=x¯W.hjatmi+x¯M.zalmi-x¯
1.5 + 5.333333 - 6.166667
# 0.66666

Uwaga na temat wyboru kontrastu

Ostatnia uwaga na ten temat, wszystkie wyniki omówione powyżej odnoszą się do kategorycznych regresji z zastosowaniem leczenia kontrastem (domyślny typ kontrastu w R). Istnieją różne rodzaje kontrastów, które można zastosować (w szczególności Helmerta i suma) i zmieniłoby to interpretację różnych . Nie zmieniłoby to jednak ostatecznych przewidywań z regresji (np. Przewidywanie dla białych mężczyzn jest zawsze takie samo, bez względu na zastosowany rodzaj kontrastu).β^

Moim osobistym ulubionym jest suma kontrastu, ponieważ uważam, że interpretacja uogólnia się lepiej, gdy istnieje wiele kategorii. Dla tego rodzaju kontrastu nie ma poziomu odniesienia, a raczej odniesienie jest średnią całej próbki i masz następujący :β^doontr.sumβ^doontr.sum

  • β^0doontr.sum=x¯
  • β^jadoontr.sum=x¯ja-x¯

Jeśli wrócimy do poprzedniego przykładu, miałbyś:

  • β^0doontr.sum=x¯
  • β^W.hjatmidoontr.sum=x¯W.hjatmi-x¯
  • β^blzadokdoontr.sum=x¯blzadok-x¯
  • β^ZAsjazandoontr.sum=x¯ZAsjazan-x¯
  • β^M.zalmidoontr.sum=x¯M.zalmi-x¯
  • β^famimzalmidoontr.sum=x¯famimzalmi-x¯

Zauważysz, że ponieważ Białe i Męskie nie są już poziomami odniesienia, ich nie są już 0. Fakt, że są to 0, jest specyficzny dla leczenia kontrastem.β^doontr.sum

GL
źródło