Rozumiem pojęcie, że jest średnią, gdy zmienna kategorialna jest równa 0 (lub jest grupą odniesienia), co daje końcową interpretację, że współczynnik regresji jest różnicą średniej z dwóch kategorii. Zakładam, że nawet przy> 2 kategoriach każda wyjaśnia różnicę między średnią tej kategorii a odniesieniem.
Ale co jeśli więcej zmiennych zostanie wprowadzonych do modelu wielowymiarowego? Co teraz oznacza punkt przecięcia, biorąc pod uwagę, że nie ma sensu, aby był to środek odniesienia dla dwóch zmiennych kategorialnych? Przykładem może być płeć (M (odniesienie) / F) i rasa (biały (odniesienie) / czarny) w modelu. Czy oznacza tylko dla białych mężczyzn? Jak interpretuje się inne możliwości?
Jako osobna uwaga: czy instrukcje kontrastowe służą jako metoda do badania modyfikacji efektu? A może po prostu zobaczyć efekt ( ) na różnych poziomach?
Odpowiedzi:
Masz rację co do interpretacji bet, gdy istnieje jedna zmienna kategorialna z poziomami . Jeśli istniało wiele zmiennych kategorialnych (i nie było terminu interakcji), punkt przecięcia ( ) jest średnią grupy, która stanowi poziom odniesienia dla obu (wszystkich) zmiennych kategorialnych. Korzystając z przykładowego scenariusza, rozważ przypadek, w którym nie ma interakcji, a następnie beta:k β 0β^0
Możemy również pomyśleć o tym, jak obliczyć różne grupy:
x¯W h i t e M a l e s x¯W h i t e F e m a l e s x¯B l a c k M a l e s x¯B l a c k F e m a l e s = β^0= β^0+ β^F e m a l e= β^0+ β^B l a c k= β^0+ β^F e m a l e+ β^B l a c k
Jeśli masz termin interakcji, zostanie dodany na końcu równania dla czarnych kobiet. (Interpretacja takiego terminu interakcji jest dość skomplikowana, ale przechodzę przez to tutaj: Interpretacja terminu interakcji ).
Aktualizacja : Aby wyjaśnić moje punkty, zastanówmy się nad zakodowanym przykładem w puszce
R
.Średnie
y
dla tych zmiennych kategorialnych są:Możemy porównać różnice między tymi średnimi do współczynników z dopasowanego modelu:
W tej sytuacji należy rozpoznać, że bez terminu interakcji zakładamy linie równoległe. Zatem
Estimate
for(Intercept)
oznacza średnią białych mężczyzn.Estimate
ZaSexFemale
to różnica pomiędzy średnią z samicami, a średnia z mężczyzn.Estimate
ZaRaceBlack
to różnica pomiędzy średnią z czarnych i średnia białych. Ponownie, ponieważ model bez terminu interakcji zakłada, że skutki są ściśle addytywne (linie są ściśle równoległe), średnia czarnych kobiet jest wówczas średnią białych mężczyzn plus różnica między średnią kobiet i średnią mężczyzn plus różnica między średnią czerni a średnią bieli.źródło
W rzeczywistości, jak słusznie zauważyłeś, w przypadku jednej zmiennej kategorialnej (potencjalnie większej niż 2 poziomy) jest rzeczywiście średnią odniesienia, a druga jest różnicą między średnia tego poziomu kategorii i średnia odniesienia.β^0 β^
Jeśli rozszerzymy nieco twój przykład, aby uwzględnić trzeci poziom w kategorii wyścigu (powiedzmy azjatycki ) i wybraliśmy biały jako punkt odniesienia, to masz:
W takim przypadku interpretacja wszystkich jest łatwa, a znalezienie średniej z dowolnego poziomu kategorii jest proste. Na przykład:β^
Niestety w przypadku wielu zmiennych kategorycznych poprawna interpretacja przechwytywania nie jest już tak jasna (patrz uwaga na końcu). Gdy istnieje n kategorii, każda z wieloma poziomami i jednym poziomem odniesienia (np. W tobie biały i męski ), ogólna forma przechwytywania jest:
Inne są takie same, jak w przypadku jednej kategorii: są różnicą między średnią tego poziomu kategorii a średnią poziomu odniesienia tej samej kategorii.β^
Gdybyśmy wrócili do twojego przykładu, otrzymalibyśmy:
Zauważysz, że średnia z kategorii krzyżowych (np. Białe samce ) nie występuje w żadnej z . W rzeczywistości nie można dokładnie obliczyć tych środków na podstawie wyników tego rodzaju regresji .β^
Powodem tego jest to, że liczba zmiennych predykcyjnych (tj. ) jest mniejsza niż liczba kategorii krzyżowych (o ile masz więcej niż 1 kategorię), więc idealne dopasowanie nie zawsze jest możliwe. Jeśli wrócimy do twojego przykładu, liczba predyktorów wynosi 4 (tj. i ), podczas gdy liczba krzyżowych kategorii wynosi 6.β^ β^0, β ^B l a c k, β ^A s i a n β^fae m a l e
Przykład numeryczny
Pozwól, że pożyczę od @Gung na przykład w postaci liczbowej w puszce:
W takim przypadku różne średnie, które będą brane pod uwagę przy obliczaniu to:β^
Możemy porównać te liczby z wynikami regresji:
Jak widać, różne oszacowane na podstawie regresji wszystkie są zgodne z powyższymi wzorami. Na przykład podaje: Co daje:β^ β^0
Uwaga na temat wyboru kontrastu
Ostatnia uwaga na ten temat, wszystkie wyniki omówione powyżej odnoszą się do kategorycznych regresji z zastosowaniem leczenia kontrastem (domyślny typ kontrastu w R). Istnieją różne rodzaje kontrastów, które można zastosować (w szczególności Helmerta i suma) i zmieniłoby to interpretację różnych . Nie zmieniłoby to jednak ostatecznych przewidywań z regresji (np. Przewidywanie dla białych mężczyzn jest zawsze takie samo, bez względu na zastosowany rodzaj kontrastu).β^
Moim osobistym ulubionym jest suma kontrastu, ponieważ uważam, że interpretacja uogólnia się lepiej, gdy istnieje wiele kategorii. Dla tego rodzaju kontrastu nie ma poziomu odniesienia, a raczej odniesienie jest średnią całej próbki i masz następujący :β^c o n t r . a U m β^c o n t r . a U m
Jeśli wrócimy do poprzedniego przykładu, miałbyś:
Zauważysz, że ponieważ Białe i Męskie nie są już poziomami odniesienia, ich nie są już 0. Fakt, że są to 0, jest specyficzny dla leczenia kontrastem.β^c o n t r . a U m
źródło