To tylko przykład, na który natknąłem się kilka razy, więc nie mam żadnych przykładowych danych. Uruchamianie modelu regresji liniowej w R:
a.lm = lm(Y ~ x1 + x2)
x1
jest zmienną ciągłą. x2
jest kategoryczny i ma trzy wartości, np. „Niska”, „Średnia” i „Wysoka”. Jednak dane wyjściowe podane przez R byłyby mniej więcej takie:
summary(a.lm)
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.521 0.20 1.446 0.19
x1 -0.61 0.11 1.451 0.17
x2Low -0.78 0.22 -2.34 0.005
x2Medium -0.56 0.45 -2.34 0.005
Rozumiem, że R wprowadza pewien rodzaj fałszywego kodowania na takich czynnikach ( x2
będąc czynnikiem). Zastanawiam się tylko, jak interpretować x2
wartość „Wysoka”? Na przykład, jaki wpływ mają „wysokie” x2
na zmienną odpowiedzi w podanym tutaj przykładzie?
Widziałem przykłady tego gdzie indziej (np. Tutaj ), ale nie znalazłem wyjaśnienia, które mógłbym zrozumieć.
r
regression
categorical-data
regression-coefficients
categorical-encoding
machine-learning
random-forest
anova
spss
r
self-study
bootstrap
monte-carlo
r
multiple-regression
partitioning
neural-networks
normalization
machine-learning
svm
kernel-trick
self-study
survival
cox-model
repeated-measures
survey
likert
correlation
variance
sampling
meta-analysis
anova
independence
sample
assumptions
bayesian
covariance
r
regression
time-series
mathematical-statistics
graphical-model
machine-learning
linear-model
kernel-trick
linear-algebra
self-study
moments
function
correlation
spss
probability
confidence-interval
sampling
mean
population
r
generalized-linear-model
prediction
offset
data-visualization
clustering
sas
cart
binning
sas
logistic
causality
regression
self-study
standard-error
r
distributions
r
regression
time-series
multiple-regression
python
chi-squared
independence
sample
clustering
data-mining
rapidminer
probability
stochastic-processes
clustering
binary-data
dimensionality-reduction
svd
correspondence-analysis
data-visualization
excel
c#
hypothesis-testing
econometrics
survey
rating
composite
regression
least-squares
mcmc
markov-process
kullback-leibler
convergence
predictive-models
r
regression
anova
confidence-interval
survival
cox-model
hazard
normal-distribution
autoregressive
mixed-model
r
mixed-model
sas
hypothesis-testing
mediation
interaction
ttnphns
źródło
źródło
Odpowiedzi:
P: „... jak interpretować wartość x2„ Wysoka ”? Na przykład, jaki wpływ„ Wysoka ”x2 ma na zmienną odpowiedzi w podanym tutaj przykładzie?
Odp .: Bez wątpienia zauważyłeś, że w danych wyjściowych nie ma wzmianki o x2 = „High”. W tej chwili x2High jest wybierane jako „przypadek podstawowy”. To dlatego, że zaoferowałeś zmienną czynnikową z domyślnym kodowaniem poziomów, pomimo uporządkowania, które byłoby naturalnie L / M / H dla ludzkiego umysłu. Ale „H” będący leksykalnie przed literami „L” i „M” w alfabecie, został wybrany przez R jako przypadek podstawowy.
Ponieważ „x2” nie zostało uporządkowane, każdy z podanych kontrastów dotyczył x2 = „High”, a zatem x2 == „Low” oszacowano na -0,78 w stosunku do x2 = „High”. W tej chwili punkt przecięcia jest wartością szacunkową „Y”, gdy x2 = „High” i x1 = 0. Prawdopodobnie chcesz ponownie uruchomić regresję po zmianie kolejności poziomów (ale nie wprowadzając współczynnika uporządkowanego).
Wówczas szacunek „Średni” i „Wysoki” będzie bardziej zgodny z oczekiwaniami.
Edycja: Istnieją alternatywne układy kodowania (lub dokładniej układy matrycy modelu). Domyślnym wyborem dla kontrastów w R są „kontrasty leczenia”, które określają jeden poziom czynnika (lub jedną szczególną kombinację poziomów czynników) jako poziom odniesienia i raporty szacowane średnie różnice dla innych poziomów lub kombinacji. Możesz jednak ustawić poziom odniesienia jako ogólną średnią, zmuszając Punkt przecięcia do wartości 0 (niezalecane) lub używając jednego z innych opcji kontrastu:
Możesz wybrać różne kontrasty dla różnych czynników, chociaż wydaje się, że nałożyłoby to dodatkowe obciążenie interpretacyjne. S-Plus domyślnie stosuje kontrasty Helmerta, a SAS stosuje kontrasty leczenia, ale wybiera poziom ostatniego czynnika zamiast pierwszego jako poziom odniesienia.
źródło
x2
nie może mieć „bez wartości”, ponieważ musi to być jeden z „High”, „Medium” lub „Low”. Dzięki za odpowiedź.