Test Walda na regresję logistyczną

55

O ile rozumiem test Walda w kontekście regresji logistycznej służy do ustalenia, czy określona zmienna predykcyjna jest znacząca, czy nie. Odrzuca hipotezę zerową odpowiadającego współczynnikowi równego zero.X

Test polega na podzieleniu wartości współczynnika przez błąd standardowy .σ

Mylę się, że jest również znany jako Z-score i wskazuje, jak prawdopodobne jest, że dana obserwacja pochodzi z rozkładu normalnego (ze średnią zero).X/σ

użytkownik695652
źródło
2
Być może może być jednak na odwrót, ponieważ odpowiedź na to pytanie jest bardziej rozwinięta.
Firebug

Odpowiedzi:

86

Oszacowania współczynników i przechwytywania w regresji logistycznej (i dowolnym GLM) można znaleźć poprzez oszacowanie największej wiarygodności (MLE). Szacunki te są oznaczane w kapeluszu nad parametrami, coś θ . Nasz parametr będący przedmiotem zainteresowania jest oznaczony θ 0 i zwykle jest to 0, ponieważ chcemy sprawdzić, czy współczynnik różni się od 0, czy nie. Od asymptotycznej teorii MLE, wiemy, że różnica między θ i θ 0 będzie w przybliżeniu rozkład normalny ze średnią 0 (szczegóły można znaleźć w każdej książce statystyki matematycznej, takich jak Larry Wasserman na wszystkich statystyk ). Przypomnij sobie, że standardowe błędy to nic innego jakθ^θ0θ^θ0standardowe odchylenia statystyczne (Sokal i Rohlf piszą w swojej książce Biometry : „ statystyka to dowolna z wielu obliczonych lub oszacowanych wielkości statystycznych”, np. średnia, mediana, odchylenie standardowe, współczynnik korelacji, współczynnik regresji, ...). Dzielenie rozkładu normalnego ze średnią 0 i odchyleniem standardowym przez jego odchylenie standardowe da standardowy rozkład normalny ze średnią 0 i odchyleniem standardowym 1. Statystyka Walda jest zdefiniowana jako (np. Wasserman (2006): All of Statistics , strony 153, 214 -215): W = ( β - β 0 )σ lub W2=(β-β0)2

W=(β^β0)se^(β^)N(0,1)
Drugi sposób polega na tym, że kwadratowy z rozkładu normalnego jestχ21-Dystrybucja o 1 stopień swobody (suma dwóch kwadratu standardowe rozkładu normalnego będzieχ22 -dystrybucja z 2 stopniami swobody i tak dalej).
W2=(β^β0)2Var^(β^)χ12
χ12χ22

β0=0

W=β^se^(β^)N(0,1)

zt

ztzptzVar[β^|X]=σ2(XX)1σ2Xσ2σ^2=s2se^(βj^)=s2(XX)jj1tt

YBin(n,p)E(Y)=npVar(Y)=np(1p)ϕϕ=1ϕ<1ϕ>1ztp-wartości. W R, spójrz na te dwa przykłady:

Regresja logistyczna

mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")

mydata$rank <- factor(mydata$rank)

my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")

summary(my.mod)

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -3.989979   1.139951  -3.500 0.000465 ***
gre          0.002264   0.001094   2.070 0.038465 *  
gpa          0.804038   0.331819   2.423 0.015388 *  
rank2       -0.675443   0.316490  -2.134 0.032829 *  
rank3       -1.340204   0.345306  -3.881 0.000104 ***
rank4       -1.551464   0.417832  -3.713 0.000205 ***
   ---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for binomial family taken to be 1)

z


Normalna regresja liniowa (OLS)

summary(lm(Fertility~., data=swiss))

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)      66.91518   10.70604   6.250 1.91e-07 ***
Agriculture      -0.17211    0.07030  -2.448  0.01873 *  
Examination      -0.25801    0.25388  -1.016  0.31546    
Education        -0.87094    0.18303  -4.758 2.43e-05 ***
Catholic          0.10412    0.03526   2.953  0.00519 ** 
Infant.Mortality  1.07705    0.38172   2.822  0.00734 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 7.165 on 41 degrees of freedom

tzt

Kolejny powiązany post można znaleźć tutaj .

COOLSerdash
źródło
1
Dziękuję bardzo za ten miły post, który odpowiada na wszystkie moje pytania.
user695652
1
Tak więc praktycznie w odniesieniu do pierwszej części doskonałej odpowiedzi: jeśli z jakiegoś powodu miałbym jako wynik iloraz szans i statystykę Walda, mógłbym z nich obliczyć błąd standardowy na podstawie: SE = (1 / Wald- statystyka) * ln (OR) Czy to prawda? Dzięki!
Sander W. van der Laan,
1
@ SanderW.vanderLaan Dzięki za komentarz. Tak, uważam, że to prawda. Jeśli wykonasz regresję logistyczną, statystyki Wald będą wartością Z.
COOLSerdash,
2
Taka świetna odpowiedź !!. Mam kilka propozycji zmian: osobiście uważam, że ta odpowiedź łączy w sobie szczegóły z listami dziurkowania. Szczegółowo opisałbym regresję liniową wykorzystującą wariancję reszt na osobnym wykresie.
Haitao Du
1
Również w przypadku parametru dyspersji i połączenia z kodem R możemy otworzyć inną sekcję lub linię separacji, aby porozmawiać.
Haitao Du