Funkcje wpływu i OLS

15

Próbuję zrozumieć, jak działają funkcje wpływu. Czy ktoś mógłby wyjaśnić w kontekście prostej regresji OLS

yi=α+βxi+εi

gdzie chcę funkcję wpływu dla .β

stevejb
źródło
2
Nie ma jeszcze konkretnego pytania: czy chcesz zobaczyć, jak obliczana jest funkcja wpływu? Czy chcesz konkretny przykład empiryczny? Heurystyczne wyjaśnienie, co to znaczy?
whuber
1
Jeśli spojrzysz na artykuł Franka Critchleya z 1986 roku, „wpływaj na funkcje w głównych komponentach” (nie pamiętam dokładnej nazwy artykułu). Definiuje tutaj funkcję wpływu dla zwykłej regresji (która może, ale nie musi, potwierdzić moją odpowiedź).
probabilityislogic

Odpowiedzi:

15

Funkcje wpływu są w zasadzie narzędziem analitycznym, które można wykorzystać do oceny wpływu (lub „wpływu”) usunięcia obserwacji na wartość statystyki bez konieczności ponownego obliczania tej statystyki . Można je również wykorzystać do tworzenia asymptotycznych oszacowań wariancji. Jeśli wpływ jest równy wariancja asymptotyczna wynosi .I 2jaja2)n

Sposób, w jaki rozumiem funkcje wpływu, jest następujący. Masz jakiś teoretyczny CDF, oznaczony . Dla prostych OLS maszfaja(y)=P.r(Yja<yja)

Φ(z)σ2S(F)FFF(i)(z)=(1+ζ)F(z)-ζδ(i)(z)δi(z)=I(yi<z)ζ=1

P.r(Yja<yja)=P.r(α+βxja+ϵja<yja)=Φ(yja-(α+βxja)σ)
Gdzie to standardowy normalny CDF, a to wariancja błędu. Teraz możesz pokazać, że każda statystyka będzie funkcją tego CDF, stąd zapis (tj. Jakaś funkcja ). Załóżmy teraz, że zmienimy funkcję „trochę” na Gdzie i . Zatem reprezentuje CDF danych z usuniętym „i” punktem danych. Możemy zrobić serię TaylorΦ(z)σ2)S.(fa)fafafa(ja)(z)=(1+ζ)fa(z)-ζδ(ja)(z)δja(z)=ja(yja<z) F(i)F(i)(z)ζ=0ζ=1n-1fa(ja)fa(ja)(z) about . To daje:ζ=0

S.[fa(ja)(z,ζ)]S.[fa(ja)(z,0)]+ζ[S.[fa(ja)(z,ζ)]ζ|ζ=0]

Zauważ, że więc otrzymujemy: S[ F ( i ) (z,ζ)]S[F(z)]+ζ [ S [ F ( i ) ( z , ζ ) ]F(i)(z,0)=F(z)

S[F(i)(z,ζ)]S[F(z)]+ζ[S[F(i)(z,ζ)]ζ|ζ=0]

Pochodna cząstkowa nazywana jest tutaj funkcją wpływu. Jest to więc przybliżona korekta „pierwszego rzędu”, którą należy wprowadzić do statystyki z powodu usunięcia „i-tej” obserwacji. Zauważ, że w regresji reszta nie idzie do zera asymetrycznie, więc jest to przybliżenie zmian, które możesz faktycznie uzyskać. Teraz napisz jako:β

β=1nj=1n(yjy¯)(xjx¯)1nj=1n(xjx¯)2

Zatem beta jest funkcją dwóch statystyk: wariancji X i kowariancji między X i Y. Te dwie statystyki mają reprezentacje w kategoriach CDF, ponieważ:

v a r ( X ) = ( X - μ x ( F ) ) 2 d F μ x = x d F.

cov(X,Y)=(Xμx(F))(Yμy(F))dF
i gdzie
var(X)=(Xμx(F))2dF
μx=xdF

Aby usunąć i-tą obserwację, zamieniamy w obu całkach, aby dać:FF(i)=(1+ζ)Fζδ(i)

μx(i)=xd[(1+ζ)Fζδ(i)]=μxζ(xiμx)
V.zar(X)(ja)=(X-μx(ja))2)refa(ja)=(X-μx+ζ(xja-μx))2)re[(1+ζ)fa-ζδ(ja)]

ignorując warunki i upraszczając, otrzymujemy: Podobnie dla kowariancji ζ2)

V.zar(X)(ja)V.zar(X)-ζ[(xja-μx)2)-V.zar(X)]
doov(X,Y)(ja)doov(X,Y)-ζ[(xja-μx)(yja-μy)-doov(X,Y)]

Możemy teraz wyrazić jako funkcję . To jest:β(ja)ζ

β(ja)(ζ)doov(X,Y)-ζ[(xja-μx)(yja-μy)-doov(X,Y)]V.zar(X)-ζ[(xja-μx)2)-V.zar(X)]

Możemy teraz korzystać z serii Taylor:

β(ja)(ζ)β(ja)(0)+ζ[β(ja)(ζ)ζ]ζ=0

Uproszczenie tego daje:

β(ja)(ζ)β-ζ[(xja-μx)(yja-μy)V.zar(X)-β(xja-μx)2)V.zar(X)]

Po podłączeniu wartości statystyki , , i otrzymujemy:μyμxvzar(X)ζ=1n-1

β(ja)β-xja-x¯n-1[yja-y¯1njot=1n(xjot-x¯)2)-βxja-x¯1njot=1n(xjot-x¯)2)]

I możesz zobaczyć, w jaki sposób można oszacować efekt usunięcia pojedynczej obserwacji bez konieczności ponownego dopasowywania modelu. Możesz także zobaczyć, w jaki sposób x równe średniej nie ma wpływu na nachylenie linii . Pomyśl o tym, a zobaczysz, jak to ma sens. Możesz również napisać to bardziej zwięźle w kategoriach standardowych wartości (podobnie jak dla y):x~=x-x¯sx

β(ja)β-xja~n-1[yja~sysx-xja~β]
prawdopodobieństwo prawdopodobieństwa
źródło
Czyli historia dotyczy wpływu dodatkowego punktu danych? Bardziej przyzwyczaiłem się do odpowiedzi impulsowej dla danych szeregów czasowych, w kontekście statystycznym cały wpływ byłby opisany efektem krańcowym lub (lepszym wyborem) współczynnikiem beta ze standardowej regresji. Naprawdę potrzebuję więcej kontekstu, aby ocenić pytanie i odpowiedź, ale myślę, że ten jest miły (+1 jeszcze nie czeka, ale czeka).
Dmitrij Celov,
@dmitrij - To właśnie sugerowano (lub wywnioskowałem) z linku - chodzi o właściwości odporności statystyki. Funkcje wpływu są nieco bardziej ogólne niż 1 punkt danych - możesz ponownie zdefiniować funkcję delta, aby była ich sumą (tak wiele obserwacji). Do pewnego stopnia uważałbym go za „tani nóż” - ponieważ nie wymaga on ponownego dopasowania modelu.
probabilityislogic
10

Oto super ogólny sposób mówienia o funkcjach wpływu regresji. Najpierw zajmę się jednym ze sposobów prezentacji funkcji wpływu:

Załóżmy, że jest dystrybucją na . Funkcja rozkładu zanieczyszczonej , można określić jako: gdzie jest miara prawdopodobieństwa na , który wyznacza prawdopodobieństwo 1 do i 0 do wszystkich innych elementów .faΣfaϵ(x)

faϵ(x)=(1-ϵ)fa+ϵδx
δxΣ{x}Σ

Na tej podstawie możemy dość łatwo zdefiniować funkcję wpływu:

Funkcję wpływu na na , jest zdefiniowany jako: θ^faψja:XΓ

ψθ^,fa(x)=limϵ0θ^(faϵ(x))-θ^(fa)ϵ

Stąd można zobaczyć, że funkcja wpływu jest pochodną Gateaux w w kierunku . To sprawia, że ​​interpretacja funkcji wpływu (dla mnie) jest nieco jaśniejsza: funkcja wpływu mówi ci, jaki wpływ ma konkretna obserwacja na estymator.θ^faδx

Oszacowanie OLS stanowi rozwiązanie problemu:

θ^=argminθmi[(Y-Xθ)T.(Y-Xθ)]

Wyobraź sobie skażoną dystrybucję, która kładzie nieco większy nacisk na obserwację :(x,y)

θ^ϵ=argminθ(1-ϵ)mi[(Y-Xθ)T.(Y-Xθ)]+ϵ(y-xθ)T.(y-xθ)

Przyjmowanie warunków pierwszego zamówienia:

{(1-ϵ)mi[XT.X]+ϵxT.x}θ^ϵ=(1-ϵ)mi[XT.Y]+ϵxT.y

Ponieważ funkcja wpływu jest tylko pochodną Gateaux, możemy teraz powiedzieć:

-(mi[XT.X]+xT.x)θ^ϵ+mi[XT.X]ψθ(x,y)=-mi[XT.Y]+xT.y

Przy , , więc:θϵ=0θ^ϵ=θ^=mi[XT.X]-1mi[XT.Y]

ψθ(x,y)=mi[XT.X]-1xT.(y-xθ)

Skończonym próbkowym odpowiednikiem tej funkcji wpływu jest:

ψθ(x,y)=(1N.jaXjaT.Xja)-1xT.(y-xθ)

Ogólnie rzecz biorąc, uważam, że z tym frameworkiem (działającym z funkcjami wpływowymi jako pochodnymi Gateaux) łatwiej sobie poradzić.

jayk
źródło