Próbuję zrozumieć, jak działają funkcje wpływu. Czy ktoś mógłby wyjaśnić w kontekście prostej regresji OLS
gdzie chcę funkcję wpływu dla .
regression
least-squares
stevejb
źródło
źródło
Odpowiedzi:
Funkcje wpływu są w zasadzie narzędziem analitycznym, które można wykorzystać do oceny wpływu (lub „wpływu”) usunięcia obserwacji na wartość statystyki bez konieczności ponownego obliczania tej statystyki . Można je również wykorzystać do tworzenia asymptotycznych oszacowań wariancji. Jeśli wpływ jest równy wariancja asymptotyczna wynosi .I 2ja ja2)n
Sposób, w jaki rozumiem funkcje wpływu, jest następujący. Masz jakiś teoretyczny CDF, oznaczony . Dla prostych OLS maszfaja( y) = Pr ( Yja< yja)
Φ(z)σ2S(F)FFF(i)(z)=(1+ζ)F(z)-ζδ(i)(z)δi(z)=I(yi<z)ζ=1
Zauważ, że więc otrzymujemy: S[ F ( i ) (z,ζ)]≈S[F(z)]+ζ [ ∂ S [ F ( i ) ( z , ζ ) ]fa( i )( z,0)=F(z)
Pochodna cząstkowa nazywana jest tutaj funkcją wpływu. Jest to więc przybliżona korekta „pierwszego rzędu”, którą należy wprowadzić do statystyki z powodu usunięcia „i-tej” obserwacji. Zauważ, że w regresji reszta nie idzie do zera asymetrycznie, więc jest to przybliżenie zmian, które możesz faktycznie uzyskać. Teraz napisz jako:β
Zatem beta jest funkcją dwóch statystyk: wariancji X i kowariancji między X i Y. Te dwie statystyki mają reprezentacje w kategoriach CDF, ponieważ:
v a r ( X ) = ∫ ( X - μ x ( F ) ) 2 d F μ x = ∫ x d F.
Aby usunąć i-tą obserwację, zamieniamy w obu całkach, aby dać:fa→ F.( i )= ( 1 + ζ) F- ζδ( i )
ignorując warunki i upraszczając, otrzymujemy: Podobnie dla kowariancjiζ2)
Możemy teraz wyrazić jako funkcję . To jest:β( i ) ζ
Możemy teraz korzystać z serii Taylor:
Uproszczenie tego daje:
Po podłączeniu wartości statystyki , , i otrzymujemy:μy μx v a r ( X) ζ= 1n - 1
I możesz zobaczyć, w jaki sposób można oszacować efekt usunięcia pojedynczej obserwacji bez konieczności ponownego dopasowywania modelu. Możesz także zobaczyć, w jaki sposób x równe średniej nie ma wpływu na nachylenie linii . Pomyśl o tym, a zobaczysz, jak to ma sens. Możesz również napisać to bardziej zwięźle w kategoriach standardowych wartości (podobnie jak dla y):x~= x - x¯¯¯sx
źródło
Oto super ogólny sposób mówienia o funkcjach wpływu regresji. Najpierw zajmę się jednym ze sposobów prezentacji funkcji wpływu:
Załóżmy, że jest dystrybucją na . Funkcja rozkładu zanieczyszczonej , można określić jako: gdzie jest miara prawdopodobieństwa na , który wyznacza prawdopodobieństwo 1 do i 0 do wszystkich innych elementów .fa Σ faϵ( x )
Na tej podstawie możemy dość łatwo zdefiniować funkcję wpływu:
Funkcję wpływu na na , jest zdefiniowany jako:θ^ fa ψja: X→ Γ
Stąd można zobaczyć, że funkcja wpływu jest pochodną Gateaux w w kierunku . To sprawia, że interpretacja funkcji wpływu (dla mnie) jest nieco jaśniejsza: funkcja wpływu mówi ci, jaki wpływ ma konkretna obserwacja na estymator.θ^ fa δx
Oszacowanie OLS stanowi rozwiązanie problemu:
Wyobraź sobie skażoną dystrybucję, która kładzie nieco większy nacisk na obserwację :( x , y)
Przyjmowanie warunków pierwszego zamówienia:
Ponieważ funkcja wpływu jest tylko pochodną Gateaux, możemy teraz powiedzieć:
Przy , , więc:θϵ = 0 θ^ϵ= θ^= E[ XT.X]- 1mi[ XT.Y]
Skończonym próbkowym odpowiednikiem tej funkcji wpływu jest:
Ogólnie rzecz biorąc, uważam, że z tym frameworkiem (działającym z funkcjami wpływowymi jako pochodnymi Gateaux) łatwiej sobie poradzić.
źródło