Czy empiryczny Hesjan estymatora M może być nieokreślony?

15

Jeffrey Wooldridge w swojej ekonometrycznej analizie przekrojów i danych panelowych (strona 357) mówi, że empiryczny Hesjan „nie ma gwarancji, że będzie pozytywnie określony, a nawet dodatni półfinałowy, dla konkretnej próbki, z którą pracujemy”.

Wydaje mi się to niewłaściwe, ponieważ (oprócz problemów numerycznych) Hesjan musi być dodatnim półfinałem w wyniku definicji M-estymatora jako wartości parametru, który minimalizuje funkcję celu dla danej próbki i dobrze znany fakt, że przy (lokalnym) minimum Hessian jest dodatnim półfinałem.

Czy mój argument jest słuszny?

[EDYCJA: Instrukcja została usunięta w 2. edycji. z książki. Zobacz komentarz.]

TŁO Załóżmy, że θ N jest estymator uzyskać minimalizując 1θ^N.

1N.ja=1N.q(wja,θ),
gdziewjaoznaczai-tą obserwację.

Oznaczmy Hesjan z q przez , H ( q , θ ) i j = 2 qH

H(q,θ)ij=2qθiθj

Asymptotycznej kowariancji θ Nθ^n polega , gdzie θ 0 jest prawdziwa wartość parametru. Jednym ze sposobów oszacowania tego jest użycie empirycznego HesjiE[H(q,θ0)]θ0

H^=1Ni=1NH(wi,θ^n)

To określoności H , który jest w pytaniu.H^

Jyotirmoy Bhattacharya
źródło
1
@Jyotirmoy, co jeśli minimum dzieje się na granicy przestrzeni parametrów?
kardynał
@kardynał. Masz rację, mój argument nie zadziała w tym przypadku. Ale Wooldridge rozważa przypadek, w którym minimum znajduje się we wnętrzu. Czy on się nie myli w tym przypadku?
Jyotirmoy Bhattacharya
@Jyotirmoy, z pewnością może być tylko pozytywny półfinał. Pomyśl o funkcjach liniowych lub funkcji, w której zbiór punktów minimalnych tworzy wypukły wielopunkt. Dla prostszego przykładu rozważ dowolny wielomian przy x = 0f(x)=x2nx=0 .
kardynał
1
@kardynał. Prawdziwe. W cytowanym stwierdzeniu niepokoi mnie wyrażenie „nawet pozytywne półfinały”.
Jyotirmoy Bhattacharya
@Jyotirmoy, czy istnieje jakaś konkretna forma M-estymatora podana w książce, którą możesz podać? Podaj również rozważaną przestrzeń parametrów. Może wtedy uda nam się ustalić, co autor miał na myśli. Ogólnie rzecz biorąc, myślę, że już ustaliliśmy, że twierdzenie autora jest prawidłowe. Nałożenie dalszych ograniczeń na formę lub rozważaną przestrzeń parametrów może to zmienić. q
kardynał

Odpowiedzi:

16

Myślę, że masz rację. Rozwiążmy twój argument do jego istoty:

  1. minimalizuje funkcjęQzdefiniowanej jakoQ(θ)=1θ^NQQ(θ)=1Ni=1Nq(wi,θ).

  2. Niech będzie Hesjanem Q , skąd H ( θ ) = 2 QHQH(θ)=2Qθiθj z definicji, a to z kolei według liniowości różnicowania wynosi .1Ni=1NH(wi,θn)

  3. Zakładając, θ N leży wewnątrz domeny z P , wtedy H (θ^NQmusi być dodatnia pół określony.H(θ^N)

Jest to jedynie stwierdzenie dotyczące funkcji : sposób jej zdefiniowania jest jedynie rozproszeniem, z wyjątkiem przypadku, gdy założona zmienność q rzędu drugiego względem drugiego argumentu (Qq ) zapewnia różnicowość Q rzędu drugiego.θQ


Znalezienie M-estymatorów może być trudne. Rozważ te dane dostarczone przez @mpiktas:

{1.168042, 0.3998378}, {1.807516, 0.5939584}, {1.384942, 3.6700205}, {1.327734, -3.3390724}, {1.602101, 4.1317608}, {1.604394, -1.9045958}, {1.124633, -3.0865249}, {1.294601, -1.8331763},{1.577610, 1.0865977}, { 1.630979, 0.7869717}

Procedura R w celu znalezienia estymatora M z dała rozwiązanie ( c 1 , c 2 ) = ( - 114,91316 , - 32,54386 )q((x,y),θ)=(yc1xc2)4(c1,c2)(114.91316,32.54386) . Wartość funkcji celu (średnia ) w tym punkcie wynosi 62,3542. Oto fabuła dopasowania:q

Dopasuj 1

Oto wykres funkcji celu (log) w sąsiedztwie tego dopasowania:

Cel 1

Coś tu jest podejrzane: parametry dopasowania są bardzo dalekie od parametrów używanych do symulacji danych (blisko ) i nie wydajemy się mieć minimum: jesteśmy w wyjątkowo płytkiej dolinie, która jest pochylona w kierunku większych wartości obu parametrów:(0.3,0.2)

Cel 1, widok 3D

Negatywna determinanta Hesji w tym miejscu potwierdza, że nie jest to lokalne minimum! Niemniej jednak, patrząc na etykiety osi Z, można zauważyć, że funkcja ta jest płaska do pięciocyfrowej precyzji w całym regionie, ponieważ jest równa stałej 4,1329 (logarytm 62,354). Prawdopodobnie doprowadziło to minimalizator funkcji R (z jego domyślnymi tolerancjami) do wniosku, że był bliski minimum.

W rzeczywistości rozwiązanie jest dalekie od tego punktu. Aby mieć pewność, że go znalazłem, zastosowałem w Mathematica kosztowną pod względem obliczeniowym, ale bardzo skuteczną metodę „ Principal Axis ” , stosując 50-cyfrową precyzję (podstawa 10), aby uniknąć możliwych problemów numerycznych. Znajduje minimum w pobliżu ( c 1 , c 2 ) = ( 0,02506 , 7,55973 )(c1,c2)=(0.02506,7.55973) gdzie funkcja celu ma wartość 58,292655: około 6% mniej niż „minimum” znalezione przez R. To minimum występuje w skrajnie płaskiej części , ale mogę sprawić, by wyglądało (ledwo) jak prawdziwe minimum, z konturami eliptycznymi, poprzez wyolbrzymianie c2 kierunek na działce:

Cel 2

Kontury wahają się od 58,29266 w środku aż do 58,29284 w rogach (!). Oto widok 3D (ponownie celu dziennika):

Cel 2, widok 3D

Tutaj Hesjan jest pozytywnie określony: jego wartości własne wynoszą 55062.02 i 0,430978. Dlatego ten punkt jest lokalnym minimum (i prawdopodobnie globalnym minimum). Oto dopasowanie, które odpowiada:

Dopasuj 2

Myślę, że jest lepszy od drugiego. Wartości parametrów są z pewnością bardziej realistyczne i jasne jest, że nie będziemy w stanie uzyskać lepszych wyników w przypadku tej rodziny krzywych.

Z tego przykładu możemy wyciągnąć użyteczne wnioski:

  1. Optymalizacja numeryczna może być trudna, szczególnie w przypadku dopasowania nieliniowego i niekwadratowych funkcji strat. W związku z tym:
  2. Sprawdź dwukrotnie wyniki na jak najwięcej sposobów, w tym:
  3. Wykresuj funkcję celu, kiedy tylko możesz.
  4. Kiedy wyniki liczbowe wydają się naruszać twierdzenia matematyczne, bądźcie bardzo podejrzliwi.
  5. Gdy wyniki statystyczne są zaskakujące - takie jak zaskakujące wartości parametrów zwrócone przez kod R - bądź wyjątkowo podejrzliwy.
Whuber
źródło
+1, niezła analiza. Myślę, że dlatego Wooldridge zawarł tę uwagę. Nadal uważam, że można pomyśleć o pewnym przykładzie, w którym hessian będzie nieokreślony. Na przykład sztucznie ogranicza przestrzeń parametrów. W tym przykładzie przestrzenią parametrów jest cała płaszczyzna, dlatego lokalne minimum da pół-dodatni hessian. Myślę, że nadszedł czas, aby napisać miły e-mail do Wooldridge, aby uzyskać odpowiedź na to pytanie :)
mpiktas
@mpiktas Tak, jestem pewien, że istnieją problemy, w których wewnętrzne globalne minimum ma nieokreślony Hesjan, ale gdzie wszystkie parametry są identyfikowalne. Ale po prostu niemożliwe jest, aby Hesjan przy wystarczająco gładkim wewnętrznym minimum globalnym był nieokreślony. Tego rodzaju rzeczy zostały wielokrotnie udowodnione, na przykład u Milnora Topologii Milnora z innego punktu widzenia . Podejrzewam, że Wooldridge mógł zostać wprowadzony w błąd przez błędne numeryczne „rozwiązania”. (
Nawiasem mówiąc,
nawet na granicy, Hesjan będzie pozytywny? Sprawdzę książkę, widzę, że naprawdę brakuje mi rozległej wiedzy w tej dziedzinie. Klasyczne twierdzenia są bardzo proste, więc założyłem, że nie powinno być czegoś bardzo skomplikowanego. To może jeden z powodów, dla których tak trudno mi było odpowiedzieć na pytanie.
mpiktas
@mpiktas Na granicy Hesji niekoniecznie trzeba nawet zdefiniować . Idea jest następująca: jeśli macierz pochodnej jakobińskiej / Heskiej / drugiej jest zdefiniowana w punkcie krytycznym, to w sąsiedztwie funkcja działa jak postać kwadratowa określona przez tę macierz. Jeśli macierz ma dodatnie i ujemne wartości własne, funkcja musi wzrosnąć w niektórych kierunkach, a zmniejszyć w innych: nie może być ekstremum lokalnym. Właśnie to dotyczyło @Jyotirmoy w ofercie, która wydaje się zaprzeczać tej podstawowej własności.
whuber
Dziękuję zarówno wam, jak i @mpiktas za bardzo miłą analizę. Zgadzam się z tobą, że Wooldridge myli trudności liczbowe z teoretycznymi właściwościami estymatora. Zobaczmy, czy są jakieś inne odpowiedzi.
Jyotirmoy Bhattacharya
7

Cytat w całości można znaleźć tutaj . θ^N

minθΘN1i=1Nq(wi,θ)

θ^NΘH^ ) jest dodatni pół określony.

N1i=1Nq(wi,θ)θ0

minθΘEq(w,θ).

N1i=1Nq(wi,θ)Θ w którym Hesjan funkcji celu nie musi być określony dodatnio.

W dalszej części swojej książki Wooldridge podaje przykłady szacunków Hesji, które z pewnością są liczbowo dodatnie określone. W praktyce nie-dodatnia definitywność Hesjan powinna wskazywać, że rozwiązanie znajduje się w punkcie granicznym lub algorytm nie znalazł rozwiązania. Co zwykle stanowi kolejny dowód, że dopasowany model może być nieodpowiedni dla danych.

Oto przykład liczbowy. Generuję nieliniowy problem najmniejszych kwadratów:

yi=c1xic2+εi

X[1,2]εσ2set.seed(3)xiyja

Wybrałem kwadratową funkcję celu zwykłej nieliniowej funkcji obiektywu najmniejszych kwadratów:

q(w,θ)=(y-do1xjado2))4

Oto kod w R do optymalizacji funkcji, jej gradientu i hessianu.

##First set-up the epxressions for optimising function, its gradient and hessian.
##I use symbolic derivation of R to guard against human error    
mt <- expression((y-c1*x^c2)^4)

gradmt <- c(D(mt,"c1"),D(mt,"c2"))

hessmt <- lapply(gradmt,function(l)c(D(l,"c1"),D(l,"c2")))

##Evaluate the expressions on data to get the empirical values. 
##Note there was a bug in previous version of the answer res should not be squared.
optf <- function(p) {
    res <- eval(mt,list(y=y,x=x,c1=p[1],c2=p[2]))
    mean(res)
}

gf <- function(p) {
    evl <- list(y=y,x=x,c1=p[1],c2=p[2]) 
    res <- sapply(gradmt,function(l)eval(l,evl))
    apply(res,2,mean)
}

hesf <- function(p) {
    evl <- list(y=y,x=x,c1=p[1],c2=p[2]) 
    res1 <- lapply(hessmt,function(l)sapply(l,function(ll)eval(ll,evl)))
    res <- sapply(res1,function(l)apply(l,2,mean))
    res
}

Najpierw sprawdź, czy gradient i hessian działają zgodnie z reklamą.

set.seed(3)
x <- runif(10,1,2)
y <- 0.3*x^0.2

> optf(c(0.3,0.2))
[1] 0
> gf(c(0.3,0.2))
[1] 0 0
> hesf(c(0.3,0.2))
     [,1] [,2]
[1,]    0    0
[2,]    0    0
> eigen(hesf(c(0.3,0.2)))$values
[1] 0 0

xy

> df <- read.csv("badhessian.csv")
> df
          x          y
1  1.168042  0.3998378
2  1.807516  0.5939584
3  1.384942  3.6700205
4  1.327734 -3.3390724
5  1.602101  4.1317608
6  1.604394 -1.9045958
7  1.124633 -3.0865249
8  1.294601 -1.8331763
9  1.577610  1.0865977
10 1.630979  0.7869717
> x <- df$x
> y <- df$y
> opt <- optim(c(1,1),optf,gr=gf,method="BFGS")  
> opt$par
[1] -114.91316  -32.54386
> gf(opt$par)
[1] -0.0005795979 -0.0002399711
> hesf(opt$par)
              [,1]         [,2]
[1,]  0.0002514806 -0.003670634
[2,] -0.0036706345  0.050998404
> eigen(hesf(opt$par))$values
[1]  5.126253e-02 -1.264959e-05

Gradient wynosi zero, ale hessian nie jest dodatni.

Uwaga: to moja trzecia próba udzielenia odpowiedzi. Mam nadzieję, że w końcu udało mi się podać dokładne stwierdzenia matematyczne, które wymknęły mi się z poprzednich wersji.

mpiktas
źródło
w po lewej stronie i y i xpo prawej stronie. zgadujęw=(x,y)czy jakoś tak. Zakładam też, że do kwadratu powinno się zdarzyćy-m(x,θ) i nie tylko m(x,θ). Nie?
kardynał
@mpiktas, nie jestem do końca pewien, jak interpretować pierwsze zdanie ze względu na brzmienie. Widzę dwa sposoby, jeden, który nazwałbym poprawnym, a drugi nie. Ponadto, ściśle mówiąc, nie zgadzam się z drugim zdaniem w pierwszym akapicie. Jak wykazałem powyżej, możliwe jest bycie na poziomie lokalnym minimum we wnętrzu przestrzeni parametrów bez wyraźnego określenia Hesji.
kardynał
@cardinal, tak masz rację. Używa Wooldridgew ze względów spójności y i xjest zarezerwowany dla odpowiedzi i predyktorów w całej książce. W tym przykładziew=(x,y).
mpiktas
@ cardinal, poprawiłem swoje brzmienie. Teraz powinno być dobrze. Dzięki za zwrócenie uwagi na problem.
mpiktas
@mptikas. Ani Wooldridge, ani ja nie twierdzimy, że Hesjan musi być wszędzie zdecydowanie pozytywny. Twierdzę, że dla wewnętrznego maksimum empiryczny Hesjan musi być dodatnim półfinałem jako niezbędny warunek płynnej funkcji osiągającej maksimum. Wooldridge wydaje się mówić coś innego.
Jyotirmoy Bhattacharya
3

Hesjan jest nieokreślony w punkcie siodłowym. Jest możliwe, że może to być jedyny stacjonarny punkt we wnętrzu przestrzeni parametrów.

Aktualizacja: Pozwól mi rozwinąć. Po pierwsze, załóżmy, że empiryczny Hesjan istnieje wszędzie.

Gdyby θ^n jest lokalnym (a nawet globalnym) minimum jaq(wja,) a we wnętrzu przestrzeni parametrów (przyjmowanej jako zbiór otwarty) koniecznie jest Hesjan (1/N.)jaH.(wja,θ^n)jest dodatnim półfinałem. Jeśli nie wtedyθ^nnie jest lokalnym minimum. Wynika to z warunków optymalności drugiego rzędu - lokalniejaq(wja,) nie może zmniejszać się w żadnym kierunku od θ^n.

Jednym ze źródeł zamieszania może być „działająca” definicja estymatora M. Chociaż w zasadzie estymator M należy zdefiniować jakoargminθjaq(wja,θ), można to również zdefiniować jako rozwiązanie równania

0=jaq˙(wja,θ),
gdzie q˙ jest gradientem q(w,θ) z szacunkiem do θ. Jest to czasami nazywaneΨ-rodzaj. W tym drugim przypadku rozwiązaniem tego równania nie musi być lokalne minimum. Może to być punkt siodłowy iw tym przypadku Hesjan byłby nieokreślony.

Praktycznie rzecz biorąc, nawet pozytywny określony Hesjan, który jest prawie pojedynczy lub źle uwarunkowany, sugerowałby, że estymator jest słaby i masz więcej powodów do zmartwień niż szacowanie jego wariancji.

vqv
źródło
czy mógłbyś dostosować swoją odpowiedź, aby pasowała do zapisu pytania? Do czego jestx2)-y2)odnosząc się? Gdzie to jest wstawiane do równań podanych w pytaniu?
Prawdopodobieństwo
+1 Dobre punkty w aktualizacji, szczególnie ostatni akapit. Gdy Hesjan jest dostępny - jak to domyślnie przyjmuje się podczas tej dyskusji - automatycznie użyje się jego pozytywnej definitywności jako jednego z kryteriów testowania dowolnego punktu krytycznego i dlatego problem ten po prostu nie może powstać. To prowadzi mnie do przekonania, że ​​cytat z Wooldridge musi dotyczyć Hesji w domniemanym globalnym minimum, a nie w krytycznym punkcie.
whuber
1

W tym wątku było wiele bicia wokół buszu w kwestii tego, czy Hesjan ma być pozytywny (pół) określony na poziomie lokalnym minimum. Wyjaśnię to jasno.

Zakładając, że funkcja celu i wszystkie funkcje ograniczenia są dwa razy w sposób ciągły różniczkowane, to w każdym lokalnym minimum, Hesjan z Lagrangian rzutowany na pustą przestrzeń jakobianu aktywnych wiązań musi być dodatni półfinałowy. Tj. JeśliZ jest więc podstawą zerowej przestrzeni jakobianów aktywnych ograniczeń ZT.(Hesjan z Lagrangian)Zmusi być dodatnia półfinałowa. To musi być pozytywnie określone dla ścisłego lokalnego minimum.

Tak więc Hesjan funkcji celu w ograniczonym problemie posiadającym aktywne ograniczenie (ograniczenia) nie musi być dodatnim półfinałem, jeśli istnieją aktywne ograniczenia.

Uwagi:

1) Aktywne ograniczenia obejmują wszystkie ograniczenia równości oraz ograniczenia nierówności, które są spełnione z równości.

2) Zobacz definicję Lagrangian na https://www.encyclopediaofmath.org/index.php/Karush-Kuhn-Tucker_conditions .

3) Jeśli wszystkie ograniczenia są liniowe, to Hesjan z Lagrangian = Hesjan funkcji celu, ponieważ 2. pochodne funkcji liniowych są zerowe. Ale nadal musisz wykonać jazz projekcyjny, jeśli którekolwiek z tych ograniczeń są aktywne. Zauważ, że dolne lub górne ograniczenia są szczególnymi przypadkami ograniczeń liniowej nierówności. Jeżeli jedynymi aktywnymi ograniczeniami są wiązania, rzutowanie Hesji na pustą przestrzeń jakobianów aktywnych wiązań sprowadza się do wyeliminowania wierszy i kolumn Hesji odpowiadających tym składnikom na ich granicach.

4) Ponieważ mnożniki Lagrange'a nieaktywnych wiązań są równe zero, jeśli nie ma aktywnych więzów, Hesjan Lagrangian = Hesjan funkcji celu, a macierz Tożsamości stanowi podstawę pustej przestrzeni jakobianu aktywnych wiązań, które skutkuje uproszczeniem kryterium będącego znanym warunkiem, że Hesjan funkcji celu jest dodatnim półfinałem dodatnim przy lokalnym minimum (dodatnim określonym, jeśli ścisłe lokalne minimum).

Mark L. Stone
źródło
0

Pozytywne odpowiedzi powyżej są prawdziwe, ale pomijają kluczowe założenie identyfikacji - jeśli twój model nie zostanie zidentyfikowany (lub jeśli zostanie tylko zidentyfikowany), możesz rzeczywiście, jak słusznie wskazał Wooldridge, znaleźć się z empirycznym hesemianem nie PSD. Po prostu uruchom jakiś nie zabawkowy model psychometryczny / ekonometryczny i przekonaj się sam.

Vlad
źródło
Ponieważ nie wydaje się to możliwe z matematycznego punktu widzenia, czy mógłby Pan przedstawić prosty, jasny przykład, aby wykazać, że Hessian ciągle zmienianej funkcji celu może nie być PSD na poziomie globalnym?
whuber