Jeffrey Wooldridge w swojej ekonometrycznej analizie przekrojów i danych panelowych (strona 357) mówi, że empiryczny Hesjan „nie ma gwarancji, że będzie pozytywnie określony, a nawet dodatni półfinałowy, dla konkretnej próbki, z którą pracujemy”.
Wydaje mi się to niewłaściwe, ponieważ (oprócz problemów numerycznych) Hesjan musi być dodatnim półfinałem w wyniku definicji M-estymatora jako wartości parametru, który minimalizuje funkcję celu dla danej próbki i dobrze znany fakt, że przy (lokalnym) minimum Hessian jest dodatnim półfinałem.
Czy mój argument jest słuszny?
[EDYCJA: Instrukcja została usunięta w 2. edycji. z książki. Zobacz komentarz.]
TŁO Załóżmy, że θ N jest estymator uzyskać minimalizując 1
Oznaczmy Hesjan z przez , H ( q , θ ) i j = ∂ 2 q
Asymptotycznej kowariancji θ N polega , gdzie θ 0 jest prawdziwa wartość parametru. Jednym ze sposobów oszacowania tego jest użycie empirycznego Hesji
To określoności H , który jest w pytaniu.
źródło
Odpowiedzi:
Myślę, że masz rację. Rozwiążmy twój argument do jego istoty:
minimalizuje funkcjęQzdefiniowanej jakoQ(θ)=1θˆN Q Q ( θ ) = 1N.∑N.i=1q(wi,θ).
Niech będzie Hesjanem Q , skąd H ( θ ) = ∂ 2 QH Q H(θ)=∂2Q∂θi∂θj z definicji, a to z kolei według liniowości różnicowania wynosi .1N∑Ni=1H(wi,θn)
Zakładając, θ N leży wewnątrz domeny z P , wtedy H (θˆN Q musi być dodatnia pół określony.H(θˆN)
Jest to jedynie stwierdzenie dotyczące funkcji : sposób jej zdefiniowania jest jedynie rozproszeniem, z wyjątkiem przypadku, gdy założona zmienność q rzędu drugiego względem drugiego argumentu (Q q ) zapewnia różnicowość Q rzędu drugiego.θ Q
Znalezienie M-estymatorów może być trudne. Rozważ te dane dostarczone przez @mpiktas:
Procedura R w celu znalezienia estymatora M z dała rozwiązanie ( c 1 , c 2 ) = ( - 114,91316 , - 32,54386 )q((x,y),θ)=(y−c1xc2)4 (c1,c2) (−114.91316,−32.54386) . Wartość funkcji celu (średnia ) w tym punkcie wynosi 62,3542. Oto fabuła dopasowania:q
Oto wykres funkcji celu (log) w sąsiedztwie tego dopasowania:
Coś tu jest podejrzane: parametry dopasowania są bardzo dalekie od parametrów używanych do symulacji danych (blisko ) i nie wydajemy się mieć minimum: jesteśmy w wyjątkowo płytkiej dolinie, która jest pochylona w kierunku większych wartości obu parametrów:(0.3,0.2)
Negatywna determinanta Hesji w tym miejscu potwierdza, że nie jest to lokalne minimum! Niemniej jednak, patrząc na etykiety osi Z, można zauważyć, że funkcja ta jest płaska do pięciocyfrowej precyzji w całym regionie, ponieważ jest równa stałej 4,1329 (logarytm 62,354). Prawdopodobnie doprowadziło to minimalizator funkcji R (z jego domyślnymi tolerancjami) do wniosku, że był bliski minimum.
W rzeczywistości rozwiązanie jest dalekie od tego punktu. Aby mieć pewność, że go znalazłem, zastosowałem w Mathematica kosztowną pod względem obliczeniowym, ale bardzo skuteczną metodę „ Principal Axis ” , stosując 50-cyfrową precyzję (podstawa 10), aby uniknąć możliwych problemów numerycznych. Znajduje minimum w pobliżu ( c 1 , c 2 ) = ( 0,02506 , 7,55973 )(c1,c2)=(0.02506,7.55973) gdzie funkcja celu ma wartość 58,292655: około 6% mniej niż „minimum” znalezione przez R. To minimum występuje w skrajnie płaskiej części , ale mogę sprawić, by wyglądało (ledwo) jak prawdziwe minimum, z konturami eliptycznymi, poprzez wyolbrzymianie c2 kierunek na działce:
Kontury wahają się od 58,29266 w środku aż do 58,29284 w rogach (!). Oto widok 3D (ponownie celu dziennika):
Tutaj Hesjan jest pozytywnie określony: jego wartości własne wynoszą 55062.02 i 0,430978. Dlatego ten punkt jest lokalnym minimum (i prawdopodobnie globalnym minimum). Oto dopasowanie, które odpowiada:
Myślę, że jest lepszy od drugiego. Wartości parametrów są z pewnością bardziej realistyczne i jasne jest, że nie będziemy w stanie uzyskać lepszych wyników w przypadku tej rodziny krzywych.
Z tego przykładu możemy wyciągnąć użyteczne wnioski:
źródło
Cytat w całości można znaleźć tutaj .θ^N
W dalszej części swojej książki Wooldridge podaje przykłady szacunków Hesji, które z pewnością są liczbowo dodatnie określone. W praktyce nie-dodatnia definitywność Hesjan powinna wskazywać, że rozwiązanie znajduje się w punkcie granicznym lub algorytm nie znalazł rozwiązania. Co zwykle stanowi kolejny dowód, że dopasowany model może być nieodpowiedni dla danych.
Oto przykład liczbowy. Generuję nieliniowy problem najmniejszych kwadratów:
set.seed(3)
Wybrałem kwadratową funkcję celu zwykłej nieliniowej funkcji obiektywu najmniejszych kwadratów:
Oto kod w R do optymalizacji funkcji, jej gradientu i hessianu.
Najpierw sprawdź, czy gradient i hessian działają zgodnie z reklamą.
Gradient wynosi zero, ale hessian nie jest dodatni.
Uwaga: to moja trzecia próba udzielenia odpowiedzi. Mam nadzieję, że w końcu udało mi się podać dokładne stwierdzenia matematyczne, które wymknęły mi się z poprzednich wersji.
źródło
Hesjan jest nieokreślony w punkcie siodłowym. Jest możliwe, że może to być jedyny stacjonarny punkt we wnętrzu przestrzeni parametrów.
Aktualizacja: Pozwól mi rozwinąć. Po pierwsze, załóżmy, że empiryczny Hesjan istnieje wszędzie.
Gdybyθ^n jest lokalnym (a nawet globalnym) minimum ∑jaq( wja, ⋅ ) a we wnętrzu przestrzeni parametrów (przyjmowanej jako zbiór otwarty) koniecznie jest Hesjan ( 1 / N) ∑jaH.( wja, θ^n) jest dodatnim półfinałem. Jeśli nie wtedyθ^n nie jest lokalnym minimum. Wynika to z warunków optymalności drugiego rzędu - lokalnie∑jaq( wja, ⋅ ) nie może zmniejszać się w żadnym kierunku od θ^n .
Jednym ze źródeł zamieszania może być „działająca” definicja estymatora M. Chociaż w zasadzie estymator M należy zdefiniować jakoargminθ∑jaq( wja, θ ) , można to również zdefiniować jako rozwiązanie równania
Praktycznie rzecz biorąc, nawet pozytywny określony Hesjan, który jest prawie pojedynczy lub źle uwarunkowany, sugerowałby, że estymator jest słaby i masz więcej powodów do zmartwień niż szacowanie jego wariancji.
źródło
W tym wątku było wiele bicia wokół buszu w kwestii tego, czy Hesjan ma być pozytywny (pół) określony na poziomie lokalnym minimum. Wyjaśnię to jasno.
Zakładając, że funkcja celu i wszystkie funkcje ograniczenia są dwa razy w sposób ciągły różniczkowane, to w każdym lokalnym minimum, Hesjan z Lagrangian rzutowany na pustą przestrzeń jakobianu aktywnych wiązań musi być dodatni półfinałowy. Tj. JeśliZ jest więc podstawą zerowej przestrzeni jakobianów aktywnych ograniczeń ZT.∗ ( Hesjan z Lagrangian ) ∗ Z musi być dodatnia półfinałowa. To musi być pozytywnie określone dla ścisłego lokalnego minimum.
Tak więc Hesjan funkcji celu w ograniczonym problemie posiadającym aktywne ograniczenie (ograniczenia) nie musi być dodatnim półfinałem, jeśli istnieją aktywne ograniczenia.
Uwagi:
1) Aktywne ograniczenia obejmują wszystkie ograniczenia równości oraz ograniczenia nierówności, które są spełnione z równości.
2) Zobacz definicję Lagrangian na https://www.encyclopediaofmath.org/index.php/Karush-Kuhn-Tucker_conditions .
3) Jeśli wszystkie ograniczenia są liniowe, to Hesjan z Lagrangian = Hesjan funkcji celu, ponieważ 2. pochodne funkcji liniowych są zerowe. Ale nadal musisz wykonać jazz projekcyjny, jeśli którekolwiek z tych ograniczeń są aktywne. Zauważ, że dolne lub górne ograniczenia są szczególnymi przypadkami ograniczeń liniowej nierówności. Jeżeli jedynymi aktywnymi ograniczeniami są wiązania, rzutowanie Hesji na pustą przestrzeń jakobianów aktywnych wiązań sprowadza się do wyeliminowania wierszy i kolumn Hesji odpowiadających tym składnikom na ich granicach.
4) Ponieważ mnożniki Lagrange'a nieaktywnych wiązań są równe zero, jeśli nie ma aktywnych więzów, Hesjan Lagrangian = Hesjan funkcji celu, a macierz Tożsamości stanowi podstawę pustej przestrzeni jakobianu aktywnych wiązań, które skutkuje uproszczeniem kryterium będącego znanym warunkiem, że Hesjan funkcji celu jest dodatnim półfinałem dodatnim przy lokalnym minimum (dodatnim określonym, jeśli ścisłe lokalne minimum).
źródło
Pozytywne odpowiedzi powyżej są prawdziwe, ale pomijają kluczowe założenie identyfikacji - jeśli twój model nie zostanie zidentyfikowany (lub jeśli zostanie tylko zidentyfikowany), możesz rzeczywiście, jak słusznie wskazał Wooldridge, znaleźć się z empirycznym hesemianem nie PSD. Po prostu uruchom jakiś nie zabawkowy model psychometryczny / ekonometryczny i przekonaj się sam.
źródło