Definicja i zbieżność iteracyjnie ważonych najmniejszych kwadratów

16

Używałem iteracyjnie ponownie ważonych najmniejszych kwadratów (IRLS), aby zminimalizować funkcje następującej formy,

J(m)=i=1Nρ(|xim|)

gdzie jest liczbą wystąpień , jest dokładnym oszacowaniem, którego chcę, a jest odpowiednią solidną funkcją kary. Powiedzmy, że jest wypukły (choć niekoniecznie ściśle) i na razie różnicowalny. Dobrym przykładem takiego jest funkcja straty Huber .NxiRmRρρ

To, co robiłem, to różnicowanie względem (i manipulowanie) w celu uzyskania,J(m)m

dJdm=i=1Nρ(|xim|)|xim|(xim)

i iteracyjnie rozwiązujemy ten problem, ustawiając go na 0 i ustawiając wagi przy iteracji na (uwaga, że postrzegany osobliwość w jest naprawdę zdejmowany osobliwość w ogóle „s może mnie obchodzi). Wtedy otrzymujękwi(k)=ρ(|xim(k)|)|xim(k)|xi=m(k)ρ

i=1Nwi(k)(xim(k+1))=0

i rozwiązuję, aby uzyskać, .m(k+1)=i=1Nwi(k)xii=1Nwi(k)

Powtarzam ten algorytm stałoprzecinkowy aż do „konwergencji”. Zauważę, że jeśli dojdziesz do stałego punktu, jesteś optymalny, ponieważ twoja pochodna ma wartość 0 i jest to funkcja wypukła.

Mam dwa pytania dotyczące tej procedury:

  1. Czy to standardowy algorytm IRLS? Po przeczytaniu kilku artykułów na ten temat (a były one bardzo rozproszone i niejasne co do tego, czym jest IRLS) jest to najbardziej spójna definicja algorytmu, jaką mogę znaleźć. Mogę publikować artykuły, jeśli ludzie tego chcą, ale tak naprawdę nie chciałem nikogo tutaj uprzedzać. Oczywiście możesz uogólnić tę podstawową technikę na wiele innych problemów związanych z wektorem xi i argumentami innymi niż |xim(k)|, pod warunkiem, że argument jest normą funkcji afinicznej twoich parametrów. Każda pomoc lub wgląd byłaby w tym świetna.
  2. Wydaje się, że konwergencja działa w praktyce, ale mam na to kilka obaw. Jeszcze nie widziałem tego dowodu. Po kilku prostych symulacjach Matlaba widzę, że jedna iteracja tego nie jest mapowaniem skurczu (wygenerowałem dwa losowe wystąpienia i obliczenia i zobaczył, że czasami jest to więcej niż 1). Również mapowanie zdefiniowane przez kilka kolejnych iteracji nie jest ściśle mapowaniem skurczowym, ale prawdopodobieństwo, że stała Lipschitza będzie wyższa niż 1, staje się bardzo niskie. Czy istnieje więc prawdopodobieństwo mapowania skurczu w prawdopodobieństwie ? Jakiej maszyny użyłem, aby udowodnić, że to się zbiega? Czy to w ogóle się zbiega?| m 1 ( k + 1 ) - m 2 ( k + 1 ) |m|m1(k+1)m2(k+1)||m1(k)m2(k)|

Wszelkie wskazówki są pomocne.

Edycja: Podoba mi się artykuł na temat IRLS dotyczący rzadkiego odzyskiwania / wykrywania ściskania autorstwa Daubechies i in. 2008 „Iteracyjnie ponownie ważona minimalizacja najmniejszych kwadratów dla rzadkiego odzyskiwania” na arXiv. Ale wydaje się, że koncentruje się głównie na wagach dla problemów niewypukłych. Moja sprawa jest znacznie prostsza.

Chris A.
źródło
Patrząc na stronę wiki IRWLS , walczę o różnicę między opisaną przez ciebie procedurą a IRWLS (używają po prostu jako szczególnej funkcji ). Czy możesz wyjaśnić, w jaki sposób uważasz, że proponowany algorytm różni się od IRWLS? ρ|yixxiββ|2ρ
user603
Nigdy nie powiedziałem, że było inaczej, a jeśli to sugerowałem, nie chciałem.
Chris A.

Odpowiedzi:

10

Jeśli chodzi o twoje pierwsze pytanie, należy zdefiniować „standard” lub potwierdzić, że „model kanoniczny” został stopniowo ustanowiony. Jak wskazano w komentarzu, wydaje się, że przynajmniej sposób korzystania z IRWLS jest raczej standardowy.

Jeśli chodzi o twoje drugie pytanie, „mapowanie skurczu w prawdopodobieństwie” może być powiązane (choć nieformalnie) ze zbieżnością „rekurencyjnych algorytmów stochastycznych”. Z tego, co przeczytałem, istnieje ogromna literatura na ten temat głównie w inżynierii. W ekonomii używamy jej trochę, zwłaszcza przełomowych prac Lennarta Ljunga - pierwszą pracą był Ljung (1977) - która pokazała, że ​​zbieżność (lub nie) rekurencyjnego algorytmu stochastycznego może być określona przez stabilność (lub not) powiązanego równania różniczkowego zwyczajnego.

(co zostało ponownie opracowane po owocnej dyskusji z PO w komentarzach)

Konwergencja

Użyję jako odniesienia Sabre Elaydi „An Introduction to Difference Equations”, 2005, 3d ed. Analiza jest uwarunkowana pewną próbką danych, więc są traktowane jako ustalone. xs

Warunek pierwszego rzędu minimalizacji funkcji celu, postrzegany jako funkcja rekurencyjna , m ( k + 1 ) = N i = 1 v i [ m ( k ) ] x i ,m

m(k+1)=i=1Nvi[m(k)]xi,vi[m(k)]wi[m(k)]i=1Nwi[m(k)][1]

ma stały punkt (argmin funkcji celu). Według Twierdzenia 1.13 s. 27–28 Elaydiego, jeśli pierwsza pochodna w odniesieniu do RHS z , oceniona w punkcie stałym , oznacza to , jest mniejsza niż jedność w wartość bezwzględna, wtedy jest asymptotycznie stabilny (AS). Co więcej, w Twierdzeniu 4.3 p.179 rozumiemy, że oznacza to również, że punktem stałym jest jednolicie AS (UAS). „Asymptotycznie stabilny” oznacza, że ​​dla pewnego zakresu wartości wokół stałego punktu sąsiedztwo , niekoniecznie małe, punkt stały jest atrakcyjny[ 1 ] m A ( m ) m ( m ± γ ) γ = m[1]mA(m)m
(m±γ), a więc jeśli algorytm podaje wartości w tym sąsiedztwie, zbiegnie się. Właściwość „jednolita” oznacza, że ​​granica tego sąsiedztwa, a tym samym jego wielkość, jest niezależna od początkowej wartości algorytmu. Punkt stały staje się globalnie UAS, jeśli . Więc w naszym przypadku, jeśli to udowodnimyγ=

|A(m)||i=1Nvi(m)mxi|<1[2]

udowodniliśmy właściwość UAS, ale bez globalnej konwergencji. Następnie możemy spróbować ustalić, czy sąsiedztwo przyciągania jest w rzeczywistości całymi rozszerzonymi liczbami rzeczywistymi, lub, że konkretna wartość początkowa, jaką stosuje PO, jak wspomniano w komentarzach (i jest to standard w metodologii IRLS), tj. Średnia z próby z „s, , zawsze należy do dzielnicy przyciągania punktu stałego.ˉ xxx¯

pochodną

vi(m)m=wi(m)mi=1Nwi(m)wi(m)i=1Nwi(m)m(i=1Nwi(m))2

=1i=1Nwi(m)[wi(m)mvi(m)i=1Nwi(m)m]
Następnie

A(m)=1i=1Nwi(m)[i=1Nwi(m)mxi(i=1Nwi(m)m)i=1Nvi(m)xi]

=1i=1Nwi(m)[i=1Nwi(m)mxi(i=1Nwi(m)m)m]

i

|A(m)|<1|i=1Nwi(m)m(xim)|<|i=1Nwi(m)|[3]

mamy

wi(m)m=ρ(|xim|)xim|xim||xim|+xim|xim|ρ(|xim|)|xim|2=xim|xim|3ρ(|xim|)ρ(|xim|)xim|xim|2=xim|xim|2[ρ(|xim|)|xim|ρ(|xim|)]=xim|xim|2[wi(m)ρ(|xim|)]

Wstawiamy to do mamy[3]

|i=1Nxim|xim|2[wi(m)ρ(|xim|)](xim)|<|i=1Nwi(m)|

|i=1Nwi(m)i=1Nρ(|xim|)|<|i=1Nwi(m)|[4]

Jest to warunek, który musi być spełniony, aby punktem stałym był UAS. Ponieważ w naszym przypadku funkcja kary jest wypukła, zaangażowane kwoty są dodatnie. Zatem warunek jest równoważny[4]

i=1Nρ(|xim|)<2i=1Nwi(m)[5]

Jeśli jest funkcją straty Huberta, to mamy gałąź kwadratową ( ) i liniową ( ),ρ(|xim|)ql

ρ(|xim|)={(1/2)|xim|2|xim|δδ(|xim|δ/2)|xim|>δ

i

ρ(|xim|)={|xim||xim|δδ|xim|>δ

ρ(|xim|)={1|xim|δ0|xim|>δ

{wi,q(m)=1|xim|δwi,l(m)=δ|xim|<1|xim|>δ

Ponieważ nie wiemy, ile zumieść nas w gałęzi kwadratowej, a ile w liniowej, rozkładamy warunek jako ( )|xim|[5]Nq+Nl=N

i=1Nqρq+i=1Nlρl<2[i=1Nqwi,q+i=1Nlwi,l]

Nq+0<2[Nq+i=1Nlwi,l]0<Nq+2i=1Nlwi,l

który trzyma. Zatem dla funkcji utraty Hubera stały punkt algorytmu jest jednakowo asymptotycznie stabilny, niezależnie od . Zauważmy, że pierwsza pochodna jest mniejsza niż jedność w wartości bezwzględnej dla dowolnego , nie tylko punktu stałego. xm

To, co powinniśmy teraz zrobić, to albo udowodnić, że właściwość UAS jest również globalna, albo, że jeśli to należy do sąsiedztwa przyciągania .m(0)=x¯m(0)m

Alecos Papadopoulos
źródło
Dzięki za odpowiedzi. Daj mi trochę czasu na przeanalizowanie tej odpowiedzi.
Chris A.
Na pewno. W końcu pytanie czekało 20 miesięcy.
Alecos Papadopoulos
Tak, przypomniano mi o problemie i postanowiłem wystawić nagrodę. :)
Chris A.
Mam szczęście. Nie było mnie tam 20 miesięcy temu - podjąłbym to pytanie, nagrodę czy nie.
Alecos Papadopoulos
Dziękuję bardzo za tę odpowiedź. Wygląda na to, że jak dotąd zasłużyłeś na nagrodę. BTW, twoje indeksowanie na pochodnej wrt jest notacyjnie dziwne. Czy w podsumowaniach w drugim wierszu tej funkcji nie można użyć innej zmiennej, takiej jak ? vimj
Chris A.