Używałem iteracyjnie ponownie ważonych najmniejszych kwadratów (IRLS), aby zminimalizować funkcje następującej formy,
gdzie jest liczbą wystąpień , jest dokładnym oszacowaniem, którego chcę, a jest odpowiednią solidną funkcją kary. Powiedzmy, że jest wypukły (choć niekoniecznie ściśle) i na razie różnicowalny. Dobrym przykładem takiego jest funkcja straty Huber .
To, co robiłem, to różnicowanie względem (i manipulowanie) w celu uzyskania,
i iteracyjnie rozwiązujemy ten problem, ustawiając go na 0 i ustawiając wagi przy iteracji na (uwaga, że postrzegany osobliwość w jest naprawdę zdejmowany osobliwość w ogóle „s może mnie obchodzi). Wtedy otrzymuję
i rozwiązuję, aby uzyskać, .
Powtarzam ten algorytm stałoprzecinkowy aż do „konwergencji”. Zauważę, że jeśli dojdziesz do stałego punktu, jesteś optymalny, ponieważ twoja pochodna ma wartość 0 i jest to funkcja wypukła.
Mam dwa pytania dotyczące tej procedury:
- Czy to standardowy algorytm IRLS? Po przeczytaniu kilku artykułów na ten temat (a były one bardzo rozproszone i niejasne co do tego, czym jest IRLS) jest to najbardziej spójna definicja algorytmu, jaką mogę znaleźć. Mogę publikować artykuły, jeśli ludzie tego chcą, ale tak naprawdę nie chciałem nikogo tutaj uprzedzać. Oczywiście możesz uogólnić tę podstawową technikę na wiele innych problemów związanych z wektorem i argumentami innymi niż , pod warunkiem, że argument jest normą funkcji afinicznej twoich parametrów. Każda pomoc lub wgląd byłaby w tym świetna.
- Wydaje się, że konwergencja działa w praktyce, ale mam na to kilka obaw. Jeszcze nie widziałem tego dowodu. Po kilku prostych symulacjach Matlaba widzę, że jedna iteracja tego nie jest mapowaniem skurczu (wygenerowałem dwa losowe wystąpienia i obliczenia i zobaczył, że czasami jest to więcej niż 1). Również mapowanie zdefiniowane przez kilka kolejnych iteracji nie jest ściśle mapowaniem skurczowym, ale prawdopodobieństwo, że stała Lipschitza będzie wyższa niż 1, staje się bardzo niskie. Czy istnieje więc prawdopodobieństwo mapowania skurczu w prawdopodobieństwie ? Jakiej maszyny użyłem, aby udowodnić, że to się zbiega? Czy to w ogóle się zbiega?| m 1 ( k + 1 ) - m 2 ( k + 1 ) |
Wszelkie wskazówki są pomocne.
Edycja: Podoba mi się artykuł na temat IRLS dotyczący rzadkiego odzyskiwania / wykrywania ściskania autorstwa Daubechies i in. 2008 „Iteracyjnie ponownie ważona minimalizacja najmniejszych kwadratów dla rzadkiego odzyskiwania” na arXiv. Ale wydaje się, że koncentruje się głównie na wagach dla problemów niewypukłych. Moja sprawa jest znacznie prostsza.
źródło
Odpowiedzi:
Jeśli chodzi o twoje pierwsze pytanie, należy zdefiniować „standard” lub potwierdzić, że „model kanoniczny” został stopniowo ustanowiony. Jak wskazano w komentarzu, wydaje się, że przynajmniej sposób korzystania z IRWLS jest raczej standardowy.
Jeśli chodzi o twoje drugie pytanie, „mapowanie skurczu w prawdopodobieństwie” może być powiązane (choć nieformalnie) ze zbieżnością „rekurencyjnych algorytmów stochastycznych”. Z tego, co przeczytałem, istnieje ogromna literatura na ten temat głównie w inżynierii. W ekonomii używamy jej trochę, zwłaszcza przełomowych prac Lennarta Ljunga - pierwszą pracą był Ljung (1977) - która pokazała, że zbieżność (lub nie) rekurencyjnego algorytmu stochastycznego może być określona przez stabilność (lub not) powiązanego równania różniczkowego zwyczajnego.
(co zostało ponownie opracowane po owocnej dyskusji z PO w komentarzach)
Użyję jako odniesienia Sabre Elaydi „An Introduction to Difference Equations”, 2005, 3d ed. Analiza jest uwarunkowana pewną próbką danych, więc są traktowane jako ustalone.x′s
Warunek pierwszego rzędu minimalizacji funkcji celu, postrzegany jako funkcja rekurencyjna , m ( k + 1 ) = N ∑ i = 1 v i [ m ( k ) ] x i ,m
ma stały punkt (argmin funkcji celu). Według Twierdzenia 1.13 s. 27–28 Elaydiego, jeśli pierwsza pochodna w odniesieniu do RHS z , oceniona w punkcie stałym , oznacza to , jest mniejsza niż jedność w wartość bezwzględna, wtedy jest asymptotycznie stabilny (AS). Co więcej, w Twierdzeniu 4.3 p.179 rozumiemy, że oznacza to również, że punktem stałym jest jednolicie AS (UAS). „Asymptotycznie stabilny” oznacza, że dla pewnego zakresu wartości wokół stałego punktu sąsiedztwo , niekoniecznie małe, punkt stały jest atrakcyjny[ 1 ] m ∗ A ′ ( m ∗ ) m ∗ ( m ∗ ± γ ) γ = ∞m [1] m∗ A′(m∗) m∗
(m∗±γ) , a więc jeśli algorytm podaje wartości w tym sąsiedztwie, zbiegnie się. Właściwość „jednolita” oznacza, że granica tego sąsiedztwa, a tym samym jego wielkość, jest niezależna od początkowej wartości algorytmu. Punkt stały staje się globalnie UAS, jeśli .
Więc w naszym przypadku, jeśli to udowodnimyγ=∞
udowodniliśmy właściwość UAS, ale bez globalnej konwergencji. Następnie możemy spróbować ustalić, czy sąsiedztwo przyciągania jest w rzeczywistości całymi rozszerzonymi liczbami rzeczywistymi, lub, że konkretna wartość początkowa, jaką stosuje PO, jak wspomniano w komentarzach (i jest to standard w metodologii IRLS), tj. Średnia z próby z „s, , zawsze należy do dzielnicy przyciągania punktu stałego.ˉ xx x¯
pochodną
i
mamy
Wstawiamy to do mamy[3]
Jest to warunek, który musi być spełniony, aby punktem stałym był UAS. Ponieważ w naszym przypadku funkcja kary jest wypukła, zaangażowane kwoty są dodatnie. Zatem warunek jest równoważny[4]
Jeśli jest funkcją straty Huberta, to mamy gałąź kwadratową ( ) i liniową ( ),ρ(|xi−m|) q l
i
Ponieważ nie wiemy, ile zumieść nas w gałęzi kwadratowej, a ile w liniowej, rozkładamy warunek jako ( )|xi−m∗| [5] Nq+Nl=N
który trzyma. Zatem dla funkcji utraty Hubera stały punkt algorytmu jest jednakowo asymptotycznie stabilny, niezależnie od . Zauważmy, że pierwsza pochodna jest mniejsza niż jedność w wartości bezwzględnej dla dowolnego , nie tylko punktu stałego.x m
To, co powinniśmy teraz zrobić, to albo udowodnić, że właściwość UAS jest również globalna, albo, że jeśli to należy do sąsiedztwa przyciągania .m(0)=x¯ m(0) m∗
źródło