W jaki sposób estymator, który minimalizuje ważoną sumę kwadratowego odchylenia i wariancji, pasuje do teorii decyzji?

10

OK - moja oryginalna wiadomość nie wywołała odpowiedzi; pozwólcie, że postawię pytanie inaczej. Zacznę od wyjaśnienia mojego rozumienia estymacji z teoretycznego punktu widzenia decyzji. Nie mam formalnego szkolenia i nie zaskoczyłoby mnie, gdyby moje myślenie było w jakiś sposób błędne.

Załóżmy, że mamy jakąś funkcję straty L.(θ,θ^(x)). Oczekiwana strata to ryzyko (częste):

R(θ,θ^(x))=L.(θ,θ^(x))L.(θ,θ^(x))rex,

gdzie L(θ,θ^(x))jest prawdopodobieństwo; a ryzyko Bayesa to oczekiwane ryzyko częstych:

r(θ,θ^(x))=R(θ,θ^(x))π(θ)dxdθ,

gdzie π(θ) jest naszym przeorem.

Ogólnie rzecz biorąc, znajdujemy θ^(x) które minimalizują ri to wszystko ładnie działa; ponadto obowiązuje twierdzenie Fubiniego i możemy odwrócić kolejność całkowania tak, aby dowolnaθ^(x) to minimalizuje rjest niezależny od wszystkich innych. W ten sposób zasada prawdopodobieństwa nie zostanie naruszona i możemy czuć się dobrze z byciem Bayesianem i tak dalej.

Na przykład, biorąc pod uwagę znaną kwadratową utratę błędów, L(θ,θ^(x))=(θθ^(x))2, nasze częste ryzyko jest średnim kwadratowym błędem lub sumą kwadratowego błędu i wariancji, a nasze ryzyko Bayesa jest oczekiwaną sumą kwadratowego błędu i wariancji, biorąc pod uwagę naszą wcześniejszą - tj. oczekiwaną stratę a posteriori.

Jak dotąd wydaje mi się to rozsądne (chociaż mogę się mylić); ale w każdym razie rzeczy mają dla mnie znacznie mniej sensu inne cele. Załóżmy na przykład, że zamiast minimalizować sumę równomiernie wyrównanego odchylenia i wariancji, chcę zminimalizować nierówną sumę - to znaczy chcęθ^(x) które minimalizują:

(mi[θ^(x)]-θ)2)+kmi[(θ^(x)-mi[θ^(x)])2)],

gdzie k jest pewną dodatnią rzeczywistą stałą (inną niż 1).

Zwykle nazywam taką sumę „funkcją celu”, chociaż może być tak, że używam tego terminu niepoprawnie. Moje pytanie nie dotyczy tego, jak znaleźć rozwiązanie - znalezienieθ^(x) że minimalizacja tej funkcji celu jest wykonalna numerycznie - moje pytanie jest dwojakie:

  1. Czy taka funkcja celu może pasować do paradygmatu teorii decyzji? Jeśli nie, to czy istnieją inne ramy, w których to pasuje? Jeśli tak, to w jaki sposób? Wygląda na to, że powiązana funkcja straty byłaby funkcjąθ, θ^(x), i mi[θ^(x)], co - z powodu oczekiwań - jest (moim zdaniem) niewłaściwe.

  2. Taka funkcja obiektywna narusza zasadę prawdopodobieństwa, ponieważ jakiekolwiek dane szacunkowe θ^(xjot) zależy od wszystkich innych szacunków θ^(xjajot)(nawet hipotetyczne). Niemniej jednak zdarzają się sytuacje, w których pożądany jest handel wzrostem wariancji błędu w celu zmniejszenia uprzedzeń. Biorąc pod uwagę taki cel, czy istnieje sposób na konceptualizację problemu w taki sposób, aby był zgodny z zasadą prawdopodobieństwa?

Zakładam, że nie zrozumiałem podstawowych pojęć dotyczących teorii / szacowania / optymalizacji decyzji. Z góry dziękuję za wszelkie odpowiedzi i proszę założyć, że nic nie wiem, ponieważ nie mam szkolenia w tej dziedzinie ani ogólnie matematyki. Dodatkowo doceniane są wszelkie sugerowane odniesienia (dla naiwnego czytelnika).

użytkownik153935
źródło

Odpowiedzi:

2

To dość interesujące i nowatorskie pytanie! Na poziomie formalnym przy użyciu funkcji ryzyka częstego

(miθ[θ^(X)]-θ)2)+kmiθ[(θ^(X)-mi[θ^(X)])2)],
oznacza użycie (na przykład) funkcji straty zdefiniowanej jako
L.(θ,θ^)=(miθ[θ^(X)]-θ)2)+k(θ^-miθ[θ^(X)])2)
ponieważ nie ma powodu, aby zakazywać takich oczekiwań miθ[θ^(X)]pojawić się w funkcji straty. Że zależą od całej dystrybucjiθ^(X) jest funkcją, która może wydawać się dziwna, ale cała dystrybucja jest ustawiana jako funkcja θ a wynikowa strata jest zatem funkcją θ, θ^ i dystrybucja θ^(X).

Mogę doskonale przewidzieć nadchodzący zarzut, że funkcja straty L.(θ,δ) jest zasadniczo funkcją stanu natury, θi akcji, δ, na przykład w przestrzeni parametrów Θ, a zatem nie obejmuje żadnego założenia dystrybucyjnego. Co jest poprawne z perspektywy teorii gier. Ale biorąc pod uwagę, że jest to statystyczna teoria decyzji, gdzie decyzjaδ będzie zależeć od obserwacji x zmiennej losowej X, Nie widzę powodu, dla którego uogólnienie, w którym funkcja straty zależy od rozkładu X, indeksowane przez θ, nie można rozważyć. To, że może naruszać zasadę prawdopodobieństwa, nie dotyczy bezpośrednio teorii decyzji i nie uniemożliwia formalnego wyprowadzenia estymatora Bayesa.

Xi'an
źródło