Czy niespójne estymatory są kiedykolwiek preferowane?

22

Spójność jest oczywiście naturalnym i ważnym estymatorem nieruchomości, ale czy są sytuacje, w których lepiej byłoby zastosować niespójny estymator niż spójny?

Mówiąc dokładniej, czy istnieją przykłady niespójnego estymatora, który przewyższa rozsądny spójny estymator dla wszystkich skończonych (w odniesieniu do jakiejś odpowiedniej funkcji straty)?n

MånsT
źródło
1
Istnieje ciekawy kompromis w zakresie wydajności między spójnością wyboru modelu a spójnością parametrów w problemach estymacji przy użyciu lasso i jego (wielu!) Wariantów. Jest to szczegółowo opisane np. W najnowszym tekście Bühlmanna i van der Geera.
kardynał
Czy argument w mojej, teraz usuniętej, odpowiedzi nadal nie zostałby podtrzymany? Mianowicie: w małych próbkach lepiej jest mieć obiektywny estymator o niskiej wariancji. Czy można pokazać, że spójny estymator zawsze ma mniejszą wariancję niż jakikolwiek inny obiektywny estymator?
Bob Jansen
Być może @Bootvis! Czy masz przykład niespójnego estymatora z niskim MSE?
MånsT
3
@Bootvis: Jeśli zdarzy ci się spojrzeć na obszerne komentarze do odpowiedzi na ostatnie pytanie z pytaniem o spójność vs. bezstronność, zobaczysz, że spójny estymator może mieć dowolnie dzikie zachowanie zarówno wariancji, jak i uprzedzenia (nawet jednocześnie!) . To powinno usunąć wszelkie wątpliwości dotyczące Twojego komentarza.
kardynał
Myślałem, że mam jedną z dwóch książek, ale najwyraźniej też się myliłem! Nigdzie nie ma takiego przykładu. @cardinal: Brzmi interesująco, sprawdź to
Bob Jansen,

Odpowiedzi:

25

Ta odpowiedź opisuje realistyczny problem, w którym dominuje naturalny spójny estymator (przewyższający wszystkie możliwe wartości parametrów dla wszystkich wielkości próby) przez niespójnego estymatora. Jest motywowany ideą, że spójność najlepiej nadaje się do strat kwadratowych, więc użycie straty silnie odbiegającej od tej (takiej jak strata asymetryczna) powinno uczynić spójność prawie bezużyteczną przy ocenie wydajności estymatorów.


Załóżmy, że twój klient chce oszacować średnią zmiennej (zakładając, że ma rozkład symetryczny) z próbki iid , ale niechętnie albo (a) nie docenia jej, albo (b) rażąco ją przecenia .(x1,,xn)

Aby zobaczyć, jak to się sprawdzi, przyjmijmy prostą funkcję straty, rozumiejąc, że w praktyce strata może różnić się od tej ilościowo (ale nie jakościowo). Wybierz jednostki miary, aby był największym dopuszczalnym przeszacowaniem i ustaw utratę oszacowania gdy prawdziwa średnia wynosi równa ilekroć i równa przeciwnym razie.t μ 0 μ t μ + 1 11tμ0μtμ+11

Obliczenia są szczególnie proste dla rodziny rozkładów Normalnych ze średnią i wariancją , ponieważ wtedy średnia próbki ma normalną Rozkład . Średnia próbki jest spójnym estymatorem , co jest dobrze znane (i oczywiste). Przy zapisywaniu dla standardowego normalnego CDF, oczekiwana utrata średniej próbki wynosi : pochodzi z 50% szansy, że średnia próbki będzie niedoszacowana prawdziwa średnia i pochodzi z szansy przeszacowania prawdziwej średniej o więcej niżσ 2 > 0 ˉ x = 1μσ2)>0(μ,Ď2/n)μcp1/2+cp(-x¯=1njaxja(μ,σ2)/n)μΦ1/2Φ(-1/2)+Φ(-n/σ)1/2)1Φ(-n/σ)1.

Straty

Oczekiwana utrata jest równa niebieskiemu obszarowi w tym standardowym normalnym pliku PDF. Czerwony obszar przedstawia poniżej oczekiwaną stratę alternatywnego estymatora. Różnią się one poprzez zastąpienie jednolitego niebieskiego obszaru między i przez mniejszy jednolity czerwony obszar między i . Ta różnica rośnie wraz ze wzrostem . -x¯0-n/(2)σ)0n/(2)σ)nn/σn

Alternatywny estymator podany przez ma oczekiwaną stratę . Symetria i nieimodalność rozkładów normalnych implikuje, że oczekiwana strata jest zawsze lepsza niż średnia próbki. (To sprawia, że ​​średnia próbki jest niedopuszczalna dla tej straty.) Rzeczywiście, oczekiwana utrata średniej próbki ma dolną granicę podczas gdy strata alternatywy zbliża się do miarę wzrostu . Jednak alternatywa wyraźnie jest niespójna: w miarę wzrostu prawdopodobieństwo zbliża się do .2Φ(-x¯+1/2)1/20nnμ+1/2μ2)Φ(-n/(2)σ))1/2)0nnμ+1/2)μ

Funkcje strat

Niebieskie kropki pokazują straty dla a czerwone kropki pokazują straty dla w zależności od wielkości próbki .ˉ x +1/2nx¯x¯+1/2)n

Whuber
źródło
2
(+1) Twój komentarz „konsekwencja najlepiej nadaje się do strat kwadratowych” również mnie interesuje, ale nie jest dla mnie (i innych) rażąco oczywiste, skąd to się bierze. Wyraźnie zbieżność w najlepiej nadaje się do strat kwadratowych, a zbieżność implikuje zbieżność w prawdopodobieństwie, ale jaka jest motywacja tego cytatu w kontekście prawie pewnej zbieżności, czyli „silnej spójności”? L 2L.2)L.2)
Makro
5
@Macro Myślenie jest nieco pośrednie i nie ma być rygorystyczne, ale uważam, że jest naturalne: strata kwadratowa oznacza minimalizację wariancji, która (za pośrednictwem Czebyszewa) prowadzi do zbieżności prawdopodobieństwa. Stąd heurystyka znajdowania kontrprzykładu powinna skupić się na stratach, które są tak dalekie od kwadratyki, że takie manipulacje się nie udają.
whuber
1
Nie rozumiem podstawy twojego komentarza, @Michael: spójrz na ostatnią grafikę. Spodziewana strata spójnego estymatora zmniejsza się do natomiast niezgodnego z estymatora zmniejszenie (wykładniczy) do 0 : jest to w ten sposób gwałtownie lepiej niż jeden spójny jak n wzrasta duża. 1/2)0n
whuber
3
@Michael OK, dziękuję za wyjaśnienie tego. W tym kontekście, przy stracie niekwadratowej, „przewaga” nie jest wyrażana jako uprzedzenie. Można by skrytykować tę funkcję utraty, ale nie chcę jej całkowicie odrzucać: modeluje sytuacje, w których na przykład dane są pomiarami przedmiotu wyprodukowanego z pewnymi tolerancjami i byłoby to katastrofalne (jak w przypadku awarii O-ringu Shuttle lub katastrofalne bankructwo przedsiębiorstw), ponieważ prawdziwy środek wykracza poza te tolerancje.
whuber
1
(+1) Świetna odpowiedź, @whuber! Szczególnie podoba mi się to, że nie wydaje się zbyt patologiczne - potrafię wymyślić wiele sytuacji, w których ten rodzaj strat miałby zastosowanie.
MånsT