Regresja kwantowa: funkcja straty

24

Próbuję zrozumieć regresję kwantową, ale jedną rzeczą, która sprawia, że ​​cierpię, jest wybór funkcji straty.

ρτ(u)=u(τ1{u<0})

Wiem, że minimalne oczekiwanie na jest równe kwantile , ale jaki jest intuicyjny powód, aby zacząć od tej funkcji? Nie widzę związku między minimalizowaniem tej funkcji a kwantylem. Czy ktoś może mi to wytłumaczyć?ρτ(yu)τ%

CDO
źródło

Odpowiedzi:

28

Rozumiem to pytanie jako prośbę o wgląd w to, jak można wymyślić jakąkolwiek funkcję straty, która produkuje dany kwantyl jako minimalizator strat, bez względu na to, jaki może być podstawowy rozkład. Byłoby zatem niezadowalające powtórzenie analizy w Wikipedii lub gdzie indziej, która pokazuje, że ta konkretna funkcja strat działa.

Zacznijmy od czegoś znajomego i prostego.

Co mówisz jest znalezienie „Location” w stosunku do dystrybucji lub zestawu danych . Dobrze wiadomo na przykład, że średnia minimalizuje oczekiwany kwadrat resztkowy; to jest wartość, dla którejxFx¯

LF(x¯)=R(xx¯)2dF(x)

jest tak mały, jak to możliwe. Użyłem tego zapisu, aby przypomnieć nam, że jest pochodną straty , że jest określana przez , ale co najważniejsze, zależy od liczby .LFx¯

Standardowy sposób pokazania, że minimalizuje dowolną funkcję, zaczyna się od wykazania, że ​​wartość funkcji nie zmniejsza się, gdy zostanie nieco zmieniona. Taka wartość nazywana jest punktem krytycznym funkcji.xx

Jaki rodzaj funkcji straty spowodowałby, że percentyl byłby punktem krytycznym? Strata dla tej wartości byłabyΛF1(α)

LF(F1(α))=RΛ(xF1(α))dF(x)=01Λ(F1(u)F1(α))du.

Aby był to punkt krytyczny, jego pochodna musi wynosić zero. Ponieważ my po prostu staramy się znaleźć jakieś rozwiązanie, nie zatrzyma, aby zobaczyć, czy manipulacje są uzasadnione: będziemy planować, aby sprawdzić dane techniczne (takie jak to, czy naprawdę możemy odróżnić , itd ) na końcu. A zatemΛ

(1)0=LF(x)=LF(F1(α))=01Λ(F1(u)F1(α))du=0αΛ(F1(u)F1(α))duα1Λ(F1(u)F1(α))du.

Po lewej stronie argument jest negatywny, a po prawej jest pozytywny. Poza tym mamy niewielką kontrolę nad wartościami tych całek, ponieważ może być dowolną funkcją rozkładu. W związku z tym naszą jedyną nadzieją jest uzależnienie tylko od znaku jego argumentu, w przeciwnym razie musi być stała.ΛFΛ

Oznacza to, że będzie fragmentarycznie liniowa, potencjalnie z różnymi nachyleniami na lewo i prawo od zera. Oczywiście powinno się zmniejszać w miarę zbliżania się do zera - w końcu jest to strata, a nie zysk . Co więcej, przeskalowanie o stałą nie zmieni jej właściwości, więc możemy swobodnie ustawić nachylenie lewej ręki na . Niech będzie nachyleniem po prawej stronie. Następnie upraszcza sięΛΛ1τ>0(1)

0=ατ(1α),

whence the unique solution is, up to a positive multiple,

Λ(x)={x, x0α1αx, x0.

Multiplying this (natural) solution by 1α, to clear the denominator, produces the loss function presented in the question.

Clearly all our manipulations are mathematically legitimate when Λ has this form.

whuber
źródło
19

The way this loss function is expressed is nice and compact but I think it's easier to understand by rewriting it as

ρτ(Xm)=(Xm)(τ1(Xm<0))={τ|Xm|ifXm0(1τ)|Xm|ifXm<0)

If you want to get an intuitive sense of why minimizing this loss function yields the τth quantile, it's helpful to consider a simple example. Let X be a uniform random variable between 0 and 1. Let's also choose a concrete value for τ, say, 0.25.

So now the question is why would this loss function be minimized at m=0.25? Obviously, there's three times as much mass in the uniform distribution to the right of m than there is to the left. And the loss function weights the values larger than this number at only a third of the weight given to values less than it. Thus, it's sort of intuitive that the scales are balanced when the τth quantile is used as the inflection point for the loss function.

jjet
źródło
1
Shouldn't it be the other way? Under-guessing will cost three times as much?
Edi Bice
Thanks for catching that. The formula is right but I initially worded it incorrectly in my explanation.
jjet