Jak zaprojektować i wdrożyć asymetryczną funkcję straty dla regresji?

24

Problem

W regresji zwykle obliczany jest średni błąd kwadratu (MSE) dla próbki: aby zmierzyć jakość predyktora.

MSE=1ni=1n(g(xi)g^(xi))2

Obecnie pracuję nad problemem regresji, którego celem jest przewidzenie ceny, jaką klienci są skłonni zapłacić za produkt, biorąc pod uwagę szereg funkcji numerycznych. Jeśli przewidywana cena jest zbyt wysoka, żaden klient nie kupi produktu, ale strata pieniężna jest niska, ponieważ cenę można po prostu obniżyć. Oczywiście nie powinna być zbyt wysoka, ponieważ wtedy produktu nie można kupić przez długi czas. Z drugiej strony, jeśli przewidywana cena jest zbyt niska, produkt zostanie kupiony szybko, bez możliwości skorygowania ceny.

Innymi słowy, algorytm uczenia się powinien przewidywać nieco wyższe ceny, które w razie potrzeby mogą zostać obniżone, a nie niedoszacowanie prawdziwej ceny, co spowoduje natychmiastową stratę pieniężną.

Pytanie

Jak zaprojektowałbyś wskaźnik błędu uwzględniający tę asymetrię kosztów?


Możliwe rozwiązanie

Sposobem na zdefiniowanie asymetrycznej funkcji utraty byłoby po prostu pomnożenie przez wagę: przy czym jest parametrem, który możemy dostosować, aby zmienić stopień asymetrii. Znalazłem to tutaj . Wydaje się to najprostszą rzeczą do zrobienia, zachowując kwadratową stratę.a-(0,1)

1ni=1n|α1(g(xi)g^(xi))<0|(g(xi)g^(xi))2
α(0,1)
Kiudee
źródło
1
@MichaelChernick, FTR, myślę, że to dobre pytanie, które zostało jasno i spójnie stwierdzone, i potwierdzam, że jestem trochę wybredny. To, o co mi chodzi, to (jak wiecie) dopasowanie regresji (tj. Rozwiązanie dla ) odbywa się (domyślnie) przez zminimalizowanie funkcji utraty OLS , SSE. Masz rację, że MSE może być używane w sposób równoważny b / c dzielenie przez stałą nie wpłynie na kolejność kandydujących bet. β
Gung - Przywróć Monikę
1
Innym faktem jest to, że MSE (częściej RMSE) jest często używany do oceny jakości dopasowanego modelu (chociaż ponownie SSE można zastosować w równoważny sposób). Chodzi o to, że to pytanie (jak mi się wydaje) dotyczy tego, jak myśleć o / przeprojektowywać funkcję utraty , aby dopasowane bety były inne niż byłyby domyślnie, a nie o tym, jak inaczej myśleć o jakości modelu, który już był odpowiedni.
Gung - Przywróć Monikę
1
@Kiudee, jeśli moja interpretacja twojego Q jest słuszna, co byś pomyślał o jego edycji, aby dodać tag funkcji straty i ewentualnie zmianie tytułu czegoś w rodzaju: „Jak zaprojektować i wdrożyć asymetryczną funkcję straty dla regresji”? Sam nie będę wprowadzał zmian na wypadek, gdybyś się z nimi nie zgadzał.
Gung - Przywróć Monikę
2
Dla porównania, widziałem regresję kwantylową sugerowaną, gdy chcesz asymetrycznych funkcji strat, patrz Berk, 2011 , PDF tutaj .
Andy W
1
Ponieważ używam różnych algorytmów uczenia się do rozwiązania tego problemu, funkcja powinna być różnicowalna przynajmniej raz.
Kiudee

Odpowiedzi:

7

Jak wspomniano w komentarzach powyżej, regresja kwantowa wykorzystuje asymetryczną funkcję straty (liniową, ale o różnych nachyleniach dla błędów dodatnich i ujemnych). Kwadratyczny (strata kwadratowa) analog regresji kwantowej jest regresją wyczekującą.

Możesz użyć Google regresji kwantyli dla odniesień. Aby zapoznać się z regresją wyczekiwania, patrz pakiet R expectreg i odniesienia w podręczniku odniesienia.

Innuo
źródło
2

Ten rodzaj nierównego ważenia jest często wykonywany w problemach z klasyfikacją dwóch klas. Regułę Bayesa można modyfikować za pomocą funkcji straty, która waży stratę wyżej dla jednego błędu niż dla drugiego. Doprowadzi to do reguły, która powoduje nierówne poziomy błędów.

W regresji z pewnością byłoby możliwe skonstruowanie funkcji wagi, takiej jak ważona suma kwadratów, która nada pewną wagę błędom ujemnym, a większą wagę dodatnim. Byłoby to podobne do ważonego najmniejszego kwadratu, ale trochę inne, ponieważ ważone najmniejsze kwadraty są przeznaczone dla problemów, w których wariancja błędu nie jest stała w przestrzeni możliwych wartości zmiennych predykcyjnych. W takim przypadku wagi są wyższe dla punktów, w których wiadomo, że wariancja błędu jest niewielka, a wyższe, gdy wiadomo, że wariancja błędu jest duża. To oczywiście doprowadzi do wartości parametrów regresji, które różnią się od tego, co dałby OLS.

Michael R. Chernick
źródło