Kiedy właściwe jest stosowanie niewłaściwej reguły punktacji?

Merkle i Steyvers (2013) piszą:

Aby formalnie zdefiniować prawidłową regułę punktacji, niech będzie prognozą probabilistyczną próby Bernoulliego z prawdziwym prawdopodobieństwem powodzenia . Prawidłowe reguły punktacji to miary, których oczekiwane wartości są zminimalizowane, jeśli . $f$ $d$ $p$ $f = p$

Rozumiem, że jest to dobre, ponieważ chcemy zachęcić prognostów do generowania prognoz, które uczciwie odzwierciedlają ich prawdziwe przekonania i nie chcemy dać im przewrotnych bodźców, by robili inaczej.

Czy istnieją jakieś rzeczywiste przykłady, w których właściwe jest stosowanie niewłaściwej reguły punktacji?

Reference
Merkle, EC i Steyvers, M. (2013). Wybór ściśle właściwej reguły punktacji. Analiza decyzji, 10 (4), 292–304

classification forecasting scoring-rules user1205901 - Przywróć Monikę
źródło

Myślę, że pierwsza kolumna ostatniej strony Winkler & Jose „Scoring rules” (2010), na którą powołują się Merkle i Steyvers (2013), oferuje odpowiedź. Mianowicie, jeśli użyteczność nie jest afiniczną transformacją wyniku (co może być uzasadnione awersją do ryzyka itp.), Maksymalizacja oczekiwanej użyteczności byłaby w konflikcie z maksymalizacją oczekiwanej oceny

Richard Hardy

Odpowiedzi:

Właściwe jest stosowanie niewłaściwej reguły punktacji, gdy celem jest rzeczywiście prognozowanie, ale nie wnioskowanie. Nie obchodzi mnie to, czy inny prognostyk oszukuje, czy nie, kiedy to ja będę robił prognozy.

Właściwe reguły oceniania zapewniają, że podczas procesu szacowania model zbliża się do procesu generowania prawdziwych danych (MZD). Brzmi obiecująco, ponieważ zbliżając się do prawdziwego MZD, będziemy również dobrze postępować w zakresie prognozowania w ramach dowolnej funkcji strat. Chodzi o to, że przez większość czasu (w rzeczywistości prawie zawsze) nasza przestrzeń wyszukiwania modelu nie zawiera prawdziwego MZD. W efekcie zbliżamy się do prawdziwego MZD za pomocą proponowanej przez nas funkcjonalnej formy.

W tym bardziej realistycznym otoczeniu, jeśli nasze zadanie prognozowania jest łatwiejsze niż ustalenie całej gęstości prawdziwego MZD, możemy faktycznie zrobić to lepiej. Dotyczy to szczególnie klasyfikacji. Na przykład prawdziwy MZD może być bardzo złożony, ale zadanie klasyfikacji może być bardzo łatwe.

Jarosław Bułatow podał na swoim blogu następujący przykład:

http://yaroslavvb.blogspot.ro/2007/06/log-loss-or-hinge-loss.html

Jak widać poniżej, prawdziwa gęstość jest niepewna, ale bardzo łatwo jest zbudować klasyfikator, aby oddzielić generowane przez to dane na dwie klasy. Po prostu, jeśli klasa wyjściowa 1, a jeśli klasa wyjściowa 2. $x \ge 0$ $x < 0$

Zamiast dopasować dokładną gęstość powyżej, proponujemy poniższy surowy model, który jest dość daleki od prawdziwego MZD. Jednak robi to doskonałą klasyfikację. Stwierdzono to, stosując utratę zawiasów, co nie jest właściwe.

Z drugiej strony, jeśli zdecydujesz się znaleźć prawdziwą MZD z utratą logów (co jest właściwe), zaczniesz dopasowywać niektóre funkcje, ponieważ nie wiesz, jakiej dokładnie formy funkcjonalnej potrzebujesz a priori. Ale kiedy starasz się coraz mocniej dopasować, zaczynasz błędnie klasyfikować rzeczy.

Pamiętaj, że w obu przypadkach zastosowaliśmy te same formy funkcjonalne. W przypadku niewłaściwej straty przekształcił się w funkcję krokową, która z kolei dokonała doskonałej klasyfikacji. We właściwym przypadku oszalało, próbując zaspokoić każdy region gęstości.

Zasadniczo nie zawsze musimy osiągnąć prawdziwy model, aby mieć dokładne prognozy. A czasem tak naprawdę nie musimy robić dobrze w całej dziedzinie gęstości, ale być bardzo dobrzy tylko w niektórych jej częściach.

Cagdas Ozgenc
źródło

To fascynujący przykład, naprawdę trochę do myślenia.

Matthew Drury,

Dokładność (tzn. Procent poprawnie sklasyfikowany) jest niewłaściwą zasadą punktacji, więc w pewnym sensie ludzie robią to cały czas.

Mówiąc bardziej ogólnie, każda reguła punktacji, która zmusza prognozy do z góry określonej kategorii, będzie niewłaściwa. Klasyfikacja jest tego skrajnym przypadkiem (jedyne dozwolone prognozy to 0% i 100%), ale prognoza pogody jest prawdopodobnie również nieco niepoprawna - moje lokalne stacje wydają się zgłaszać szansę na deszcz w odstępach 10 lub 20%, chociaż ja Założę się, że podstawowy model jest znacznie bardziej precyzyjny.

Właściwe reguły punktacji zakładają również, że prognostyk jest neutralny dla ryzyka. Często nie dzieje się tak w przypadku rzeczywistych ludzkich prognostów, którzy zazwyczaj nie są narażeni na ryzyko, a niektóre aplikacje mogą skorzystać z reguły punktacji, która odtwarza tę tendencję. Na przykład możesz nieco zwiększyć ciężar P (deszcz), ponieważ noszenie parasola, ale nie potrzebowanie go jest o wiele lepsze niż złapanie ulewy.

Matt Krause
źródło

Nie sądzę, że rozumiem twój trzeci akapit. Pisałem podobną odpowiedź w taki sposób, że możemy chcieć bardziej skoncentrować się na prawidłowym otrzymywaniu wysokich kwantyli gęstości predykcyjnej, ale nie widzę, jak taka funkcja straty motywowałaby nas do stosowania niewłaściwej reguły punktacji. Mimo wszystko nadal jesteśmy najbardziej zmotywowani do prognozowania prawidłowej przyszłej dystrybucji. Czy mógłbyś opracować?

S. Kolassa - Przywróć Monikę

Jeśli przepowiadający zmaksymalizuje swoją oczekiwaną użyteczność (zamiast wartości), wówczas właściwe reguły punktacji mogą w rzeczywistości nie być właściwe (np. Jeśli użyteczność nie jest funkcją liniową wyniku). Jeśli jednak znasz lub potrafisz oszacować funkcję użyteczności, myślę, że możesz wymyślić specjalnie dopasowaną regułę punktacji, stosując jej odwrotność.

Matt Krause,

Ale słuszność reguły punktacji lub jej brak nie jest związana z użytecznością, tylko z przewidywanym i faktycznym rozkładem w przyszłości, więc nadal nie rozumiem pierwszego zdania twojego komentarza, ani dlaczego nie chcielibyśmy stosować niewłaściwej reguły punktacji . Przypominasz mi jednak artykuł Ehm'a z al., Który ma pojawić się w JRSS-B , który odszukałem , pisząc moją przerwaną odpowiedź, ale tam, gdzie nie znalazłem nic przydatnego do obecnego pytania - bliższe czytanie może być bardziej pomocne.

S. Kolassa - Przywróć Monikę

@StephanKolassa, być może pierwsza kolumna ostatniej strony Winkler & Jose „Scoring rules” (2010) to wyjaśnia?

Richard Hardy

Komentarze nie są przeznaczone do rozszerzonej dyskusji; ta rozmowa została przeniesiona do czatu .

gung - Przywróć Monikę