Po pierwsze, podaje prawdopodobieństwo wyników. Na przykład jego prognozy dotyczące wyborów w USA wynoszą obecnie 82% Clintona vs. 18% Trumpa.
Teraz, nawet jeśli Trump wygra, to skąd mam wiedzieć, że nie tylko 18% czasu powinien wygrać?
Innym problemem jest to, że jego prawdopodobieństwo zmienia się w czasie. Tak więc 31 lipca między Trumpem a Clintonem było prawie 50-50.
Moje pytanie brzmi: biorąc pod uwagę, że codziennie ma on inne prawdopodobieństwo wystąpienia tego samego przyszłego wydarzenia z takim samym skutkiem, jak mogę zmierzyć, jak dokładny był każdego dnia, gdy dokonywał prognozy na podstawie informacji dostępnych do tego dnia?
forecasting
prediction
validation
accuracy
scoring-rules
Zupa Dinozaura
źródło
źródło
Odpowiedzi:
Prognozy probabilistyczne (lub, jak są one również znane, prognozy gęstości) mogą być oceniane za pomocą reguł punktacji , tj. Funkcji, które odwzorowują prognozę gęstości i obserwowany wynik na tak zwany wynik, który jest minimalizowany w oczekiwaniu, jeśli prognoza gęstości w rzeczywistości należy przewidzieć prawdziwą gęstość. Prawidłowe reguły punktacji to reguły punktacji, które są minimalizowane w oczekiwaniu tylko na podstawie prawdziwej przyszłej gęstości.
Dostępnych jest wiele takich prawidłowych zasad punktacji, poczynając od Briera (1950, Monthly Weather Review ) w kontekście probabilistycznego prognozowania pogody. Czado i in. (2009, Biometrics ) podają bardziej aktualny przegląd tego odrębnego przypadku. Gneiting & Katzfuss (2014, Roczny przegląd statystyki i jej zastosowanie ) dają ogólny przegląd prognoz probabilistycznych w ogóle - w szczególności Gneiting bardzo aktywnie przyczynia się do ustalenia prawidłowych zasad punktacji.
Jednak reguły punktacji są nieco trudne do interpretacji i naprawdę pomagają jedynie w porównywaniu wielu prognoz probabilistycznych - ta z niższym wynikiem jest lepsza. Do wariantu próbkowania, czyli zawsze lepiej jest mieć wiele prognoz do oceny, których wyniki ocenilibyśmy średnio.
Jak uwzględnić „aktualizację” prognoz Silvera lub innych, to dobre pytanie. Możemy użyć reguł punktacji, aby porównać „migawki” różnych prognoz w jednym punkcie czasu, lub nawet spojrzeć na prognozy prawdopodobieństwa Silvera w czasie i obliczyć wyniki w każdym punkcie czasowym. Można mieć nadzieję, że wynik będzie coraz niższy (tj. Prognozy gęstości będą coraz lepsze), im bliżej jest faktycznego wyniku.
źródło
W książce Nate'a Silvera Sygnał i hałas pisze on, co może zapewnić wgląd w twoje pytanie:
To podnosi kilka punktów. Po pierwsze, jak słusznie zauważyłeś, naprawdę nie możesz wnioskować o jakości pojedynczej prognozy na podstawie zdarzenia, które prognozujesz. Najlepsze, co możesz zrobić, to zobaczyć, jak działa Twój model w trakcie wielu prognoz.
Inną rzeczą, o której należy pomyśleć, jest to, że prognozy dostarczone przez Nate Silver nie są zdarzeniem samym w sobie, ale rozkładem prawdopodobieństwa zdarzenia. W przypadku wyścigu prezydenckiego szacuje rozkład prawdopodobieństwa wygrania wyścigu przez Clintona, Trumpa lub Johnsona. W tym przypadku szacuje rozkład wielomianowy.
Ale tak naprawdę przewiduje wyścig na znacznie bardziej szczegółowym poziomie. Jego prognozy szacują rozkład prawdopodobieństwa procentowej liczby głosów, jaką każdy kandydat zgromadzi w każdym stanie. Jeśli więc weźmiemy pod uwagę 3 kandydatów, można to scharakteryzować losowym wektorem o długości 51 * 3 i przyjmowaniem wartości w przedziale [0, 1], z zastrzeżeniem ograniczenia, że proporcje sumują się do 1 dla proporcji w obrębie stanu. Liczba 51 jest spowodowana tym, że inne to 50 stanów + DC (i tak naprawdę myślę, że jest ich jeszcze kilka, ponieważ niektóre stany mogą podzielić swoje głosy w wyborach), a liczba 3 wynika z liczby kandydatów.
Teraz nie masz zbyt wielu danych, aby ocenić jego prognozy - przewidział tylko 3 ostatnie wybory, o których wiem (czy było ich więcej?). Nie sądzę więc, aby istniał sposób uczciwej oceny jego modelu, chyba że faktycznie miałeś pod ręką model i mógłbyś go ocenić przy użyciu danych symulowanych. Ale wciąż jest kilka interesujących rzeczy, na które można spojrzeć. Na przykład uważam, że byłoby interesujące przyjrzeć się, jak dokładnie przewidział proporcje głosów w poszczególnych stanach w określonym momencie, np. Tydzień po wyborach. Jeśli powtórzysz to dla wielu punktów czasowych, np. Na tydzień, na miesiąc, na 6 miesięcy i na rok, możesz przedstawić całkiem interesującą ekspozycję dla jego prognoz. Jedno ważne zastrzeżenie: wyniki są wysoce skorelowane między stanami w trakcie wyborów, więc nie można tak naprawdę powiedzieć, że masz 51 stanów * 3 wybory niezależne przewidywania instancji (tj. jeśli model nie docenia wyników kandydatów w jednym stanie, będzie miał tendencję do niedoszacowania również w innych stanach) . Ale może pomyślałbym o tym w ten sposób, żebyś miał wystarczająco dużo danych, aby zrobić coś sensownego.
źródło
W przypadku każdej pojedynczej prognozy, której nie możesz, bardziej niż możemy stwierdzić, czy twierdzenie „ta moneta ma 60% szans na pojawienie się głów” jest bliskie do poprawienia z jednego rzutu.
Możesz jednak ocenić jego metodologię na podstawie wielu prognoz - na wybrane wybory dokonuje wielu prognoz, nie tylko ogólnie dotyczących rasy prezydenckiej, ale także wielu prognoz dotyczących głosowania na prezydenta i wielu innych ras (domu, senatu, gubernatora) i tak dalej), a także z biegiem czasu stosuje zasadniczo podobne metodologie.
Istnieje wiele sposobów przeprowadzenia tej oceny (niektóre dość wyrafinowane), ale możemy spojrzeć na kilka stosunkowo prostych sposobów, aby się zorientować. Na przykład możesz podzielić prognozy prawdopodobieństwa wygranej na przedziały np. (50–55%, 55–65% itd.), A następnie sprawdzić, jaka część prognoz w tym paśmie się pojawiła; proporcja 50–55% prognoz, które się sprawdziły, powinna wynosić między 50–55%, w zależności od tego, gdzie była średnia (plus margines dla losowej zmienności *).
Dzięki takiemu podejściu (lub różnym innym podejściom) możesz zobaczyć, czy rozkład wyników był zgodny z przewidywaniami w trakcie wyborów, czy w kilku wyborach (jeśli dobrze pamiętam, myślę, że jego prognozy były lepsze niż powinny. , co sugeruje, że jego standardowe błędy były średnio nieco zawyżone).
* musimy jednak uważać, jak to ocenić, ponieważ prognozy nie są niezależne.
źródło