Jak możemy ocenić dokładność prognoz Nate Silver?

19

Po pierwsze, podaje prawdopodobieństwo wyników. Na przykład jego prognozy dotyczące wyborów w USA wynoszą obecnie 82% Clintona vs. 18% Trumpa.

Teraz, nawet jeśli Trump wygra, to skąd mam wiedzieć, że nie tylko 18% czasu powinien wygrać?

Innym problemem jest to, że jego prawdopodobieństwo zmienia się w czasie. Tak więc 31 lipca między Trumpem a Clintonem było prawie 50-50.

Moje pytanie brzmi: biorąc pod uwagę, że codziennie ma on inne prawdopodobieństwo wystąpienia tego samego przyszłego wydarzenia z takim samym skutkiem, jak mogę zmierzyć, jak dokładny był każdego dnia, gdy dokonywał prognozy na podstawie informacji dostępnych do tego dnia?

Zupa Dinozaura
źródło
1
Podejrzewam, że nie możemy. Do dokonania takiej oceny potrzebny jest złoty standard, a najlepsze, co mamy, to tylko obserwacje z poprzednich wyborów, które są trudne do porównania (ponieważ każde wybory obejmowałyby alternatywne metody pobierania próbek i zachowania wyborców). Ale nie jestem ekspertem w ankietach wyborczych, więc zostawiam to jako komentarz, a nie odpowiedź :)
Tal Galili
2
@TalGalili: możemy powiedzieć przynajmniej coś, stosując reguły punktacji - tak jak np. Możemy powiedzieć coś o nieobserwowalnych parametrach, które oceniamy w regresjach.
S. Kolassa - Przywróć Monikę
Jest to prawdopodobnie „reguła punktacji”, ale dla n zdarzeń należy pomnożyć jego prawdopodobieństwo dla tych zdarzeń i wziąć n-ty pierwiastek, aby uzyskać średni rodzaj współczynnika predykcji (zakładamy, że nigdy nie robi prognoz 0%). Możesz rozważyć każde prawdopodobieństwo dzienne jako osobną prognozę.
barrycarter
Dlaczego prawdopodobieństwa nie mogą się zmieniać w czasie? Czy w wydarzeniu sportowym szanse nie zmieniają się, gdy padnie gol lub padnie bieg u siebie?
Rodrigo de Azevedo,
8
Model Silvera daje znacznie więcej niż tylko oszacowanie prawdopodobieństwa - daje szacowany margines zwycięstwa, który wynika z prawdopodobieństwa wygranej i marginesów zwycięstwa dla każdego z 50 stanów. Daje to oszacowanie punktowe i margines błędu dla 50 różnych pomiarów (choć z pewną - prawdopodobnie wysoką - stopniem korelacji między nimi), nie tylko przewidując pojedynczy wynik binarny.
Micheasza

Odpowiedzi:

14

Prognozy probabilistyczne (lub, jak są one również znane, prognozy gęstości) mogą być oceniane za pomocą , tj. Funkcji, które odwzorowują prognozę gęstości i obserwowany wynik na tak zwany wynik, który jest minimalizowany w oczekiwaniu, jeśli prognoza gęstości w rzeczywistości należy przewidzieć prawdziwą gęstość. Prawidłowe reguły punktacji to reguły punktacji, które są minimalizowane w oczekiwaniu tylko na podstawie prawdziwej przyszłej gęstości.

Dostępnych jest wiele takich prawidłowych zasad punktacji, poczynając od Briera (1950, Monthly Weather Review ) w kontekście probabilistycznego prognozowania pogody. Czado i in. (2009, Biometrics ) podają bardziej aktualny przegląd tego odrębnego przypadku. Gneiting & Katzfuss (2014, Roczny przegląd statystyki i jej zastosowanie ) dają ogólny przegląd prognoz probabilistycznych w ogóle - w szczególności Gneiting bardzo aktywnie przyczynia się do ustalenia prawidłowych zasad punktacji.

Jednak reguły punktacji są nieco trudne do interpretacji i naprawdę pomagają jedynie w porównywaniu wielu prognoz probabilistycznych - ta z niższym wynikiem jest lepsza. Do wariantu próbkowania, czyli zawsze lepiej jest mieć wiele prognoz do oceny, których wyniki ocenilibyśmy średnio.

Jak uwzględnić „aktualizację” prognoz Silvera lub innych, to dobre pytanie. Możemy użyć reguł punktacji, aby porównać „migawki” różnych prognoz w jednym punkcie czasu, lub nawet spojrzeć na prognozy prawdopodobieństwa Silvera w czasie i obliczyć wyniki w każdym punkcie czasowym. Można mieć nadzieję, że wynik będzie coraz niższy (tj. Prognozy gęstości będą coraz lepsze), im bliżej jest faktycznego wyniku.

S. Kolassa - Przywróć Monikę
źródło
5
Innym sposobem na powiedzenie: Indywidualnego prognozowanego prawdopodobieństwa wystąpienia niepowtarzalnego zdarzenia nie można ocenić samodzielnie, ale można oszacować prognozy (za pomocą funkcji oceny).
kjetil b halvorsen
1
Uważam, że w przypadku „zminimalizowania oczekiwań” kluczową kwestią jest oczekiwanie w stosunku do jakiego zespołu? Czy przyjmujemy wszystkie prognozy Nate'a Silvera? Tylko ci z wyborów prezydenckich? Nie wiem, czy jest tu jedna odpowiedź. Dla porównania różnych prognoz, prognozy dotyczące dowolnego wspólnego zestawu zdarzeń mogą być uzasadnione.
GeoMatt22,
@ GeoMatt22 - ma dość podobną metodologię w przypadku innych wyborów, więc może być uzasadnione zebranie wszystkich prognoz dotyczących wyborów
DVK
11

W książce Nate'a Silvera Sygnał i hałas pisze on, co może zapewnić wgląd w twoje pytanie:

Jeden z najważniejszych testów prognozy - twierdziłbym, że jest to najważniejszy - nazywa się kalibracją. Spośród wszystkich razy, kiedy mówiłeś, że istnieje 40% szansa na deszcz, jak często faktycznie występował deszcz? Jeśli na dłuższą metę naprawdę padało przez około 40% czasu, oznacza to, że Twoje prognozy były dobrze skalibrowane. Jeśli zamiast tego padało w ciągu 20 procent czasu, lub 60 procent czasu, tak nie było.

To podnosi kilka punktów. Po pierwsze, jak słusznie zauważyłeś, naprawdę nie możesz wnioskować o jakości pojedynczej prognozy na podstawie zdarzenia, które prognozujesz. Najlepsze, co możesz zrobić, to zobaczyć, jak działa Twój model w trakcie wielu prognoz.

Inną rzeczą, o której należy pomyśleć, jest to, że prognozy dostarczone przez Nate Silver nie są zdarzeniem samym w sobie, ale rozkładem prawdopodobieństwa zdarzenia. W przypadku wyścigu prezydenckiego szacuje rozkład prawdopodobieństwa wygrania wyścigu przez Clintona, Trumpa lub Johnsona. W tym przypadku szacuje rozkład wielomianowy.

Ale tak naprawdę przewiduje wyścig na znacznie bardziej szczegółowym poziomie. Jego prognozy szacują rozkład prawdopodobieństwa procentowej liczby głosów, jaką każdy kandydat zgromadzi w każdym stanie. Jeśli więc weźmiemy pod uwagę 3 kandydatów, można to scharakteryzować losowym wektorem o długości 51 * 3 i przyjmowaniem wartości w przedziale [0, 1], z zastrzeżeniem ograniczenia, że ​​proporcje sumują się do 1 dla proporcji w obrębie stanu. Liczba 51 jest spowodowana tym, że inne to 50 stanów + DC (i tak naprawdę myślę, że jest ich jeszcze kilka, ponieważ niektóre stany mogą podzielić swoje głosy w wyborach), a liczba 3 wynika z liczby kandydatów.

Teraz nie masz zbyt wielu danych, aby ocenić jego prognozy - przewidział tylko 3 ostatnie wybory, o których wiem (czy było ich więcej?). Nie sądzę więc, aby istniał sposób uczciwej oceny jego modelu, chyba że faktycznie miałeś pod ręką model i mógłbyś go ocenić przy użyciu danych symulowanych. Ale wciąż jest kilka interesujących rzeczy, na które można spojrzeć. Na przykład uważam, że byłoby interesujące przyjrzeć się, jak dokładnie przewidział proporcje głosów w poszczególnych stanach w określonym momencie, np. Tydzień po wyborach. Jeśli powtórzysz to dla wielu punktów czasowych, np. Na tydzień, na miesiąc, na 6 miesięcy i na rok, możesz przedstawić całkiem interesującą ekspozycję dla jego prognoz. Jedno ważne zastrzeżenie: wyniki są wysoce skorelowane między stanami w trakcie wyborów, więc nie można tak naprawdę powiedzieć, że masz 51 stanów * 3 wybory niezależne przewidywania instancji (tj. jeśli model nie docenia wyników kandydatów w jednym stanie, będzie miał tendencję do niedoszacowania również w innych stanach) . Ale może pomyślałbym o tym w ten sposób, żebyś miał wystarczająco dużo danych, aby zrobić coś sensownego.

dpritch
źródło
4

W przypadku każdej pojedynczej prognozy, której nie możesz, bardziej niż możemy stwierdzić, czy twierdzenie „ta moneta ma 60% szans na pojawienie się głów” jest bliskie do poprawienia z jednego rzutu.

Możesz jednak ocenić jego metodologię na podstawie wielu prognoz - na wybrane wybory dokonuje wielu prognoz, nie tylko ogólnie dotyczących rasy prezydenckiej, ale także wielu prognoz dotyczących głosowania na prezydenta i wielu innych ras (domu, senatu, gubernatora) i tak dalej), a także z biegiem czasu stosuje zasadniczo podobne metodologie.

Istnieje wiele sposobów przeprowadzenia tej oceny (niektóre dość wyrafinowane), ale możemy spojrzeć na kilka stosunkowo prostych sposobów, aby się zorientować. Na przykład możesz podzielić prognozy prawdopodobieństwa wygranej na przedziały np. (50–55%, 55–65% itd.), A następnie sprawdzić, jaka część prognoz w tym paśmie się pojawiła; proporcja 50–55% prognoz, które się sprawdziły, powinna wynosić między 50–55%, w zależności od tego, gdzie była średnia (plus margines dla losowej zmienności *).

Dzięki takiemu podejściu (lub różnym innym podejściom) możesz zobaczyć, czy rozkład wyników był zgodny z przewidywaniami w trakcie wyborów, czy w kilku wyborach (jeśli dobrze pamiętam, myślę, że jego prognozy były lepsze niż powinny. , co sugeruje, że jego standardowe błędy były średnio nieco zawyżone).

* musimy jednak uważać, jak to ocenić, ponieważ prognozy nie są niezależne.

Glen_b - Przywróć Monikę
źródło