Ponieważ wybory są zdarzeniem jednorazowym, nie można powtórzyć eksperymentu. Co dokładnie oznacza technicznie stwierdzenie „Hillary ma 75% szans na wygraną” ? Szukam statystycznie poprawnej definicji, a nie intuicyjnej czy konceptualnej.
Jestem fanem statystyk amatorskich, który próbuje odpowiedzieć na to pytanie, które pojawiło się w dyskusji. Jestem prawie pewien, że istnieje na to dobra obiektywna reakcja, ale sam nie mogę tego wymyślić ...
probability
prediction
politics
pitosalas
źródło
źródło
Odpowiedzi:
Wszystkie dotychczasowe odpowiedzi są pomocne, ale nie są zbyt dokładne statystycznie, więc spróbuję. Jednocześnie udzielę ogólnej odpowiedzi, zamiast skupiać się na tych wyborach.
Pierwszą rzeczą, o której należy pamiętać, gdy staramy się odpowiedzieć na pytania dotyczące wydarzeń w świecie rzeczywistym, takich jak wygrywanie wyborów przez Clintona, w przeciwieństwie do wymyślonych problemów matematycznych, takich jak wyciąganie piłek o różnych kolorach z urny, jest to, że nie ma unikalny rozsądny sposób na udzielenie odpowiedzi na pytanie, a zatem nie unikalna rozsądna odpowiedź. Jeśli ktoś po prostu powie „Hillary ma 75% szans na wygraną” i nie będzie dalej opisywać swojego modelu wyborów, danych, których użył do oszacowania, wyników walidacji modelu, założeń tła, czy odnoszą się do głosowania powszechnego lub wyborczego itp., wtedy tak naprawdę nie powiedzieli ci, co mają na myśli, a tym bardziej nie dostarczyli wystarczających informacji, aby ocenić, czy ich przewidywania są dobre. Poza tym to nie jest
Jakie więc procedury może zastosować statystyk, aby oszacować szanse Clintona? Rzeczywiście, w jaki sposób mogą oni sformułować problem? Na wysokim poziomie istnieją różne pojęcia samego prawdopodobieństwa, z których dwa najważniejsze to częste i bayesowskie.
W opinii częstokroć prawdopodobieństwo reprezentuje ograniczającą częstotliwość zdarzenia w wielu niezależnych próbach tego samego eksperymentu, jak w prawie dużych liczb (silnych lub słabych). Chociaż poszczególne wybory są wyjątkowym wydarzeniem, ich wynik można postrzegać jako czerpanie z nieskończonej populacji wydarzeń zarówno historycznych, jak i hipotetycznych, które mogą obejmować wszystkie amerykańskie wybory prezydenckie, wszystkie wybory na świecie w 2016 r. Lub coś innego. 75% szansy na zwycięstwo w Clinton oznacza, że jeśli jest sekwencją wyników (0 lub 1) niezależnych wyborów, które są całkowicie równoważne z tymi wyborami, jeśli chodzi o nasz model, wówczas średnia próbki zbiega się w prawdopodobieństwie do 0,75 jakoX 1 , X 2 , … , X n nX1,X2,… X1,X2,…,Xn n idzie w nieskończoność.
W ujęciu bayesowskim prawdopodobieństwo reprezentuje stopień wiarygodności lub wiarygodności (która może, ale nie musi być faktycznym przekonaniem, w zależności od tego, czy jesteś subiektywistycznym bayesowskim). Szansa 75% na zwycięstwo w Clinton oznacza, że wygra ona w 75%. Z kolei wiarygodność można wybierać dowolnie (w oparciu o istniejące przekonania modelu lub analityka) w ramach ograniczeń podstawowych praw prawdopodobieństwa (takich jak twierdzenie Bayesa oraz fakt, że prawdopodobieństwo wspólnego zdarzenia nie może przekraczać krańcowego prawdopodobieństwa któregokolwiek z zdarzenia składowe). Jednym ze sposobów podsumowania tych przepisów jest to, że jeśli obstawiasz wynik wydarzenia, oferując szanse graczom zgodnie z twoimi wiarygodnościami, to żaden gracz nie może stworzyć holenderskiej książkiprzeciwko tobie, to znaczy zestaw zakładów, które gwarantują, że stracisz pieniądze bez względu na to, jak naprawdę wydarzenie się uda.
Niezależnie od tego, czy podchodzisz do poglądów prawdopodobieństwa czy bayesowskiego, wciąż istnieje wiele decyzji, które należy podjąć, aby przeanalizować dane i oszacować prawdopodobieństwo. Być może najpopularniejsza metoda oparta jest na modelach regresji parametrycznej, takich jak regresja liniowa. W tym ustawieniu analityk wybiera parametryczną rodzinę rozkładów (czyli miary prawdopodobieństwa ) indeksowaną przez wektor liczb zwanych parametrami. Każdy wynik jest niezależną zmienną losową pochodzącą z tego rozkładu, przekształconą zgodnie ze zmiennymi towarzyszącymi, które są znanymi wartościami (takimi jak stopa bezrobocia), które analityk chce wykorzystać, aby przewidzieć wynik. Analityk wybiera oszacowania wartości parametrów na podstawie danych i kryterium dopasowania modelu, takiego jak najmniejsze kwadratylub maksymalne prawdopodobieństwo . Korzystając z tych oszacowań, model może wygenerować prognozę wyniku (być może tylko pojedynczą wartość, ewentualnie przedział lub inny zestaw wartości) dla dowolnej wartości współzmiennych. W szczególności może przewidzieć wynik wyborów. Oprócz modeli parametrycznych istnieją modele nieparametryczne (czyli modele zdefiniowane przez rodzinę rozkładów indeksowanych nieskończenie długim wektorem parametrów), a także metody decydowania o przewidywanych wartościach, które nie wykorzystują modelu, w którym dane zostałyby wygenerowane , takie jak klasyfikatory najbliższych sąsiadów i losowe lasy .
Wymyślanie prognoz to jedno, ale skąd wiesz, czy są one dobre? W końcu wystarczająco niedokładne prognozy są gorsze niż bezużyteczne. Testowanie prognoz jest częścią większej praktyki sprawdzania poprawności modelu, to znaczy ilościowego określania, jak dobry jest dany model dla danego celu. Dwie popularne metody sprawdzania poprawności prognoz to sprawdzanie poprawności krzyżowej i dzielenie danych na podzbiory szkoleniowe i testowe przed dopasowaniem jakichkolwiek modeli. W zakresie, w jakim wybory zawarte w danych są reprezentatywne dla wyborów prezydenckich w USA w 2016 r., Oszacowania dokładności prognostycznej, które uzyskamy z zatwierdzania prognoz, poinformują nas o tym, jak dokładne będą nasze przewidywania dotyczące wyborów prezydenckich w USA w 2016 r.
źródło
Kiedy statystycy chcą przewidzieć wynik binarny (Hillary wygrywa kontra Hillary nie wygrywa), wyobrażają sobie, że wszechświat rzuca wyimaginowaną monetę - Heads, Hillary wygrywa; ogony, traci. Dla niektórych statystyk moneta przedstawia stopień ich wiary w wynik; dla innych moneta przedstawia to, co mogłoby się zdarzyć, gdybyśmy ponownie przeprowadzili wybory w tych samych okolicznościach w kółko. Filozoficznie rzecz biorąc, trudno jest zrozumieć, co mamy na myśli, gdy mówimy o niepewnych przyszłych wydarzeniach, nawet zanim wciągniemy w to liczby. Ale możemy spojrzeć na to, skąd pochodzi liczba.
W tym momencie wyborów mamy sekwencję wyników ankiety. Mają one postać: 1000 osób zostało ankietowanych w, powiedzmy, Ohio. 40% wsparcia Trump, 39% wsparcia Hillary, 21% jest niezdecydowanych. Byłyby podobne sondaże z poprzednich wyborów dla odpowiednich kandydatów Demokratów, Republikanów (i innych partii śladowych). W odniesieniu do poprzednich lat istnieją również wyniki. Być może wiesz, że powiedzmy, że kandydaci, którzy uzyskali 40% głosów w ankiecie w lipcu, wygrali 8 z 10 poprzednich wyborów. Albo wyniki mogą powiedzieć, że w 7 na 10 wyborów Demokraci zajęli Ohio. Być może wiesz, jak Ohio wypada w porównaniu z Teksasem (być może nigdy nie wybierają tego samego kandydata) - możesz mieć informacje o tym, jak rozpada się niezdecydowany głos - i możesz mieć ciekawe modele tego, co dzieje się, gdy kandydat zaczyna „gwałtownie wzrastać”.
Biorąc pod uwagę poprzednie wybory, można powiedzieć, że moneta wyborcza została już kilka razy wyrzucona. Te same wybory nie są powtarzane co 4 lata, ale możemy udawać, że tak jest. Na podstawie wszystkich tych informacji ankieterzy budują złożone modele, aby przewidzieć wyniki na ten rok.
75% szansy Hillary na wygraną zależy od naszego stanu wiedzy „dzisiaj”. Mówi, że kandydat z rodzajem wyników ankiety, którą ma „teraz”, w stanach, w których je ma, i biorąc pod uwagę trendy w swoich ankietach w całej kampanii, wygrywa wybory w 3 latach wyborów z 4. Miesiąc od teraz zmieni się jej prawdopodobieństwo wygranej, ponieważ model będzie oparty na stanie sondaży w sierpniu.
Stany Zjednoczone nie miały w swojej historii statystycznie dużej liczby wyborów, a tym bardziej od czasu rozpoczęcia głosowania. Nie możemy też być pewni, że nadal obowiązują trendy wyborcze z, powiedzmy, lat 70-tych. To wszystko jest trochę podejrzane.
Najważniejsze jest to, że Hillary powinna rozpocząć pracę nad przemówieniem inauguracyjnym.
źródło
Gdy mówią to statystyki, nie odnoszą się do marginesu zwycięstwa ani udziału w głosowaniu. Przeprowadzają dużą liczbę symulacji wyborów i liczą jaki procent głosów uzyska każdy kandydat. Dla wielu solidnych modeli prezydenckich mają prognozy dla każdego stanu. Niektóre są bliskie i jeśli wyścig zostanie przeprowadzony wiele razy, obaj kandydaci mogą wygrać. Ponieważ przedziały prognozowania wielokrotnie pokrywają się z marginesem zwycięstwa wynoszącym 0, nie jest to odpowiedź binarna, ale zamiast tego symulacja powie nam dokładniej, czego się spodziewać.
Strona metodologii FiveThirtyEight może nieco lepiej zrozumieć, co jest pod maską: http://fivethirtyeight.com/features/a-users-guide-to-fivethirtyeights-2016-general-election-forecast/
źródło
Istnieje odcinek radia freakonomics, który jest bardzo istotny dla tego pytania (ogólnie rzecz biorąc, nie w szczegółach dotyczących wyborów). W nim Stephen Dubner przeprowadza wywiad z szefem projektu z amerykańskiej agencji obrony, aby ustalić najlepszy sposób prognozowania globalnych wydarzeń politycznych.
Następnie dyskutują, czego nie robić
Następnie odcinek przedstawia metodologie, które najbardziej udani prognostycy zastosowali do oszacowania tych prawdopodobieństw, opowiadając się za nieformalnym podejściem bayesowskim
Odcinek nazywa się Jak być mniej strasznym w przewidywaniu przyszłości i słuchanie go jest bardzo zabawne. Zachęcam do sprawdzenia, czy jesteś zainteresowany tego rodzaju rzeczami!
źródło
Wybory w 2016 r. Są rzeczywiście wydarzeniem jednorazowym. Ale podobnie jest rzut monetą lub rzut kostką.
Gdy ktoś twierdzi, że wie, że kandydat ma 75% szans na wygraną, nie przewiduje wyniku. Twierdzą, że znają kształt kości.
Wynik wyborów nie może tego unieważnić. Ale jeśli model, którego używają do osiągnięcia 75%, zostanie przetestowany w stosunku do wielu wyborów, można wykazać, że ma on ograniczoną wartość predykcyjną. Lub może się urodzić jako cenny.
Oczywiście, gdy cenny predyktor jest znany kandydatom, mogą zmienić swoje zachowanie, a model może stać się nieistotny. Lub może być zdmuchnięty całkowicie nieproporcjonalnie. Spójrz tylko, co dzieje się w Iowa.
źródło
Kiedy ktoś mówi, że „Hillary ma 75% szans na wygraną”, oznacza to, że jeśli zaoferowałeś mu zakład, w którym jedna osoba otrzyma 25 dolarów, jeśli Hillary wygra, a druga osoba dostanie 75 dolarów, jeśli Hillary nie wygra, to weźmie to pod uwagę uczciwy zakład i nie ma konkretnego powodu, aby preferować którąkolwiek ze stron.
Te wartości procentowe zazwyczaj pochodzą z rynków prognoz. Podsumowują one wszystkie dostępne informacje i zwykle przewyższają analityczne metody przewidywania większości zdarzeń.
Rynki prognostyczne oferują ludziom możliwość postawienia zakładu na to, czy nastąpi określone wydarzenie. Wypłaty są ustalane w drodze negocjacji między ludźmi po obu stronach propozycji. Ogólnie rzecz biorąc, ludzie, którzy mają specjalną wiedzę na temat propozycji, będą próbowali wykorzystać tę wiedzę do zarabiania pieniędzy, co ma efekt uboczny wycieku tej informacji.
Załóżmy na przykład, że istnieje rynek prognoz, czy dana celebrytka będzie żyła do końca tego roku. Społeczeństwo zna wiek celebryty i każdy może sprawdzić podstawowe prawdopodobieństwo, że celebrytka umrze do końca roku. Gdyby to wszystko było znane, można by oczekiwać, że ludzie będą skłonni postawić po jednej lub drugiej stronie tej propozycji z mniej więcej prawdopodobieństwem.
Załóżmy, że ktoś wiedział, że celebrytka ma zły stan zdrowia, ale to ukrywa. Lub nawet powiedzieć, że wiele osób wiedziało, że rodzina celebryty cierpiała na choroby serca, które zmniejszałyby ich szanse na przeżycie. Ludzie posiadający te informacje będą skłonni przyjąć jedną stronę tej propozycji, powodując dostosowanie stawki w momencie, gdy kupujący podniosą cenę akcji, a sprzedawcy ją obniżą.
Innymi słowy, gdy szanse są zbyt niskie, ludzie szukający zysku popychają ich do góry. A kiedy są zbyt wysoko, ludzie szukający zysku popychają ich w dół. Cena zakładu ostatecznie odzwierciedla zbiorową mądrość wszystkich na temat prawdopodobieństwa wystąpienia oferty, podobnie jak wszystkie ceny odzwierciedlają zbiorową mądrość na temat kosztów i wartości rzeczy.
źródło
Kluczowym pytaniem jest, w jaki sposób przypisujesz prawdopodobieństwo do unikalnego zdarzenia. Odpowiedź brzmi, że opracowujesz model, dzięki któremu nie jest on już unikalny. Myślę, że łatwiejszym przykładem jest prawdopodobieństwo śmierci prezydenta w biurze? Możesz postrzegać prezydenta jako osobę w pewnym wieku, jako osobę w określonym wieku i płci. Itp ... każdy model daje inną prognozę ... a priori nie ma poprawnego modelu .. to od statystysty zależy, który model będzie najbardziej odpowiedni.
źródło
Biorąc pod uwagę, że sondaże pokazują bardzo zacięty wyścig, 75% może, ale nie musi być dokładne.
Pytasz, co to znaczy, a nie jak to obliczyli. Sugeruje to, że (jeśli zignorujemy kogoś innego oprócz Clintona i jej jednego głównego przeciwnika), będziesz musiał postawić 3 USD, aby uzyskać zwrot 4 USD, jeśli wygra. Alternatywnie, $ 1 zakład na drugiej biegacz wróci 4 $ jeśli wygra.
Moja odpowiedź wprowadza małe rozróżnienie między faktyczną szansą wygranej przez kandydata a tym, czego oczekują ludzie (gracze lub szanse). Podejrzewam, że kiedy widzisz takie liczby, np. 75%, widzisz liczby bukmacherskie, gdy widzisz 49 do 48%, widzisz wyniki ankiety.
źródło
Jeśli robią to dobrze, dzieje się coś w przybliżeniu w trzech czwartych z tych czasów, kiedy mówią, że ma 75% szansy na wydarzenie. (lub bardziej ogólnie ten sam pomysł dostosowany do wszystkich prognoz procentowych)
Możliwe jest przypisanie większego znaczenia niż to, w zależności od naszych filozoficznych opinii i tego, jak bardzo wierzymy w modele, ale ten pragmatyczny punkt widzenia jest czymś o najniższym wspólnym mianowniku - przynajmniej metody statystyczne próbują (choć być może z boku) efekt, a nie bezpośrednio), aby prognozy były zgodne z tym pragmatycznym punktem widzenia.
źródło