Potrzebuję pomocy w wyjaśnianiu i cytowaniu podstawowych statystyk, tekstów lub innych odniesień, dlaczego generalnie niewłaściwe jest używanie statystyki marginesu błędu (MOE) zgłoszonej podczas głosowania w celu naiwnego zadeklarowania powiązania statystycznego.
Przykład: kandydat A prowadzi kandydata B w ankiecie, procent, margines błędu dla ankietowanych wyborców.4,5 % 500
Mój przyjaciel ma takie powody:
Z powodu zawiłości modelowania statystycznego margines błędu oznacza, że prawdziwe wsparcie A może wynosić zaledwie 34,5 procent, a B może wynosić nawet 35,5 procent. Dlatego A i B faktycznie znajdują się w statystycznym martwym cieple.
Cała pomoc została doceniona w jasnym sformułowaniu wady rozumowania mojego przyjaciela. Próbowałem wyjaśnić, że niewłaściwe jest naiwne odrzucenie hipotezy „A prowadzi B”, jeśli .
Odpowiedzi:
Moja pierwsza próba odpowiedzi była błędna (patrz poniżej, aby znaleźć błędną odpowiedź). Wadą jest to, że zgłaszany margines błędu (MOE) odnosi się do procentu sondowania kandydata, ale nie do różnicy procentowej. Moja druga próba wyraźnie odnosi się do pytania postawionego przez OP nieco lepiej.
Drugie podejście
Przyjaciel PO uzasadnia, co następuje:
Głównym problemem jest to, że pierwszy krok jest nieprawidłowy. Konstruowanie przedziałów ufności niezależnie dla dwóch kandydatów nie jest prawidłowym krokiem, ponieważ procenty sondowania dla dwóch kandydatów są losowymi zmiennymi zależnymi. Innymi słowy, wyborca, który zdecyduje się nie głosować na A, może potencjalnie zdecydować się na głosowanie na B. Zatem poprawnym sposobem oceny, czy ołów jest znaczący, czy nie, jest skonstruowanie przedziału ufności dla różnicy. Zobacz wiki, jak obliczyć błąd standardowy dla różnicy procentów sondowania przy pewnych założeniach.
Błędna odpowiedź poniżej
Moim zdaniem „poprawny” sposób myślenia o wyniku głosowania jest następujący:
To, czy uważasz, że „A prowadzi B”, czy „A wiąże B”, zależy od tego, w jakim stopniu jesteś gotów zaakceptować 5% jako kryteria odcięcia.
źródło
Łatwiej jest to wyjaśnić w kategoriach odchyleń standardowych niż przedziałów ufności.
Wniosek twojego przyjaciela jest zasadniczo poprawny w najprostszym modelu, w którym masz proste losowe pobieranie próbek i dwóch kandydatów. Teraz proporcje próbki spełniają tak że . Zatem a więc To, co sprawia, że ta prosta relacja jest możliwa, polega na tym, że i są doskonale ujemnie skorelowane, ponieważ ogólniepZA+ pb= 1 pb= 1 - pZA
Poza tym prostym modelem , jeśli ogólnie nie utrzymuje się, należy wziąć pod uwagę korelację między i która nie jest uwzględniona w marginesie błędu. Jest to możliwe dla .p A p B S D ( p A - p B ) ≪ 2 S D ( p A )pZA+ pb= 1 pZA pB SD(pA−pB)≪2SD(pA)
Ale cały ten niuans wydaje się wskazywać, że organizacje ankietowane powinny zgłaszać margines błędu dotyczący różnicy. Gdzie jest Nate Silver?
źródło
Jest to nie tylko zły sposób na określenie rzeczy, ale nie jest to nawet statystyczny efekt gorąca.
W ten sposób nie używasz nakładających się przedziałów ufności. Jeśli naprawdę chcesz tylko powiedzieć, że kandydat A wygra, to zdecydowanie kandydat A jest na prowadzeniu. Ołów wynosi 8% MOE 6,4%. Przedział ufności tego wyniku odejmowania nie jest dwukrotnością przedziału ufności poszczególnych wyników. Implikuje to twierdzenie, że nakładanie się CI (± MOE) wokół każdego oszacowania jest ciepłem martwym. Zakładając równe N i wariancję, MOE różnicy wynosi sqrt (2) razy 4,5. To dlatego, że znalezienie różnicy między wartościami podwoiłoby jedynie wariancję (SD do kwadratu). Przedział ufności oparty jest na sqrt wariancji, dlatego ich połączenie jest średnią (4,5) * sqrt (2). Ponieważ MOE twojego 8% leadu wynosi około 6,4%, kandydat A jest na prowadzeniu.
Nawiasem mówiąc, MOE są bardzo konserwatywne i oparte na 50% wartości wyboru. Formuła to sqrt (0,25 / n) * 2. Istnieje formuła do obliczania standardowych błędów wyników różnic, których moglibyśmy również użyć. Zastosowalibyśmy to przy użyciu znalezionych wartości zamiast 50% wartości granicznej, co wciąż daje nam znaczącą przewagę w przypadku kandydata A (7,5% MOE). Uważam, że biorąc pod uwagę komentarz pytających i bliskość tego odcięcia od wybranego hipotetycznego, prawdopodobnie tego właśnie szukali.
Przydałoby się każde wprowadzenie zarówno do przedziałów ufności, jak i do władzy. Nawet artykuł w Wikipedii na temat MOE wygląda całkiem nieźle.
źródło