Jakie jest częste podejście do historii woltomierza i jego odmian? Chodzi o to, że analiza statystyczna odwołująca się do hipotetycznych zdarzeń musiałaby zostać zrewidowana, gdyby później dowiedziano się, że te hipotetyczne zdarzenia nie mogły mieć miejsca, jak zakładano.
Wersja historii na Wikipedii znajduje się poniżej.
Inżynier losuje próbkę lamp elektronowych i mierzy ich napięcie. Zakres pomiarów wynosi od 75 do 99 woltów. Statystyka oblicza średnią próbki i przedział ufności dla prawdziwej średniej. Później statystyk odkrywa, że woltomierz odczytuje tylko do 100, więc populacja wydaje się „ocenzurowana”. Wymaga to nowej analizy, jeśli statystyki są ortodoksyjne. Jednak inżynier mówi, że ma inny odczyt licznika do 1000 woltów, który wykorzystałby, gdyby jakiekolwiek napięcie przekroczyło 100. Jest to ulga dla statystyki, ponieważ oznacza to, że populacja była w końcu bez cenzury. Ale następnego dnia inżynier informuje statystę, że ten drugi licznik nie działał w momencie pomiaru. Statystyk stwierdza, że inżynier nie wstrzymałby pomiarów, dopóki miernik nie został naprawiony, i informuje go, że konieczne są nowe pomiary. Inżynier jest zdumiony. „Następnie zapytasz o mój oscyloskop”.
Historia ma oczywiście być głupia, ale nie jest dla mnie jasne, jakie wolności czerpie się z metodologią, z której żartuje. Jestem pewien, że w tym przypadku zajęty statystyczny zastosowany nie martwiłby się tym, ale co z hardkorowym akademikiem?
Czy stosując dogmatyczne podejście częstokroć musielibyśmy powtórzyć eksperyment? Czy możemy wyciągnąć wnioski z już dostępnych danych?
Czy w celu zajęcia się bardziej ogólnym punktem tej historii, jeśli chcemy skorzystać z danych, które już mamy, czy można dokonać niezbędnej rewizji hipotetycznych wyników, aby pasowały do częstych ram?
źródło
Odpowiedzi:
W wnioskowaniu częstym chcemy ustalić, jak często coś by się działo, gdyby dany proces stochastyczny był wielokrotnie realizowany. To jest punkt wyjścia dla teorii wartości p, przedziałów ufności i tym podobnych. Jednak w wielu zastosowanych projektach proces „dany” nie jest tak naprawdę podany, a statystyk musi wykonać przynajmniej pewną pracę, określając go i modelując. Może to być zaskakująco niejednoznaczny problem, jak w tym przypadku.
Modelowanie procesu generowania danych
Na podstawie podanych informacji wydaje się, że naszym najlepszym kandydatem jest:
Ale czy to nie jest niesprawiedliwe dla naszego inżyniera? Zakładając, że jest inżynierem, a nie tylko technikiem, prawdopodobnie rozumie, dlaczego musi dokonać ponownego pomiaru, gdy pierwszy miernik wskazuje 100 V. dzieje się tak, ponieważ miernik jest nasycony w górnej granicy zakresu, a zatem nie jest już niezawodny. Być może inżynier naprawdę by to zrobił
Oba te procesy są zgodne z danymi, które posiadamy, ale są to różne procesy i dają różne przedziały ufności. Proces 2 jest tym, który wolelibyśmy jako statystycy. Jeśli napięcia są często znacznie powyżej 100 V, Proces 1 ma potencjalnie katastrofalny tryb awarii, w którym pomiary są czasami poważnie niedoszacowane, ponieważ dane są cenzurowane bez naszej wiedzy. Przedział ufności odpowiednio się powiększy. Możemy to złagodzić, prosząc inżyniera, aby powiedział nam, kiedy jego miernik 1000V nie działa, ale tak naprawdę jest to po prostu kolejny sposób zapewnienia zgodności naszych danych z Procesem 2.
Jeśli koń opuścił już stodołę i nie możemy ustalić, kiedy pomiary są i nie są cenzurowane, możemy spróbować wywnioskować z danych czasy, kiedy miernik 1000 V nie działa. Wprowadzając do procesu regułę wnioskowania, skutecznie tworzymy nowy Proces 1.5, odrębny zarówno od 1, jak i 2. Nasza zasada wnioskowania czasami działała, a czasem nie, więc przedział ufności z Procesu 1.5 byłby pośredni w porównaniu do Procesów 1 i 2)
Teoretycznie nie ma nic złego ani podejrzanego w tym, że pojedyncza statystyka ma trzy różne przedziały ufności związane z trzema różnymi, prawdopodobnie reprezentatywnymi procesami stochastycznymi. W praktyce niewielu konsumentów statystyk chce trzech różnych przedziałów ufności. Chcą takiego, który opiera się na tym, co by się faktycznie wydarzyło, gdyby eksperyment powtórzono wiele razy. Tak więc typowo statystyczny badacz bierze pod uwagę wiedzę zdobytą w trakcie projektu, zgaduje i przedstawia przedział ufności związany z odgadywanym przez siebie procesem. Lub współpracuje z klientem w celu sformalizowania procesu, więc nie musisz zgadywać, że pójdziesz dalej.
Jak odpowiedzieć na nowe informacje
Pomimo nacisków statystyki w tej historii, częste wnioskowanie nie wymaga powtarzania pomiarów, gdy zdobywamy nowe informacje sugerujące, że generowanie procesu stochastycznego nie jest dokładnie tym, co pierwotnie planowaliśmy. Jeśli jednak proces ma się powtarzać, musimy upewnić się, że wszystkie powtórzenia są zgodne z procesem modelowym przyjętym przez przedział ufności. Możemy to zrobić, zmieniając proces lub zmieniając jego model.
Jeśli zmienimy proces, być może będziemy musieli odrzucić przeszłe dane, które zostały zebrane niespójnie z tym procesem. Nie stanowi to jednak problemu, ponieważ wszystkie rozważane przez nas warianty procesu różnią się tylko wtedy, gdy niektóre dane są powyżej 100 V, a to nigdy nie miało miejsca w tym przypadku.
Cokolwiek robimy, model i rzeczywistość muszą zostać dostosowane. Tylko wtedy teoretycznie gwarantowany częstość błędów częstokroć będzie tym, co klient faktycznie uzyska po wielokrotnym wykonaniu procesu.
Bayesowska alternatywa
Z drugiej strony, jeśli wszystko, na czym nam naprawdę zależy, to prawdopodobny zakres prawdziwej średniej dla tej próbki, powinniśmy całkowicie odłożyć na bok częstość i poszukać ludzi, którzy sprzedają odpowiedź na to pytanie - Bayesian. Jeśli pójdziemy tą drogą, wszelkie targowanie się na scenariusz alternatywny staje się nieistotne; liczy się tylko pierwszeństwo i prawdopodobieństwo. W zamian za to uproszczenie tracimy wszelką nadzieję na zagwarantowanie poziomu błędu przy wielokrotnym przeprowadzaniu „eksperymentu”.
Dlaczego zamieszanie?
Ta historia została skonstruowana tak, aby wyglądała jak statystyczny fuzjonista bez powodu kłóci się o głupie rzeczy. Szczerze mówiąc, komu zależy na tych głupich scenariuszach alternatywnych? Oczywiście odpowiedź brzmi: wszyscy powinni się tym przejmować. Na niezwykle ważne dziedziny naukowe cierpi obecnie poważny kryzys replikacji , co sugeruje, że częstotliwość fałszywych odkryć jest znacznie wyższa niż oczekiwano w literaturze naukowej. Jednym z czynników tego kryzysu, choć w żadnym wypadku nie jedynym , jest wzrost hakowania p , który ma miejsce, gdy badacze bawią się wieloma odmianami modelu, kontrolując różne zmienne, aż do uzyskania znaczenia.
Hakowanie P zostało szeroko oczernione w popularnych mediach naukowych i blogosferze, ale niewielu faktycznie rozumie, co jest złego w hakowaniu P i dlaczego. W przeciwieństwie do popularnej opinii statystycznej, nie ma nic złego w patrzeniu na twoje dane przed, podczas i po procesie modelowania. Złe jest to, że nie zgłosili analiz eksploracyjnych i jak wpłynęli na przebieg badań. Tylko patrząc na pełny proces możemy nawet ustalić, który model stochastyczny jest reprezentatywny dla tego procesu i jaka analiza częstościowa jest odpowiednia dla tego modelu, jeśli taki istnieje.
Twierdzenie, że pewna częsta analiza jest odpowiednia, jest bardzo poważnym twierdzeniem. Stwierdzenie tego oznacza, że wiążesz się z dyscypliną wybranego przez ciebie stochastycznego procesu, który pociąga za sobą cały system scenariuszy alternatywnych na temat tego, co zrobiłbyś w różnych sytuacjach. Musisz faktycznie dostosować się do tego systemu, aby gwarancja dla częstych osób miała do ciebie zastosowanie. Bardzo niewielu badaczy, zwłaszcza tych, którzy podkreślają otwartą eksplorację, jest zgodnych z systemem i nie zgłasza skrupulatnie swoich odchyleń; właśnie dlatego mamy teraz kryzys replikacji. (Niektórzy szanowani badacze twierdzili, że to oczekiwanie jest nierealne, stanowisko, które popieram, ale wykracza poza zakres tego postu).
W badaniach, które są stosunkowo proste i / lub znormalizowane, takich jak badania kliniczne, możemy dostosować się do takich rzeczy, jak wielokrotne lub sekwencyjne porównania i utrzymać teoretyczny poziom błędu; w bardziej złożonych i eksploracyjnych badaniach model częsty może nie mieć zastosowania, ponieważ badacz może nie być w pełni świadomy wszystkich podejmowanych decyzji , nie mówiąc już o ich wyraźnym zapisaniu i przedstawieniu. W takich przypadkach badacz powinien (1) być uczciwy i szczery w kwestii tego, co zostało zrobione; (2) prezentują wartości p albo z silnymi zastrzeżeniami, albo wcale; (3) rozważyć przedstawienie innych linii dowodowych, takich jak wcześniejsza wiarygodność hipotezy lub dalsze badanie replikacji.
źródło
Wydaje się to logicznym błędem. Bez względu na to, czy działał licznik 1000 woltów, inżynier mówi „gdyby jakiekolwiek odczyty przekroczyłyby 100, użyłbym drugiego licznika”. Ale skąd miałby wiedzieć, że napięcie wynosi> 100 bez użycia miernika 1000 woltów?
Nie sądzę, aby ta łamigłówka była wystarczająco sformułowana, aby stanowić przydatne pytanie filozoficzne. Praktycznie zgadzam się z odpowiedzią, że właściwą rzeczą jest wykonanie histogramu i sprawdzenie, czy wygląda on na obcięty.
Ale w każdym razie nic w pytaniu nie dotyczy istotnych kwestii, takich jak: (1) jaki jest znany (lub podejrzewany) rozkład odczytów i dlaczego? Czy istnieje jakiś powód, by sądzić, że są one zwykle dystrybuowane? (2) Jeśli nie ma odpowiedzi na to pytanie, to jak kiedykolwiek oszacowano przedział ufności?
Aby dojść do skrajności, mierzy się pewne „napięcie”. Załóżmy, że zasilacz nie może dostarczyć więcej niż 100 woltów. Gdyby to prawda, przypuszczalnie nie mogło być żadnych pomiarów powyżej 100 woltów, więc miernik nie ma znaczenia.
Jest o wiele więcej - pod względem priorytetów, ograniczeń itp. - które są szacowane i tym podobne niż obejmuje pytanie. W przeciwieństwie do paradoksu „Monty Hall”, który jest rześki i czysty.
źródło