Jakie jest częste podejście do historii woltomierza?

15

Jakie jest częste podejście do historii woltomierza i jego odmian? Chodzi o to, że analiza statystyczna odwołująca się do hipotetycznych zdarzeń musiałaby zostać zrewidowana, gdyby później dowiedziano się, że te hipotetyczne zdarzenia nie mogły mieć miejsca, jak zakładano.

Wersja historii na Wikipedii znajduje się poniżej.

Inżynier losuje próbkę lamp elektronowych i mierzy ich napięcie. Zakres pomiarów wynosi od 75 do 99 woltów. Statystyka oblicza średnią próbki i przedział ufności dla prawdziwej średniej. Później statystyk odkrywa, że ​​woltomierz odczytuje tylko do 100, więc populacja wydaje się „ocenzurowana”. Wymaga to nowej analizy, jeśli statystyki są ortodoksyjne. Jednak inżynier mówi, że ma inny odczyt licznika do 1000 woltów, który wykorzystałby, gdyby jakiekolwiek napięcie przekroczyło 100. Jest to ulga dla statystyki, ponieważ oznacza to, że populacja była w końcu bez cenzury. Ale następnego dnia inżynier informuje statystę, że ten drugi licznik nie działał w momencie pomiaru. Statystyk stwierdza, że ​​inżynier nie wstrzymałby pomiarów, dopóki miernik nie został naprawiony, i informuje go, że konieczne są nowe pomiary. Inżynier jest zdumiony. „Następnie zapytasz o mój oscyloskop”.

Historia ma oczywiście być głupia, ale nie jest dla mnie jasne, jakie wolności czerpie się z metodologią, z której żartuje. Jestem pewien, że w tym przypadku zajęty statystyczny zastosowany nie martwiłby się tym, ale co z hardkorowym akademikiem?

Czy stosując dogmatyczne podejście częstokroć musielibyśmy powtórzyć eksperyment? Czy możemy wyciągnąć wnioski z już dostępnych danych?

Czy w celu zajęcia się bardziej ogólnym punktem tej historii, jeśli chcemy skorzystać z danych, które już mamy, czy można dokonać niezbędnej rewizji hipotetycznych wyników, aby pasowały do ​​częstych ram?

Prakseolityczny
źródło
4
Częstochowskie podejście pozwala również na warunkowanie, więc nie jestem pewien, czy rozumowanie zawarte w cytacie jest w pełni odpowiednie.
Xi'an
@ Xi'an Nawet jeśli w naszych obliczeniach uwzględniliśmy cenzurę próbki lub prawdopodobieństwo uszkodzenia drugiego woltomierza, istnieje problem, że zmieniamy projekt eksperymentu po jego przeprowadzeniu . Nie wiem, czy można to pogodzić z metodami częstymi.
Praxeolitic
6
Może sprawdź ten wpis dotyczący zasady warunkowości . Chociaż nie jestem częstym, nie jestem wielkim fanem tej historii, ponieważ wydaje się, że sugeruje ona integrację wszystkich możliwych hipotetycznych zdarzeń bez określania ich zakresu. To raczej karykaturalne.
Xi'an
5
Jest to rzeczywiście warte rozważnej dyskusji i odpowiedzi. Należy jednak pamiętać, że „jeśli statystyk jest ortodoksyjny” i nie jest niekompetentny ani chciwy do dodatkowej pracy , stwierdzi, że ponieważ żadna z pierwotnych obserwacji nie została ocenzurowana, jej pierwotny wybór procedury (przypuszczalnie dopuszczalny) pozostaje dopuszczalny i dlatego nie ma podstaw do Zmień to. Teoretyczna podstawa, na której opierają się statystyki „częstych” - teoria decyzji - nie ma zastosowania w przypadku tej „zasady prawdopodobieństwa”.
whuber
1
Wiem, co bym zrobił, pod warunkiem, że jest wystarczająco dużo danych. Zrobiłbym histogram. Spojrzałbym na histogram. Gdyby w tym punkcie istniała wyraźna granica na 99, tworząca jednostronny obcięty histogram, podejrzewam, że został on obcięty. Spojrzałbym również na dane, o których wiadomo, że nie są obcinane, i sprawdziłem ich kształty krzywych, i sprawdziłem, czy mogę uzyskać model prawdopodobieństwa, aby dopasować to, np. Rozkład gamma, czy co. Wrócę do skróconych danych (z założenia) i sprawdzę, czy reszta jest również rozproszona gamma (lub cokolwiek innego). Następnie muszę wyjaśnić: „Dlaczego gamma?” Jeśli tak, to koniec.
Carl

Odpowiedzi:

5

W wnioskowaniu częstym chcemy ustalić, jak często coś by się działo, gdyby dany proces stochastyczny był wielokrotnie realizowany. To jest punkt wyjścia dla teorii wartości p, przedziałów ufności i tym podobnych. Jednak w wielu zastosowanych projektach proces „dany” nie jest tak naprawdę podany, a statystyk musi wykonać przynajmniej pewną pracę, określając go i modelując. Może to być zaskakująco niejednoznaczny problem, jak w tym przypadku.

Modelowanie procesu generowania danych

Na podstawie podanych informacji wydaje się, że naszym najlepszym kandydatem jest:

  1. Jeśli miernik 100 V odczytuje 100 V, inżynier dokonuje pomiaru za pomocą miernika 1000 V, jeśli jest on sprawny. W przeciwnym razie po prostu zaznacza 100 V i idzie dalej.

Ale czy to nie jest niesprawiedliwe dla naszego inżyniera? Zakładając, że jest inżynierem, a nie tylko technikiem, prawdopodobnie rozumie, dlaczego musi dokonać ponownego pomiaru, gdy pierwszy miernik wskazuje 100 V. dzieje się tak, ponieważ miernik jest nasycony w górnej granicy zakresu, a zatem nie jest już niezawodny. Być może inżynier naprawdę by to zrobił

  1. Jeśli miernik 100 V odczytuje 100, inżynier dokonuje pomiaru za pomocą miernika 1000 V, jeśli jest on sprawny. W przeciwnym razie po prostu zaznacza 100 V, dodaje znak plus, aby wskazać pomiar nasycenia, i idzie dalej.

Oba te procesy są zgodne z danymi, które posiadamy, ale są to różne procesy i dają różne przedziały ufności. Proces 2 jest tym, który wolelibyśmy jako statystycy. Jeśli napięcia są często znacznie powyżej 100 V, Proces 1 ma potencjalnie katastrofalny tryb awarii, w którym pomiary są czasami poważnie niedoszacowane, ponieważ dane są cenzurowane bez naszej wiedzy. Przedział ufności odpowiednio się powiększy. Możemy to złagodzić, prosząc inżyniera, aby powiedział nam, kiedy jego miernik 1000V nie działa, ale tak naprawdę jest to po prostu kolejny sposób zapewnienia zgodności naszych danych z Procesem 2.

Jeśli koń opuścił już stodołę i nie możemy ustalić, kiedy pomiary są i nie są cenzurowane, możemy spróbować wywnioskować z danych czasy, kiedy miernik 1000 V nie działa. Wprowadzając do procesu regułę wnioskowania, skutecznie tworzymy nowy Proces 1.5, odrębny zarówno od 1, jak i 2. Nasza zasada wnioskowania czasami działała, a czasem nie, więc przedział ufności z Procesu 1.5 byłby pośredni w porównaniu do Procesów 1 i 2)

Teoretycznie nie ma nic złego ani podejrzanego w tym, że pojedyncza statystyka ma trzy różne przedziały ufności związane z trzema różnymi, prawdopodobnie reprezentatywnymi procesami stochastycznymi. W praktyce niewielu konsumentów statystyk chce trzech różnych przedziałów ufności. Chcą takiego, który opiera się na tym, co by się faktycznie wydarzyło, gdyby eksperyment powtórzono wiele razy. Tak więc typowo statystyczny badacz bierze pod uwagę wiedzę zdobytą w trakcie projektu, zgaduje i przedstawia przedział ufności związany z odgadywanym przez siebie procesem. Lub współpracuje z klientem w celu sformalizowania procesu, więc nie musisz zgadywać, że pójdziesz dalej.

Jak odpowiedzieć na nowe informacje

Pomimo nacisków statystyki w tej historii, częste wnioskowanie nie wymaga powtarzania pomiarów, gdy zdobywamy nowe informacje sugerujące, że generowanie procesu stochastycznego nie jest dokładnie tym, co pierwotnie planowaliśmy. Jeśli jednak proces ma się powtarzać, musimy upewnić się, że wszystkie powtórzenia są zgodne z procesem modelowym przyjętym przez przedział ufności. Możemy to zrobić, zmieniając proces lub zmieniając jego model.

Jeśli zmienimy proces, być może będziemy musieli odrzucić przeszłe dane, które zostały zebrane niespójnie z tym procesem. Nie stanowi to jednak problemu, ponieważ wszystkie rozważane przez nas warianty procesu różnią się tylko wtedy, gdy niektóre dane są powyżej 100 V, a to nigdy nie miało miejsca w tym przypadku.

Cokolwiek robimy, model i rzeczywistość muszą zostać dostosowane. Tylko wtedy teoretycznie gwarantowany częstość błędów częstokroć będzie tym, co klient faktycznie uzyska po wielokrotnym wykonaniu procesu.

Bayesowska alternatywa

Z drugiej strony, jeśli wszystko, na czym nam naprawdę zależy, to prawdopodobny zakres prawdziwej średniej dla tej próbki, powinniśmy całkowicie odłożyć na bok częstość i poszukać ludzi, którzy sprzedają odpowiedź na to pytanie - Bayesian. Jeśli pójdziemy tą drogą, wszelkie targowanie się na scenariusz alternatywny staje się nieistotne; liczy się tylko pierwszeństwo i prawdopodobieństwo. W zamian za to uproszczenie tracimy wszelką nadzieję na zagwarantowanie poziomu błędu przy wielokrotnym przeprowadzaniu „eksperymentu”.

Dlaczego zamieszanie?

Ta historia została skonstruowana tak, aby wyglądała jak statystyczny fuzjonista bez powodu kłóci się o głupie rzeczy. Szczerze mówiąc, komu zależy na tych głupich scenariuszach alternatywnych? Oczywiście odpowiedź brzmi: wszyscy powinni się tym przejmować. Na niezwykle ważne dziedziny naukowe cierpi obecnie poważny kryzys replikacji , co sugeruje, że częstotliwość fałszywych odkryć jest znacznie wyższa niż oczekiwano w literaturze naukowej. Jednym z czynników tego kryzysu, choć w żadnym wypadku nie jedynym , jest wzrost hakowania p , który ma miejsce, gdy badacze bawią się wieloma odmianami modelu, kontrolując różne zmienne, aż do uzyskania znaczenia.

Hakowanie P zostało szeroko oczernione w popularnych mediach naukowych i blogosferze, ale niewielu faktycznie rozumie, co jest złego w hakowaniu P i dlaczego. W przeciwieństwie do popularnej opinii statystycznej, nie ma nic złego w patrzeniu na twoje dane przed, podczas i po procesie modelowania. Złe jest to, że nie zgłosili analiz eksploracyjnych i jak wpłynęli na przebieg badań. Tylko patrząc na pełny proces możemy nawet ustalić, który model stochastyczny jest reprezentatywny dla tego procesu i jaka analiza częstościowa jest odpowiednia dla tego modelu, jeśli taki istnieje.

Twierdzenie, że pewna częsta analiza jest odpowiednia, jest bardzo poważnym twierdzeniem. Stwierdzenie tego oznacza, że ​​wiążesz się z dyscypliną wybranego przez ciebie stochastycznego procesu, który pociąga za sobą cały system scenariuszy alternatywnych na temat tego, co zrobiłbyś w różnych sytuacjach. Musisz faktycznie dostosować się do tego systemu, aby gwarancja dla częstych osób miała do ciebie zastosowanie. Bardzo niewielu badaczy, zwłaszcza tych, którzy podkreślają otwartą eksplorację, jest zgodnych z systemem i nie zgłasza skrupulatnie swoich odchyleń; właśnie dlatego mamy teraz kryzys replikacji. (Niektórzy szanowani badacze twierdzili, że to oczekiwanie jest nierealne, stanowisko, które popieram, ale wykracza poza zakres tego postu).

Może się wydawać niesprawiedliwe, że krytykujemy publikowane artykuły na podstawie twierdzenia o tym, co by zrobiły, gdyby dane były inne. Ale taka jest (nieco paradoksalna) natura argumentacji częstokroć: jeśli zaakceptujesz pojęcie wartości p, musisz uszanować zasadność modelowania tego, co można by zrobić przy alternatywnych danych. (Gelman i Loken, 2013)

W badaniach, które są stosunkowo proste i / lub znormalizowane, takich jak badania kliniczne, możemy dostosować się do takich rzeczy, jak wielokrotne lub sekwencyjne porównania i utrzymać teoretyczny poziom błędu; w bardziej złożonych i eksploracyjnych badaniach model częsty może nie mieć zastosowania, ponieważ badacz może nie być w pełni świadomy wszystkich podejmowanych decyzji , nie mówiąc już o ich wyraźnym zapisaniu i przedstawieniu. W takich przypadkach badacz powinien (1) być uczciwy i szczery w kwestii tego, co zostało zrobione; (2) prezentują wartości p albo z silnymi zastrzeżeniami, albo wcale; (3) rozważyć przedstawienie innych linii dowodowych, takich jak wcześniejsza wiarygodność hipotezy lub dalsze badanie replikacji.

Paweł
źródło
To wygląda na dobrą odpowiedź, ale jutro będę musiał ją mentalnie przetrawić.
Praxeolitic,
opisując opisany problem, brzmi to tak, jakby inżynier twierdził, że zawsze robił twoją opcję # 2
Aksakal
Być może, ale nie powiedział tego wprost. Duże błędy można popełnić, gdy ludzie zgadują, co myślą inni, zamiast dyskutować wprost.
Paul
W kursach statystyki stosowanej zbyt mało nacisku kładzie się na formalizm tego, co oznacza oszacowanie parametrów. Załóżmy, że planujemy wrzucić monetę i zapisać częstotliwość głów. Wchodząc milcząco zakładamy, że rzeczywisty rozkład to Bernoulli przy p = q = 0,5. Po 1000 rzutach zadajemy sobie pytanie „jak prawdopodobne jest, że była to uczciwa moneta”, porównując rzeczywistość z teorią / założeniem. Ale w wielu naukach ludzie zakładają, że rzeczy są normalnie rozłożone, a następnie używają testów t. Ale są one bez znaczenia, jeśli zwroty nie są zwykle dystrybuowane.
eSurfsnake,
1

Wydaje się to logicznym błędem. Bez względu na to, czy działał licznik 1000 woltów, inżynier mówi „gdyby jakiekolwiek odczyty przekroczyłyby 100, użyłbym drugiego licznika”. Ale skąd miałby wiedzieć, że napięcie wynosi> 100 bez użycia miernika 1000 woltów?

Nie sądzę, aby ta łamigłówka była wystarczająco sformułowana, aby stanowić przydatne pytanie filozoficzne. Praktycznie zgadzam się z odpowiedzią, że właściwą rzeczą jest wykonanie histogramu i sprawdzenie, czy wygląda on na obcięty.

Ale w każdym razie nic w pytaniu nie dotyczy istotnych kwestii, takich jak: (1) jaki jest znany (lub podejrzewany) rozkład odczytów i dlaczego? Czy istnieje jakiś powód, by sądzić, że są one zwykle dystrybuowane? (2) Jeśli nie ma odpowiedzi na to pytanie, to jak kiedykolwiek oszacowano przedział ufności?

Aby dojść do skrajności, mierzy się pewne „napięcie”. Załóżmy, że zasilacz nie może dostarczyć więcej niż 100 woltów. Gdyby to prawda, przypuszczalnie nie mogło być żadnych pomiarów powyżej 100 woltów, więc miernik nie ma znaczenia.

Jest o wiele więcej - pod względem priorytetów, ograniczeń itp. - które są szacowane i tym podobne niż obejmuje pytanie. W przeciwieństwie do paradoksu „Monty Hall”, który jest rześki i czysty.

eSurfsnake
źródło
1
Chodzi o krytykę interpretacji prawdopodobieństwa, które opierają się na hipotetycznych zdarzeniach, poprzez rozszerzenie tych interpretacji na absurdalną skrajność. Zagadnienia, o których wspomniałeś, nie mają znaczenia. Podobno inżynier wiedziałby, że w razie potrzeby zmienia woltomierze (np. Widzi odczyt „100”), a statystyki w przeciwnym razie mają powody, by zastosować podejście, którego używa (np. Po prostu zdaje sobie sprawę, że rozkład normalny jest dobry model tych odczytów).
Praxeolitic