Ten artykuł „ Kursy, ciągle aktualizowane” z NY Times przykuł moją uwagę. Krótko mówiąc, stwierdza to
[Statystyka bayesowska] okazuje się szczególnie przydatna w podejściu do skomplikowanych problemów, w tym wyszukiwań takich jak ta przeprowadzona przez Straż Przybrzeżną w 2013 r. W celu odnalezienia zaginionego rybaka, Johna Aldridge'a (choć jak dotąd nie w polowaniu na Malaysia Airlines Flight 370). ......, statystyki bayesowskie przewijają się przez wszystko, od fizyki po badania nad rakiem, ekologia i psychologia ...
W artykule pojawiła się także krytyka wartości p częstego, na przykład:
Wyniki są zwykle uważane za „statystycznie istotne”, jeśli wartość p jest mniejsza niż 5 procent. Ale w tej tradycji istnieje niebezpieczeństwo, powiedział Andrew Gelman, profesor statystyki w Kolumbii. Nawet jeśli naukowcy zawsze poprawnie wykonali obliczenia - a nie robią tego, argumentuje - zaakceptowanie wszystkiego z wartością p wynoszącą 5 procent oznacza, że jeden na 20 „statystycznie znaczących” wyników jest niczym innym jak szumem losowym.
Poza powyższym być może najbardziej znanym artykułem krytykującym wartość p jest ta - „Metoda naukowa: błędy statystyczne” Reginy Nuzzo z Nature , w której omówiono wiele zagadnień naukowych związanych z podejściem wartości p, takich jak problemy z odtwarzalnością, Hackowanie wartości p itp.
Wartości P, „złoty standard” ważności statystycznej, nie są tak wiarygodne, jak przypuszcza wielu naukowców. ...... Być może najgorszym błędem jest rodzaj samooszukiwania się, dla którego psycholog Uri Simonsohn z University of Pennsylvania i jego współpracownicy spopularyzowali pojęcie hakowania P. jest również znany jako pogłębianie danych, węszenie, łowienie ryb, pogoń za znaczeniem i podwójne zanurzenie. „Hakowanie P”, mówi Simonsohn, „próbuje wielu rzeczy, dopóki nie uzyskasz pożądanego rezultatu” - nawet nieświadomie. ...... „To odkrycie wydaje się być uzyskane dzięki hakowaniu p, autorzy porzucili jeden z warunków, tak aby ogólna wartość p była mniejsza niż 0,05” i „Ona jest hakerem p, zawsze monitoruje dane podczas ich gromadzenia. ”
Inną rzeczą jest to ciekawa fabuła, jak następuje od tutaj , z komentarzem na temat działki:
Bez względu na to, jak niewielki może być Twój efekt, zawsze możesz wykonać ciężką pracę polegającą na gromadzeniu danych, aby przekroczyć próg p <0,05. Dopóki efekt, który badasz, nie istnieje, wartości p mierzą tylko wysiłek włożony w gromadzenie danych.
W związku z powyższym moje pytania są następujące:
Co dokładnie oznacza argument Andrew Gelmana w drugim cytacie blokowym? Dlaczego zinterpretował 5-procentową wartość p jako „zauważa jeden na 20 statystycznie istotnych wyników, ale losowy szum”? Nie jestem przekonany, ponieważ dla mnie wartość p służy do wnioskowania na podstawie jednego badania. Jego punkt wydaje się związany z wielokrotnymi testami.
Aktualizacja: Sprawdź blog Andrew Gelmana na ten temat: Nie, nie powiedziałem tego! (Kredyty dla @Scortchi, @whuber).
Biorąc pod uwagę krytykę wartości p, a także biorąc pod uwagę, że istnieje wiele kryteriów informacyjnych, takich jak AIC, BIC, do oceny istotności modelu (stąd zmiennych), czy nie powinniśmy używać wartości p do wyboru zmiennych w wszystko oprócz tych kryteriów wyboru modelu?
- Czy istnieją jakieś praktyczne wskazówki dotyczące wykorzystania wartości p do analizy statystycznej, które mogłyby prowadzić do bardziej wiarygodnych wyników badań?
Czy ramy modelowania bayesowskiego byłyby lepszym sposobem realizacji, o czym opowiadają się niektórzy statystycy? W szczególności, czy podejście bayesowskie byłoby bardziej prawdopodobne w przypadku fałszywego znalezienia lub manipulowania problemami z danymi? Nie jestem tu również przekonany, ponieważ przeor jest bardzo subiektywny w podejściu bayesowskim. Czy są jakieś praktyczne i dobrze znane badania, które pokazują, że podejście bayesowskie jest lepsze niż wartość p częstego, czy przynajmniej w niektórych szczególnych przypadkach?
Aktualizacja: Byłbym szczególnie zainteresowany tym, czy zdarzają się przypadki, że podejście bayesowskie jest bardziej wiarygodne niż podejście p-wartości częstych. Przez „wiarygodny” rozumiem, że podejście bayesowskie ma mniejsze szanse na manipulowanie danymi w celu uzyskania pożądanych rezultatów. Jakieś sugestie?
Aktualizacja 6/9/2015
Właśnie zauważyłem wiadomość i pomyślałem, że dobrze byłoby umieścić ją tutaj do dyskusji.
Dziennik psychologii zakazuje wartości P.
Kontrowersyjny test statystyczny w końcu dobiegł końca, przynajmniej w jednym czasopiśmie. Na początku tego miesiąca redaktorzy Podstawowej i Stosowanej Psychologii Społecznej (BASP) ogłosili, że czasopismo nie będzie już publikować artykułów zawierających wartości P, ponieważ statystyki były zbyt często wykorzystywane do wspierania badań niższej jakości.
Wraz z niedawnym referatem „zmienna wartość P generuje nieodpowiedzialne wyniki” z natury , o wartości P.
Zaktualizuj 5/8/2016
W marcu Amerykańskie Stowarzyszenie Statystyczne (ASA) opublikowało oświadczenia dotyczące istotności statystycznej i wartości p: „… Oświadczenie ASA ma na celu ukierunkowanie badań na„ epokę p <0,05 ”.”
To oświadczenie zawiera 6 zasad odnoszących się do niewłaściwego wykorzystania wartości p:
- Wartości p mogą wskazywać, jak niezgodne są dane z określonym modelem statystycznym.
- Wartości p nie mierzą prawdopodobieństwa, że badana hipoteza jest prawdziwa, ani prawdopodobieństwa, że dane zostały wygenerowane wyłącznie przez przypadek.
- Wnioski naukowe oraz decyzje biznesowe lub polityczne nie powinny opierać się wyłącznie na tym, czy wartość p przekracza określony próg.
- Właściwe wnioskowanie wymaga pełnego raportowania i przejrzystości.
- Wartość p lub istotność statystyczna nie mierzy wielkości efektu ani ważności wyniku.
- Sama wartość p nie stanowi dobrego dowodu na temat modelu lub hipotezy.
Szczegóły: „Oświadczenie ASA w sprawie wartości p: kontekst, proces i cel” .
źródło
Odpowiedzi:
Oto kilka myśli:
źródło
Dla mnie jedną z najbardziej interesujących rzeczy w kontrowersjach dotyczących hakowania p jest to, że cała historia p <= 0,05 jako standardu „raz w niebieskim księżycu” dla znaczenia statystycznego, jak zauważył Joseph Kaldane w artykule JASA na temat statystyk kryminalistycznych w latach 90. całkowicie nie opiera się na teorii statystycznej. Jest to konwencja, prosta heurystyka i zasada praktyczna, która rozpoczęła się od RA Fisher i od tego czasu została potwierdzona lub poświęcona do obecnego „niekwestionowanego” statusu. Bez względu na to, czy jest bayesowski, czy nie, czas jest już spóźniony, aby zakwestionować ten standard metryczny lub przynajmniej dać mu sceptycyzm, na jaki zasługuje.
To powiedziawszy, moja interpretacja punktu Gelmana jest taka, że, jak dobrze wiadomo, proces wzajemnej oceny nagradza pozytywne znaczenie statystyczne i karze nieistotne wyniki, nie publikując tych artykułów. Jest to niezależne od tego, czy opublikowanie nieznacznego odkrycia miałoby potencjalnie duży wpływ na sposób myślenia i teoretyzację dla danej dziedziny. Gelman, Simonshohn i inni wielokrotnie wskazywali na nadużywanie poziomu istotności 0,05 w recenzowanych i opublikowanych badaniach, podając przykłady absurdalnych, ale statystycznie istotnych wyników badań paranormalnych, społecznych i psychologicznych. Jednym z najbardziej rażących było statystycznie istotne odkrycie, że kobiety w ciąży częściej noszą czerwone sukienki. Gelman utrzymuje, że wobec braku logicznych wyzwań dla wyników statystycznychpotencjalnie bezsensowne wyjaśnienie. Tutaj odnosi się do branżowego zagrożenia zawodowego za pomocą zbyt technicznych i zawiłych argumentów, które niewiele lub wcale nie przyczyniają się do rozwoju debaty wśród świeckich odbiorców.
Jest to kwestia, o której Gary King gwałtownie mówi, gdy praktycznie błaga politologów ilościowych (a co za tym idzie, wszystkie kwanty), aby zaprzestali mechanistycznego, technicznego reportażu, takiego jak „ten wynik był znaczący na poziomie ap <= 0,05” i przechodząc do bardziej merytorycznych interpretacji . Oto cytat z artykułu przez niego,
Punkt Kinga jest bardzo dobrze przemyślany i wytycza kierunek, w którym powinna zmierzać debata.
Jak najlepiej wykorzystać analizy statystyczne: poprawa interpretacji i prezentacji , King, Tomz i Wittenberg, 2002, Am Jour of Poli Sci .
źródło
Oto kilka moich przemyśleń na pytanie 3 po przeczytaniu wszystkich wnikliwych komentarzy i odpowiedzi.
Być może jednym praktycznym wskazówką w analizie statystycznej, aby uniknąć włamań wartości p, jest spojrzenie na naukowo (lub biologicznie, klinicznie itp.) Wielkość znaczącego / znaczącego efektu.
Ponadto, aby uniknąć użycia zbyt dużego rozmiaru próbki do wykrycia efektu, należy również wziąć pod uwagę wymagany rozmiar próbki. Oznacza to, że powinniśmy ograniczyć maksymalny rozmiar próbki zastosowany w eksperymencie.
Podsumowując
W związku z powyższym być może uda nam się w ten sposób uniknąć niewielkiego „znaczącego” efektu wynikającego z dużej wielkości próby.
[Aktualizacja 6/9/2015]
Jeśli chodzi o pytanie 3, oto kilka sugestii opartych na niedawnym artykule z natury: „Zmienna wartość P generuje nie powtarzalne wyniki”, jak wspomniałem w części Pytanie.
[Koniec aktualizacji 6/9/2015]
źródło
Oznacza to, że wyniki 1/20 mogą odrzucić wartość zerową, gdy nie powinny. Jeśli nauka oparłaby swój wniosek na pojedynczych eksperymentach, stwierdzenie byłoby uzasadnione. W przeciwnym razie, jeśli eksperymenty byłyby powtarzalne, oznaczałoby to, że 19/20 nie zostałby odrzucony. Morał tej historii jest taki, że eksperymenty powinny być powtarzalne.
Nauka jest tradycją opartą na „obiektywności”, więc „obiektywne prawdopodobieństwo” naturalnie przemawia. Przypomnijmy, że eksperymenty mają na celu wykazanie wysokiego stopnia kontroli, często przy użyciu projektowania bloków i randomizacji w celu kontroli czynników spoza badań. Dlatego porównanie z przypadkowym ma sens, ponieważ wszystkie inne czynniki powinny być kontrolowane, z wyjątkiem tych objętych badaniem. Techniki te były bardzo skuteczne w rolnictwie i przemyśle, zanim zostały przeniesione do nauki.
Nie jestem pewien, czy brak informacji był kiedykolwiek naprawdę problemem. Warto zauważyć, że dla wielu nauk niematematycznych statystyka jest tylko polem do zaznaczenia.
Sugerowałbym ogólną lekturę na temat teorii decyzji, która jednoczy te dwie struktury. Sprowadza się to po prostu do korzystania z dowolnej ilości informacji. Statystyki częstokroć przyjmują, że parametry w modelach mają nieznane wartości ze stałych rozkładów. Bayesianie zakładają, że parametry w modelach pochodzą z rozkładów uwarunkowanych tym, co wiemy. Jeśli jest wystarczająco dużo informacji, aby utworzyć wcześniejsze i wystarczające informacje, aby zaktualizować je do dokładnego z tyłu, to świetnie. Jeśli nie ma, możesz skończyć z gorszymi wynikami.
źródło
Odtwarzalność wyników badań statystycznych
Jest to krótkie, proste ćwiczenie do oceny odtwarzalności decyzji na podstawie testów statystycznych.
Rozważ hipotezę zerową H0 z zestawem alternatywnych hipotez zawierających H1 i H2. Ustaw procedurę testu hipotezy statystycznej na poziomie istotności 0,05, aby uzyskać moc 0,8, jeśli H1 jest prawdą. Ponadto załóżmy, że moc dla H2 wynosi 0,5. Aby ocenić odtwarzalność wyniku testu, rozważa się przeprowadzenie eksperymentu dwa razy. Zaczynając od sytuacji, w której H0 jest prawdą, prawdopodobieństwo wyników wspólnego eksperymentu pokazano w tabeli 1. Prawdopodobieństwo, że nie uda się odtworzyć decyzji, wynosi 0,095.
Tabela 1. Częstotliwości, jeśli H0 jest prawdziweCzęstotliwości zmieniają się wraz ze zmianą prawdziwego stanu przyrody. Zakładając, że H1 jest prawdą, H0 można odrzucić zgodnie z projektem o mocy 0,8. Wynikowe częstotliwości dla różnych wyników wspólnego eksperymentu pokazano w tabeli 2. Prawdopodobieństwo, że nie uda się odtworzyć decyzji, wynosi 0,32.
Tabela 2. Częstotliwości, jeśli H1 jest prawdziweZakładając, że H2 jest prawdą, H0 zostanie odrzucone z prawdopodobieństwem 0,5. Wynikowe częstotliwości dla różnych wyników wspólnego eksperymentu pokazano w tabeli 3. Prawdopodobieństwo, że nie uda się odtworzyć decyzji, wynosi 0,5.
Tabela 3. Częstotliwości, jeśli H2 jest prawdąProcedura testowa została zaprojektowana w celu kontroli błędów typu I (odrzucenie hipotezy zerowej, nawet jeśli jest to prawda) z prawdopodobieństwem 0,05 i ograniczenia błędów typu II (brak odrzucenia hipotezy zerowej, nawet jeśli jest błędna, a H1 jest prawdą) do 0,2. W obu przypadkach, przy założeniu, że H0 lub H1 są prawdziwe, prowadzi to do nieistotnych częstotliwości, odpowiednio 0,095 i 0,32, decyzji „nieodtwarzalnych”, „sprzecznych”, jeżeli ten sam eksperyment powtórzy się dwukrotnie. Sytuacja pogarsza się z częstotliwością do 0,5 dla „niemożliwych do odtworzenia”, „sprzecznych” decyzji, jeśli prawdziwy stan natury znajduje się pomiędzy hipotezą zerową i alternatywną zastosowaną do zaprojektowania eksperymentu.
Sytuacja może również ulec poprawie - jeśli błędy typu 1 są kontrolowane bardziej rygorystycznie lub jeśli prawdziwy stan natury jest daleko od zera, co skutkuje mocą odrzucenia wartości zerowej bliskiej 1.
Dlatego jeśli chcesz uzyskać bardziej powtarzalne decyzje, zwiększ poziom istotności i moc swoich testów. Niezbyt zadziwiające ...
źródło