Zastanawiałem się dokładnie, dlaczego gromadzenie danych, dopóki nie zostanie uzyskany znaczący wynik (np. ) (tj. Hakowanie p), zwiększy poziom błędu Typu I?
Byłbym również bardzo wdzięczny za R
pokazanie tego zjawiska.
Zastanawiałem się dokładnie, dlaczego gromadzenie danych, dopóki nie zostanie uzyskany znaczący wynik (np. ) (tj. Hakowanie p), zwiększy poziom błędu Typu I?
Byłbym również bardzo wdzięczny za R
pokazanie tego zjawiska.
Odpowiedzi:
Problem polega na tym, że dajesz sobie zbyt wiele szans na zdanie testu. To tylko fantazyjna wersja tego okna dialogowego:
Aby lepiej to zrozumieć, rozważ uproszczony - ale realistyczny - model tej sekwencyjnej procedury . Załóżmy, że zaczniesz od „serii próbnej” określonej liczby obserwacji, ale jesteś skłonny kontynuować eksperymenty dłużej, aby uzyskać wartość p mniejszą niż . Hipotezą zerową jest to, że każda obserwacja pochodzi (niezależnie) ze standardowego rozkładu normalnego. Alternatywą jest to, że pochodzą niezależnie od rozkładu normalnego wariancji jednostkowej ze średnią niezerową. Statystyka testowa będzie średnią ze wszystkich obserwacji, , podzieloną przez ich błąd standardowy, . W przypadku testu dwustronnego wartościami krytycznymi są:X i X i n ˉ X 1 / √0.05 Xi Xi n X¯ 0,0250,975Zα=±1,961/n−−√ 0.025 i punktów procentowych standardowego rozkładu normalnego, w przybliżeniu .0.975 Zα=±1.96
To dobry test - dla pojedynczego eksperymentu ze stałą wielkością próby . Ma dokładnie szans na odrzucenie hipotezy zerowej, bez względu na to, jakie może być .5 % nn 5% n
Algebraicznie przekonwertujmy to na równoważny test oparty na sumie wszystkich wartości,S n = X 1 + x 2 + ⋯ + X n = n ˉ X .n
Zatem dane są „znaczące”, kiedy
to jest,
Jeśli jesteśmy sprytni, zmniejszymy straty i poddamy się, gdy bardzo duże, a dane nadal nie dotrą do regionu krytycznego.n
Opisuje losowy spacer . Wzór sprowadza się do wzniesienia zakrzywionego parabolicznego „ogrodzenia” lub bariery wokół wykresu losowego spaceru : wynik jest „znaczący”, jeśli którykolwiek punkt losowego spaceru uderzy o ogrodzenie.Sn (1) (n,Sn)
Właściwością losowych spacerów jest to, że jeśli będziemy czekać wystarczająco długo, bardzo prawdopodobne jest, że w pewnym momencie wynik będzie wyglądał na znaczący.
Oto 20 niezależnych symulacji do limitu próbek. Wszystkie rozpoczynają testowanie przy próbkach, w tym momencie sprawdzamy, czy każdy punkt znajduje się poza barierami, które zostały narysowane zgodnie ze wzorem . Od momentu, w którym test statystyczny jest po raz pierwszy „znaczący”, symulowane dane są zabarwione na czerwono.n=5000 n=30 (1)
Możesz zobaczyć, co się dzieje: losowy marsz rośnie i spada w górę i w dół wraz ze wzrostem liczby . Bariery rozprzestrzeniają się w przybliżeniu w tym samym tempie - ale nie wystarczająco szybko, aby uniknąć przypadkowego spaceru.n
W 20% tych symulacji wykryto „znaczącą” różnicę - zwykle dość wcześnie - nawet jeśli w każdej z nich hipoteza zerowa jest całkowicie poprawna! Uruchomienie większej liczby symulacji tego typu wskazuje, że rzeczywisty rozmiar testu jest zbliżony do zamiast zamierzonej wartości : oznacza to, że gotowość do szukania „istotności” aż do próby daje szans na odrzucenie wartości null, nawet jeśli wartość null jest prawdziwa.25% α=5% 5000 25%
Zauważ, że we wszystkich czterech „znaczących” przypadkach, gdy testy były kontynuowane, dane przestały wyglądać znaczące w niektórych punktach. W prawdziwym życiu eksperymentator, który zatrzymuje się wcześnie, traci szansę zaobserwowania takich „zmian”. Ta selektywność poprzez opcjonalne zatrzymanie wpływa negatywnie na wyniki.
W sekwencyjnych testach uczciwość do dobroci bariery są liniami. Rozprzestrzeniają się szybciej niż pokazane tutaj zakrzywione bariery.
źródło
Ludzie, którzy są nowi w testowaniu hipotez, mają tendencję do myślenia, że gdy wartość ap spadnie poniżej 0,05, dodanie większej liczby uczestników jeszcze bardziej obniży wartość p. Ale to nie jest prawda. Zgodnie z hipotezą zerową wartość ap jest równomiernie rozłożona między 0 a 1 i może odbijać się dość mocno w tym zakresie.
Symulowałem niektóre dane w R (moje umiejętności R są dość podstawowe). W tej symulacji zbieram 5 punktów danych - każdy z losowo wybranym członkostwem w grupie (0 lub 1) i każdy z losowo wybraną miarą wyniku ~ N (0,1). Począwszy od uczestnika 6, przeprowadzam test t przy każdej iteracji.
Wartości p są na tym rysunku. Zauważ, że znajduję znaczące wyniki, gdy wielkość próbki wynosi około 70-75. Jeśli się tam zatrzymam, uwierzę, że moje odkrycia są znaczące, ponieważ pominąłem fakt, że moje wartości p podskoczyły z większą próbką (tak naprawdę zdarzyło mi się to raz z prawdziwymi danymi). Ponieważ wiem, że obie populacje mają średnią 0, to musi być fałszywie dodatni. Jest to problem z dodawaniem danych do p <0,05. Jeśli dodasz przeprowadzić wystarczającą liczbę testów, p ostatecznie przekroczy próg 0,05 i możesz znaleźć znaczący efekt dla dowolnego zestawu danych.
źródło
R
kod w ogóle nie działa.df
(najlepiej w ostatecznym rozmiarze). Ponieważ kod zaczyna pisać w wierszu 6, implikacją (która pasuje do tekstu odpowiedzi) jest to, że df już istnieje z 5 wierszami już wypełnionymi. Może coś takiego było zamierzone:n150<-vector("numeric",150); df<-data.frame(gp=n150,val=n150,pval=n150); init<-1:5; df[init,1]<-c(0,1,0,1,0); df[init,2]<-rnorm(5)
(następnie uruchom kod powyżej), a następnie być może:plot(df$pv[6:150])
Ta odpowiedź dotyczy tylko prawdopodobieństwa uzyskania „istotnego” wyniku i podziału czasu na to zdarzenie w modelu @ Whubera.
Podobnie jak w modelu @whuber, niech oznacza wartość statystyki testowej po zebraniu obserwacji i załóżmy, że obserwacje są w normie normalne . Wtedy tak, że zachowuje się jak standardowy ruch Browna w czasie ciągłym, jeśli na razie zignorujemy fakt, że mamy proces w czasie dyskretnym (lewy wykres poniżej).S(t)=X1+X2+⋯+Xt t X1,X2,…
Niech oznacza czas pierwszego przejścia przez bariery zależne od (liczba obserwacji potrzebnych, zanim test stanie się znaczący).T S(t) ±zα/2t√
Rozważ przetworzony proces uzyskany przez skalowanie przez jego odchylenie standardowe w czasie oraz przez pozostawienie nowej skali czasu takiej, że Z (1) i (2) wynika, że jest zwykle dystrybuowane z iY(τ) S(t) t τ=lnt
W przypadku modelu przekształconego bariery stają się stałymi niezależnymi od czasu równymi . Wiadomo następnie ( Nobile i in. 1985 ; Ricciardi i Sato, 1988 ), że pierwszy czas przejścia procesu OU przez te bariery jest w przybliżeniu wykładniczo rozkładany z pewnym parametrem (w zależności od barier w ) (szacowany na dla poniżej). Istnieje również dodatkowa masa punktowa o rozmiarze w . „Odrzucenie”±zα/2 T Y(τ) λ ±zα/2 λ^=0.125 α=0.05 α τ=0 H0 ostatecznie dzieje się z prawdopodobieństwem 1. Stąd (liczba obserwacji, które należy zebrać przed uzyskaniem „znaczącego” wyniku) w przybliżeniu odpowiada logarytmicznemu rozkładowi wykładniczemu o oczekiwanej wartości
Zatem ma skończone oczekiwanie tylko wtedy, gdy (wystarczająco duże poziomy znaczenia ).T=eT
Powyższe ignoruje fakt, że dla modelu rzeczywistego jest dyskretny, a prawdziwy proces jest dyskretny, a nie ciągły. Dlatego powyższy model przecenia prawdopodobieństwo przekroczenia bariery (i nie docenia ), ponieważ ścieżka próbki w czasie ciągłym może przekroczyć barierę tylko tymczasowo pomiędzy dwoma sąsiadującymi dyskretnymi punktami czasowymi i . Ale takie zdarzenia powinny mieć znikome prawdopodobieństwo dla dużego . E T t t + 1 tT ET t t+1 t
Poniższy rysunek pokazuje oszacowanie Kaplana-Meiera na skali log-log wraz z krzywą przeżycia dla wykładniczego przybliżenia ciągłego czasu (czerwona linia).P(T>t)
Kod R:
źródło
Trzeba powiedzieć, że powyższa dyskusja jest dla częstokroć postrzegającego świat, dla którego wielość pochodzi z szans, że dane są bardziej ekstremalne, a nie z szans, że dasz efekt, by istnieć. Główną przyczyną problemu jest to, że wartości p i błędy typu I wykorzystują warunkowanie przepływu informacji wstecz w czasie wstecznym, co sprawia, że ważne jest „jak się tu dostałeś” i co mogło się stać zamiast tego. Z drugiej strony paradygmat bayesowski koduje sceptycyzm co do wpływu na sam parametr, a nie na dane. To sprawia, że każde tylne prawdopodobieństwo należy interpretować tak samo, niezależnie od tego, czy obliczono kolejne tylne prawdopodobieństwo efektu 5 minut temu, czy nie. Więcej informacji i prosta symulacja można znaleźć na stronie http://www.fharrell.com/2017/10/continuous-learning-from-data-no.
źródło
Rozważamy badacza pobierającego próbkę o rozmiarze , , aby przetestować hipotezę . Odrzuca, jeśli odpowiednia statystyka testowa przekracza jego wartość krytyczną na poziomie . Jeśli nie, pobiera kolejną próbkę o rozmiarze , i odrzuca, jeśli test odrzuca próbkę łączoną . Jeśli nadal nie otrzyma odrzucenia, postępuje w ten sposób, łącznie do razy.x 1 θ = θ 0 t α c n x 2 ( x 1 , x 2 ) Kn x1 θ=θ0 t α c n x2 (x1,x2) K
Wydaje się, że ten problem został już rozwiązany przez P. Armitage, CK McPherson i BC Rowe (1969), Journal of the Royal Statistics Society. Seria A (132), 2, 235–244: „Powtarzane testy istotności gromadzonych danych” .
Nawiasem mówiąc omawiany tutaj bayesowski punkt widzenia na ten temat omówiono w Berger i Wolpert (1988), „Zasada wiarygodności” , sekcja 4.2.
Oto częściowa replikacja wyników Armitage'a i in. (Kod poniżej), który pokazuje, jak poziomy istotności zwiększają się, gdy , a także możliwe współczynniki korekcyjne w celu przywrócenia wartości krytycznych poziom . Pamiętaj, że wyszukiwanie siatki zajmuje trochę czasu - implementacja może być raczej nieefektywna.αK>1 α
Rozmiar standardowej reguły odrzucania jako funkcja liczby próbK
Rozmiar jako funkcja rosnących wartości krytycznych dla różnychK
Skorygowano wartości krytyczne, aby przywrócić 5% testów w funkcjiK
źródło