Czy randomizacja jest wiarygodna w przypadku małych próbek?

11

Jerome Cornfield napisał:

Jednym z najwspanialszych owoców rewolucji fisheryjskiej była idea randomizacji, a statystycy, którzy zgadzają się co do kilku innych rzeczy, przynajmniej się na to zgodzili. Ale pomimo tego porozumienia i pomimo powszechnego stosowania losowych procedur przydziału w badaniach klinicznych i innych formach eksperymentów, jego logiczny status, tj. Dokładna funkcja, jaką wykonuje, jest nadal niejasny.

Cornfield, Jerome (1976). „Najnowsze wkłady metodologiczne w badania kliniczne” . American Journal of Epidemiology 104 (4): 408–421.

W całej tej witrynie oraz w różnorodnej literaturze konsekwentnie widzę pewne twierdzenia na temat możliwości randomizacji. Częsta jest silna terminologia, taka jak „ eliminuje problem mylących zmiennych”. Zobacz tutaj , na przykład. Jednak wiele razy eksperymenty przeprowadzane są z małymi próbkami (3-10 próbek na grupę) ze względów praktycznych / etycznych. Jest to bardzo powszechne w badaniach przedklinicznych z wykorzystaniem zwierząt i kultur komórkowych, a naukowcy często zgłaszają wartości p na poparcie swoich wniosków.

Zastanawiam się, jak dobra jest randomizacja w zakresie równoważenia błędów. Dla tego wykresu zamodelowałem sytuację porównując grupy leczenia i kontrolne z jedną pomyłką, która mogłaby przyjąć dwie wartości z szansą 50/50 (np. Typ 1 / typ 2, mężczyzna / kobieta). Pokazuje rozkład „% niezrównoważonego” (Różnica w liczbie typu 1 między próbkami kontrolnymi i kontrolnymi podzielonymi przez wielkość próbki) dla badań różnych małych próbek. Czerwone linie i osie po prawej stronie pokazują plik ecdf.

Prawdopodobieństwo różnych stopni równowagi przy randomizacji dla małych wielkości próby: wprowadź opis zdjęcia tutaj

Dwie rzeczy są jasne z tego wątku (chyba że gdzieś popełniłem błąd).

1) Prawdopodobieństwo uzyskania dokładnie wyważonych próbek maleje wraz ze wzrostem wielkości próbki.

2) Prawdopodobieństwo otrzymania bardzo niezrównoważonej próbki maleje wraz ze wzrostem wielkości próbki.

3) W przypadku n = 3 dla obu grup istnieje 3% szansy na uzyskanie całkowicie niezrównoważonego zestawu grup (wszystkie typu 1 w kontroli, wszystkie typu 2 w leczeniu). N = 3 jest powszechny w eksperymentach biologii molekularnej (np. Mierzy mRNA za pomocą PCR lub białek za pomocą western blot)

Kiedy dalej badałem przypadek n = 3, zaobserwowałem dziwne zachowanie wartości p w tych warunkach. Lewa strona pokazuje ogólny rozkład wartości pv obliczanych za pomocą testów t w warunkach różnych średnich dla podgrupy typu 2. Średnia dla typu 1 wynosiła 0, a sd = 1 dla obu grup. Prawe panele pokazują odpowiednie fałszywie dodatnie wskaźniki dla nominalnych „wartości odcięcia istotności” od 0,05 do 0001.

Rozkład wartości p dla n = 3 z dwiema podgrupami i różnymi średnimi drugiej podgrupy w porównaniu z testem t (10000 serii Monte Carlo): wprowadź opis zdjęcia tutaj

Oto wyniki dla n = 4 dla obu grup: wprowadź opis zdjęcia tutaj

Dla n = 5 dla obu grup: wprowadź opis zdjęcia tutaj

Dla n = 10 dla obu grup: wprowadź opis zdjęcia tutaj

Jak widać na powyższych wykresach, wydaje się, że istnieje interakcja między wielkością próby a różnicą między podgrupami, która powoduje różne rozkłady wartości p pod hipotezą zerową, które nie są jednolite.

Czy możemy zatem wyciągnąć wniosek, że wartości p nie są wiarygodne dla właściwie randomizowanych i kontrolowanych eksperymentów z małą wielkością próby?

Kod R dla pierwszego wykresu

require(gtools)

#pdf("sim.pdf")
par(mfrow=c(4,2))
for(n in c(3,4,5,6,7,8,9,10)){
  #n<-3
  p<-permutations(2, n, repeats.allowed=T)

  #a<-p[-which(duplicated(rowSums(p))==T),]
  #b<-p[-which(duplicated(rowSums(p))==T),]

  a<-p
  b<-p

  cnts=matrix(nrow=nrow(a))
  for(i in 1:nrow(a)){
    cnts[i]<-length(which(a[i,]==1))
  }


  d=matrix(nrow=nrow(cnts)^2)
  c<-1
  for(j in 1:nrow(cnts)){
    for(i in 1:nrow(cnts)){
      d[c]<-cnts[j]-cnts[i]
      c<-c+1
    }
  }
  d<-100*abs(d)/n

  perc<-round(100*length(which(d<=50))/length(d),2)

  hist(d, freq=F, col="Grey", breaks=seq(0,100,by=1), xlab="% Unbalanced",
       ylim=c(0,.4), main=c(paste("n=",n))
  )
  axis(side=4, at=seq(0,.4,by=.4*.25),labels=seq(0,1,,by=.25), pos=101)
  segments(0,seq(0,.4,by=.1),100,seq(0,.4,by=.1))
  lines(seq(1,100,by=1),.4*cumsum(hist(d, plot=F, breaks=seq(0,100,by=1))$density),
        col="Red", lwd=2)

}

Kod R dla wykresów 2-5

for(samp.size in c(6,8,10,20)){
  dev.new()
  par(mfrow=c(4,2))
  for(mean2 in c(2,3,10,100)){
    p.out=matrix(nrow=10000)

    for(i in 1:10000){

      d=NULL
      #samp.size<-20
      for(n in 1:samp.size){
        s<-rbinom(1,1,.5)
        if(s==1){
          d<-rbind(d,rnorm(1,0,1))
        }else{
          d<-rbind(d,rnorm(1,mean2,1))
        }
      }

      p<-t.test(d[1:(samp.size/2)],d[(1+ samp.size/2):samp.size], var.equal=T)$p.value

      p.out[i]<-p
    }


    hist(p.out, main=c(paste("Sample Size=",samp.size/2),
                       paste( "% <0.05 =", round(100*length(which(p.out<0.05))/length(p.out),2)),
                       paste("Mean2=",mean2)
    ), breaks=seq(0,1,by=.05), col="Grey", freq=F
    )

    out=NULL
    alpha<-.05
    while(alpha >.0001){

      out<-rbind(out,cbind(alpha,length(which(p.out<alpha))/length(p.out)))
      alpha<-alpha-.0001
    }

    par(mar=c(5.1,4.1,1.1,2.1))
    plot(out, ylim=c(0,max(.05,out[,2])),
         xlab="Nominal alpha", ylab="False Postive Rate"
    )
    par(mar=c(5.1,4.1,4.1,2.1))
  }

}
#dev.off()
Kolba
źródło
Z początku twój opis warunków i problemu był trochę trudny do zrozumienia. Typ I i ​​typ II to terminy techniczne, które różnią się od korzystania z podgrupy typu 1 i podgrupy typu 2. O ile mogę ci powiedzieć, stosujesz test t do danych z rozkładu za pomocą mieszanki środków. Czy to prawda?
Michael Lew
Tak, mieszanka dwóch normalnych rozkładów. „typ 1” odnosi się do N (0,1), typ2 to N (średnia2,1). Gdzie średnia2 = (2,3,10 lub 100). Przepraszam, że mogłem zmienić go na typ A, typ B, jeśli uważasz, że to pomogłoby?
Flask

Odpowiedzi:

4

Masz rację, wskazując ograniczenia randomizacji w postępowaniu z nieznanymi zmiennymi mylącymi dla bardzo małych próbek. Problem nie polega jednak na tym, że wartości P nie są wiarygodne, ale na tym, że ich znaczenie zmienia się w zależności od wielkości próby i zależności między założeniami metody a rzeczywistymi właściwościami populacji.

Przyjmuję twoje wyniki, że wartości P działały całkiem dobrze, dopóki różnica w średnich podgrup nie była tak duża, że ​​każdy rozsądny eksperymentator wiedziałby, że wystąpił problem przed wykonaniem eksperymentu.

Pomysł, że eksperyment można przeprowadzić i przeanalizować bez odniesienia do właściwego zrozumienia natury danych, jest błędny. Przed analizą małego zestawu danych musisz wiedzieć wystarczająco dużo o danych, aby móc w sposób pewny bronić założeń ukrytych w analizie. Taka wiedza zwykle pochodzi z wcześniejszych badań z wykorzystaniem tego samego lub podobnego systemu, badań, które mogą być formalnie opublikowanymi pracami lub nieformalnymi „wstępnymi” eksperymentami.

Michael Lew
źródło
Zgadzam się ze wszystkim, co powiedziałeś, jednak testy t są często przeprowadzane „rytualnie”, jak to ująłby Gerd Gigerenzer. W praktyce osoby przeprowadzające te testy nie mają czasu / ochoty na zrozumienie niuansów tego, co robią. Z tego powodu myślę, że przymiotnik „zawodny” może być trafny. Znam badaczy, którzy, kiedy pytasz o rozkład (czy był tam jeden wysoki, lub co spowodowało tak duży pasek błędów?) Nigdy go nie oglądał.
Flask
1
Cóż, to, co naprawdę oznacza wartość P, różni się raczej od tego, co zakłada większość ludzi. Nawet wiele artykułów krytykujących wartości P jako „nie do pogodzenia z dowodami” i tym podobne są w błędzie. Wczoraj przesłałem artykuł na arXiv, który bada właściwości wartości P i pokazuje, w jaki sposób odnoszą się one do rodzaju dowodów, z których mogą korzystać eksperymentatorzy. Jego tytuł brzmi „Do P lub nie do P: na dowodowy charakter wartości P i ich miejsce w wnioskach naukowych”, a jej numer arXiv to 826269. Powinien być dostępny od poniedziałku.
Michael Lew
Czy mógłbyś rzucić okiem na to pytanie, które nie zyskało miłości z jakiegokolwiek powodu? . Zgadzam się, że wartości p są czymś, a twój artykuł może to wyjaśnić, ale jako badacz muszę wyjaśnić, że buty na ziemi pow to, że nas zawiodły. Z powodu niewłaściwego użycia lub wrodzonej niestosowności nie jest to jasne. Zadałem tutaj szereg pytań, próbując uzyskać na ten temat punkt widzenia statystyk.
Flask
2

W badaniach ekologicznych nielosowe przypisywanie zabiegów do jednostek doświadczalnych (badanych) jest standardową praktyką, gdy próbki są małe i istnieją dowody na istnienie co najmniej jednej mylącej zmiennej. To nielosowe przypisanie „przeplata” badanych w spektrum potencjalnie mylących zmiennych, i dokładnie to powinno zrobić losowe przypisanie. Ale przy małych próbkach losowość jest w tym przypadku bardziej niekorzystna (jak pokazano powyżej) i dlatego oparcie się na niej może być złym pomysłem.

Ponieważ w większości dziedzin zdecydowanie zaleca się randomizację (i słusznie), łatwo jest zapomnieć, że ostatecznym celem jest zmniejszenie uprzedzeń, a nie przestrzeganie ścisłej randomizacji. Jednak obowiązkiem badacza (ów) jest skuteczne scharakteryzowanie zestawu zmiennych wprowadzających w błąd i wykonanie przypisania nielosowego w sposób możliwy do obrony, który jest ślepy na wyniki eksperymentów i wykorzystuje wszystkie dostępne informacje i kontekst.

Podsumowanie znajduje się w s. 192–198 w Hurlbert, Stuart H. 1984. Pseudoreplikacja i projektowanie eksperymentów terenowych. Monografie ekologiczne 54 (2) s. 187–211.

Darren James
źródło
Z przyjemnością to przeczytałem, ale obawiam się, że twoje użycie „stronniczości” w przedostatnim akapicie może być błędnie odczytane, ponieważ termin ten ma określone znaczenie statystyczne, które spowodowałoby, że twoje stwierdzenie byłoby nieprawidłowe. Czy raczej nie próbujesz powiedzieć, że randomizacja ma na celu zapobieganie myleniu (forma „stronniczości” w znaczeniu potocznym), a nie zmniejszanie stronniczości (jako miary niedokładności estymatora)?
whuber
Mam na myśli tendencyjność w sensie statystycznym. W statystyce „obciążenie” to różnica między statystyką a parametrem, który szacuje. Jak wspomniałeś, błąd systematyczny estymatora jest różnicą między wartością oczekiwaną estymatora a rzeczywistą wartością szacowanego parametru. W moim poście przez „odchylenie” miałem na myśli różnicę między statystykami obliczonymi na podstawie danych a parametrami, które szacują - na przykład między średnią próbki (x bar) a rzeczywistą średnią (mu).
Darren James
O ile mi wiadomo, losowe pobieranie próbek nie jest stosowane w celu zmniejszenia stronniczości, ani w wielu okolicznościach nie można skutecznie twierdzić, że zmniejsza to stronniczość.
whuber
Mylisz się. Podstawowym celem randomizacji jest symulacja efektu niezależności. Odbywa się to poprzez wyeliminowanie uprzedzeń wynikających z systematycznego przypisywania leczenia podmiotom. Te tendencje powodują niedokładne oszacowania - co najważniejsze, tendencyjne oszacowania wariancji - i utratę kontroli nad błędami Typu I i II. Nawet mylące zmienne (które tak naprawdę oznaczają brak niezależności) są po prostu przypadkiem pominięcia zmienności. Ale nie musisz mi wierzyć na słowo… Jeśli nie przekonuje Cię powyższy artykuł Hurlburt, oto kilka innych źródeł do konsultacji:
Darren James
Cochran, WG i GM Cox. 1957. Projekty eksperymentalne. Nowy Jork: Wiley. Federer, WT 1955. Projekt eksperymentalny. Nowy Jork: Macmillan. Hinkelmann, K., i Kempthorne, O. 1994. Projektowanie i analiza eksperymentów. Wiley: Nowy Jork. Kuehl, RO 2000. Projektowanie eksperymentów: statystyczne zasady projektowania i analizy badań. Belmont, Kalifornia: Brooks / Cole.
Darren James