Potencjalne zamieszanie w projekcie eksperymentu

Omówienie pytania

Ostrzeżenie: To pytanie wymaga wielu ustawień. Proszę o wyrozumiałość.

Mój kolega i ja pracujemy nad projektem eksperymentu. Projekt musi obejść wiele ograniczeń, które wymienię poniżej. Opracowałem projekt, który spełnia ograniczenia i daje nam obiektywne oceny naszych efektów zainteresowania. Jednak mój kolega uważa, że w projekcie występuje zamieszanie. Argumentowaliśmy ten punkt ad nauseum bez dojścia do rezolucji, dlatego w tym miejscu chciałbym uzyskać opinie z zewnątrz.

Opiszę cel badania, nasze ograniczenia, potencjalne zamieszanie i dlaczego uważam, że to „zamieszanie” nie stanowi problemu poniżej. Czytając każdą sekcję, pamiętaj o moim ogólnym pytaniu:

Czy opisany przeze mnie projekt zawiera błąd?

[Szczegóły tego eksperymentu zostały zmodyfikowane, ale podstawowe elementy wymagane do zadania mojego pytania pozostają takie same]

Cele eksperymentu

Chcemy ustalić, czy eseje napisane przez białych mężczyzn są oceniane bardziej korzystnie niż eseje napisane przez białe kobiety, czarne kobiety czy czarne kobiety ( zmienna autorstwa eseju ). Chcemy również ustalić, czy jakieś odchylenie, które znajdziemy, pojawia się częściej w dotacjach o wysokiej lub niskiej jakości ( zmienna jakości ). Na koniec chcemy zamieścić eseje na temat 12 różnych tematów ( zmienna tematyczna ). Jednak tylko dwie pierwsze zmienne mają istotne znaczenie; chociaż temat musi się różnić w zależności od eseju, nie jesteśmy istotnie zainteresowani tym, jak oceny różnią się w zależności od tematu.

Ograniczenia

Istnieją ograniczenia zarówno liczby uczestników, jak i liczby esejów, które możemy zebrać. W rezultacie autorstwo nie może być całkowicie zmanipulowane między uczestnikami, ani nie może być zmanipulowane całkowicie między esejami (tj. Każdy indywidualny esej musi być przypisany do wielu warunków).
Chociaż każdy esej może zawierać wersje Biały mężczyzna, Biała kobieta, Czarny mężczyzna i Czarna kobieta, każdy esej może być tylko wysokiej i niskiej jakości i może dotyczyć tylko jednego tematu. Lub, mówiąc inaczej, nie można manipulować ani jakością, ani tematem w esejach, ponieważ są one nieodłączną cechą danego eseju.
Ze względu na zmęczenie istnieje ograniczenie liczby esejów, które dany uczestnik może ocenić.
Wszystkie eseje, które czyta dana osoba, muszą dotyczyć jednego tematu. Innymi słowy, eseje nie mogą być przypisywane całkowicie losowo uczestnikom, ponieważ musimy upewnić się, że każdy uczestnik czyta tylko eseje o podobnym temacie.
Każdy uczestnik może wyświetlić tylko jeden esej rzekomo autorstwa autora niebędącego białym mężczyzną, ponieważ nie chcemy, aby uczestnicy byli podejrzliwi co do celu eksperymentu, ponieważ zbyt wiele ich esejów zostało napisanych przez czarnych lub żeńskich autorów.

Proponowany projekt

Mój proponowany projekt najpierw przekształca każdy esej w 4 różne wersje autorstwa (biały mężczyzna, biała kobieta itp.). Cztery eseje z podobnego tematu są następnie wykorzystywane do zdefiniowania „zestawu”, z których każdy składa się z dwóch esejów wysokiej i dwóch niskiej jakości. Każdy uczestnik otrzymuje trzy eseje z danego zestawu, jak pokazano na poniższym rysunku. Każdy uczestnik przyznaje następnie jedną ocenę każdemu z trzech esejów, które został mu przypisany.

Projekt eksperymentu

Potencjalne zamieszanie

Mój kolega uważa, że powyższy projekt zawiera zamieszanie. Mówi, że problem polega na tym, że gdy esej o wysokiej jakości jest przypisany do napisania przez pisarza innego niż biały, zawsze jest on łączony z jednym esejem o wysokiej jakości i jednym esejem o niskiej jakości (esej 1, patrz Uczestnicy 1-3 Na rysunku). Z drugiej strony, gdy ten sam esej zostanie przypisany do napisania przez białych pisarzy płci męskiej, zostanie on trzy razy połączony z jednym esejem wysokiej jakości i jednym esejem niskiej jakości (dla eseju 1, uczestnicy 4-6) i dwoma esejami niskiej jakości trzy razy (dla eseju 1, uczestnicy 7-9).

Podobny problem istnieje w przypadku esejów niskiej jakości. Kiedy esej niskiej jakości ma autora innego niż biały, zawsze jest widoczny z esejem niskiej jakości i esejem wysokiej jakości (esej 3, patrz Uczestnicy 7-9). Jednak, gdy ten sam esej ma białego autora, jest wyświetlany trzykrotnie jeden esej wysokiej jakości i jeden esej niskiej jakości (dla eseju 3, uczestnicy 10-12) i trzykrotnie dla eseju wysokiej jakości (dla eseju 3, Uczestnicy 1-3).

Powodem, dla którego powyższe wzorce mogą być problematyczne, jest założenie, że istnieją „efekty kontrastowe”. W szczególności, jeśli eseje wysokiej jakości są oceniane bardziej korzystnie średnio, gdy są połączone z dwoma esejami niskiej jakości niż gdy są połączone z jednym esejem niskiej jakości i jednym esejem wysokiej jakości (rozsądne założenie), białe eseje męskie mogą otrzymać wyższe oceny niż Eseje o białych kobietach, czarnych mężczyznach i czarnych kobietach z powodów innych niż autorstwo.

Efekt kontrastu dla esejów wysokiej jakości może, ale nie musi być zrównoważony efektem kontrastu dla esejów niskiej jakości; to znaczy może być lub nie być tak, że eseje niskiej jakości w połączeniu z dwoma esejami o wysokiej jakości są oceniane szczególnie niekorzystnie. Niezależnie od tego, jak twierdzi mój kolega, potencjał wszelkiego rodzaju efektów kontrastowych sprawia, że ten projekt jest problematyczny w celu ustalenia, czy eseje autorstwa białych mężczyzn są oceniane bardziej korzystnie niż eseje innych autorów.

Dlaczego uważam, że potencjalne zamieszanie nie stanowi problemu

Dla mnie ważne jest to, czy jesteśmy w stanie oszacować stopień, w jakim eseje o białych mężczyznach są oceniane inaczej niż inne eseje (tj. Czy możemy oszacować nasze interesujące efekty), nawet w obecności efektów kontrastowych. Dlatego przeprowadziłem symulację, w której zasymulowałem 50 zestawów danych zawierających efekty kontrastu i dopasowałem model, który testuje nasze interesujące efekty.

Konkretny model to model efektów mieszanych z losowymi przechwytywaniami eseju (każdy esej jest oceniany przez wielu uczestników) i uczestnika (każdy z uczestników ocenia wiele esejów). Poziom eseju zawiera również losowe nachylenia dla rasy, płci i ich interakcji (obie zmienne są manipulowane w eseju), a poziom uczestnika zawiera losowe nachylenie dla jakości (jakość jest manipulowana wśród uczestników). Efektami zainteresowania są: rasa, płeć, interakcja między rasą a płcią oraz interakcje wyższego rzędu między każdą z tych zmiennych i jakością. Celem tej symulacji było ustalenie, czy wprowadzenie do danych efektów kontrastu spowodowałoby fałszywe skutki dla rasy, płci, interakcji między rasą a płcią, oraz interakcje wyższego rzędu między tymi zmiennymi a jakością. Aby uzyskać więcej informacji, zobacz fragment kodu poniżej.

Zgodnie z symulacją obecność efektów kontrastu nie wpływa na szacunki żadnego z naszych interesujących efektów. Ponadto wielkość efektu kontrastu można oszacować w tym samym modelu statystycznym, co inne efekty w projekcie; dla mnie to już sugeruje, że „efekty kontrastu” zidentyfikowane przez mojego kolegę nie są mylące. Mój kolega pozostaje jednak sceptyczny.

require(lme4)
require(plyr)

participant <- rep(1:12, 3)
essay <- c(rep(1, 9), rep(2, 9), rep(3, 9), rep(4, 9))
quality <- ifelse(essay == 1 | essay == 2, "high", "low")
race <- c("white", "black", "black", "white", "white", "white", "white", "white", "white",
          "white", "white", "white", "white", "white", "white", "white", "black", "black",
          "white", "black", "black", "white", "white", "white", "white", "white", "white",
          "white", "white", "white", "white", "white", "white", "white", "black", "black")
gender <- c("female", "male", "female", "male", "male", "male", "male", "male", "male",
            "male", "male", "male", "male", "male", "male", "female", "male", "female",
            "female", "male", "female", "male", "male", "male", "male", "male", "male",
            "male", "male", "male", "male", "male", "male", "female", "male", "female")

d <- data.frame(participant, essay, quality, race, gender)

for(i in 1:35)
{
  participant <- participant + 12
  essay <- essay + 4
  newdat <- data.frame(participant, essay, quality, race, gender)

  d <- rbind(d, newdat)
}

check_var <- function(var)
{
  tab <- table(var)
  newvar <- character()

  for(i in var)
  {
    if(i == names(tab[tab == 1]))
    {
      newvar <- c(newvar, "different")
    } else
    {
      newvar <- c(newvar, "same")
    }
  }

  return(newvar)
}

# Mark, for a given participant, which essay is "different"
d <- ddply(d, "participant", mutate, different = check_var(quality))

# Make each variable numeric for the purposes of the simulation
d$quality <- ifelse(d$quality == "low", -.5, .5)
d$race <- ifelse(d$race == "black", -.5, .5)
d$gender <- ifelse(d$gender == "female", -.5, .5)
d$different <- ifelse(d$different == "same", -.5, .5)

# Random seed
set.seed(2352)

# Number of simulations
reps <- 50
# Create a storage space for the effects
effs <- matrix(NA, ncol = 10, nrow = reps)

# For each simulation
for(i in 1:reps)
{
  # Fixed effects.  A quality effect and a contrast effect for quality
  d$score <- .5 * d$quality + 1 * d$different * d$quality

  # Random effects at the participant level
  d <- ddply(d, "participant", mutate, r_int = rnorm(1, sd = .5),
             r_q = rnorm(1, sd = .5),
             score = score + r_int + r_q * quality)

  # Random effects at the essay level
  d <- ddply(d, "essay", mutate, g_int = rnorm(1, sd = .5),
             g_r = rnorm(1, sd = .5),
             g_g = rnorm(1, sd = .5),
             g_r_g = rnorm(1, sd = .5),
             score = score + g_int + g_r * race + g_g * gender + g_r_g * race * gender)

  # Observation-level error
  d$score <- d$score + rnorm(dim(d)[1], sd = 1)

  # Fit the model
  mod <- lmer(score ~ race * gender * quality + different * quality + (race * gender | essay) + (quality | participant), data = d)

  # Store the coefficients
  colnames(effs) <- names(fixef(mod))
  effs[i, ] <- fixef(mod)

  # Print the current simulation
  print(i)
}

# Results
round(colMeans(effs), digits = 2)

        (Intercept)                race              gender             quality 
               0.00               -0.03                0.02                0.50 
          different         race:gender        race:quality      gender:quality 
               0.01               -0.03                0.00                0.03 
  quality:different race:gender:quality 
               0.97               -0.02

Ponownie moje ogólne pytanie brzmi: czy jest jakiś błąd w opisanym przeze mnie projekcie? Jeśli pomyłka nie jest obecna, byłbym zainteresowany opisem, dlaczego potencjalne „efekty kontrastu” nie są pomieszane, abym mógł to wyjaśnić mojemu koledze.

mixed-model experiment-design simulation confounding Patrick S. Forscher
źródło

Tylko komentarz: jak będą oceniane eseje? Pytam, ponieważ jeśli zamierza się zastosować wielu mierników, musisz pamiętać, że oceny różnych mierników nie są bardzo spójne, więc powinieneś również pamiętać o zmienności między miernikami.

Tim

Każdy uczestnik przyznaje jedną ocenę każdemu z trzech esejów, do których jest przypisany.

Patrick S. Forscher,

Do treści pytania dodałem szczegóły dotyczące procedury oceny.

Patrick S. Forscher,

Czy dla tych, którzy nie znają lmer (), możesz krótko wyjaśnić analizę i „efekty zainteresowania”?

Anthony

Nie ma problemu, @Anthony. Dodałem te szczegóły do pytania.

Patrick S. Forscher,

Potencjalne zamieszanie w projekcie eksperymentu

Odpowiedzi: