Potrzebny jest dobry przykład danych z zmienną towarzyszącą poddaną leczeniu

19

Przejrzałem wiele zestawów danych R, wpisów w DASL i innych miejscach i nie znajduję zbyt wielu dobrych przykładów interesujących zestawów danych ilustrujących analizę kowariancji danych eksperymentalnych. Istnieje wiele „zabawkowych” zbiorów danych z wymyślonymi danymi w podręcznikach statystycznych.

Chciałbym mieć przykład, w którym:

  • Dane są prawdziwe, z ciekawą historią
  • Istnieje co najmniej jeden czynnik leczenia i dwie zmienne towarzyszące
  • Na co najmniej jedną zmienną towarzyszącą wpływa jeden lub więcej czynników leczenia, a na leczenie nie ma wpływu.
  • Najlepiej raczej eksperymentalne niż obserwacyjne

tło

Moim prawdziwym celem jest znalezienie dobrego przykładu umieszczenia winiety dla mojego pakietu R. Ale większym celem jest to, że ludzie muszą zobaczyć dobre przykłady, aby zilustrować niektóre ważne obawy w analizie kowariancji. Rozważmy następujący wymyślony scenariusz (i proszę zrozumieć, że moja wiedza na temat rolnictwa jest w najlepszym razie powierzchowna).

  • Wykonujemy eksperyment, w którym nawozy są losowo przydzielane do działek, a rośliny są sadzone. Po odpowiednim okresie wzrostu zbieramy plony i mierzymy pewne cechy jakościowe - to zmienna odpowiedzi. Ale rejestrujemy również całkowite opady w okresie wegetacji oraz kwasowość gleby w czasie żniw - i, oczywiście, który nawóz został użyty. Mamy więc dwie zmienne towarzyszące i leczenie.

Zwykłym sposobem analizy uzyskanych danych byłoby dopasowanie modelu liniowego z traktowaniem jako czynnikiem i efektami addytywnymi dla zmiennych towarzyszących. Następnie, aby podsumować wyniki, oblicza się „skorygowane średnie” (AKA średnie najmniejszych kwadratów), które są prognozami z modelu dla każdego nawozu, przy średnich opadach i 3 średniej kwasowości gleby. To stawia wszystko na równi, ponieważ wtedy, gdy porównujemy te wyniki, utrzymujemy stałą ilość opadów i kwasowość.

Ale jest to prawdopodobnie niewłaściwa rzecz, ponieważ nawóz prawdopodobnie wpływa na kwasowość gleby, a także na reakcję. To powoduje, że skorygowane środki wprowadzają w błąd, ponieważ efekt leczenia obejmuje jego wpływ na kwasowość. Jednym ze sposobów poradzenia sobie z tym byłoby usunięcie kwasowości z modelu, a następnie środki skorygowane o opady zapewnią uczciwe porównanie. Ale jeśli kwasowość jest ważna, ta uczciwość wiąże się z dużymi kosztami, ponieważ zwiększa się zmienność resztkowa.

Istnieją sposoby obejścia tego problemu przy użyciu skorygowanej wersji kwasowości w modelu zamiast jej oryginalnych wartości. Nadchodząca aktualizacja mojego pakietu R. lsmeans sprawi, że będzie to wręcz łatwe. Ale chcę mieć dobry przykład, aby to zilustrować. Będę bardzo wdzięczny każdemu, kto może wskazać mi kilka dobrych przykładowych zestawów danych, i należycie go zaakceptuje.

rvl
źródło
1
Chociaż jest to bez wątpienia zarówno ważne, jak i interesujące pytanie, wydaje się, że mogłoby ono naruszać zasady dotyczące tego, co jest na temat : „ Pytania dotyczące uzyskiwania określonych zestawów danych są nie na temat (są zbyt wyspecjalizowane).
Glen_b -Reinstate Monica
1
Mam wrażenie, że dotychczasowe odpowiedzi są takie, że ostrożnie dajemy innym pytaniom takim jak ten czek in blanco, zdecydowanie orzekając na ich korzyść, ale głównie opowiadamy się za tym konkretnym pytaniem, a nawet trochę chcemy zobaczyć, co rodzaje odpowiedzi, które możesz uzyskać (może to tylko ja). To, czego nie chcielibyśmy, to źle napisane podróbki tego pytania, które wymagają zestawów danych, za pomocą których można udowodnić punkty za pomocą statystyk, ale nie o statystykach. Tj. To jedno, aby poprosić o pomoc w wykazaniu zasady statystycznej, ale innym byłoby poprosić o zestawy danych specyficzne dla domeny ...
Nick Stauner
3
OK, brzmi jak dobry pomysł. W przeszłości robiłem o wiele gorsze rzeczy, aby obniżyć moją reputację ...
rvl
2
@ SteveS Zgadzam się, że to dobry kandydat do nagrody; w rzeczy samej, po prostu przyszedłem tutaj, aby sam go nałożyć , aby odkryć, że Russ już to zrobił. Jeśli nie ma dobrych odpowiedzi w ciągu tygodnia, mógłbym rozważyć nadanie drugiej nagrody. Russ: nagrody za interesujące pytania zwykle przyciągają wystarczającą uwagę, że wynikające z nich głosy i tak często prawie za nie płacą, więc utrata reputacji często jest znacznie mniej stroma, niż się wydaje na pierwszy rzut oka.
Glen_b

Odpowiedzi:

6

Może chcesz sprawdzić mediationpakiet R. Obejmuje dane eksperymentalne, takie jak jobsi framinggdzie zmienna leczenia wpływa zarówno na zmienną odpowiedzi, jak i zmienne towarzyszące (tj. Mediatory efektu leczenia), a także zmienne, na które nie wpływa leczenie.

Zajrzałem do literatury mediacyjnej, ponieważ myślałem, że dokładnie opisałeś badanie mediacyjne: wpływ nawozu na jakość plonów jest zależny od jego wpływu na kwasowość gleby. Nawet jeśli zestawy danych w mediationpakiecie nie spełniają twoich oczekiwań, możesz je znaleźć, jeśli zajrzysz do literatury mediacyjnej.

Masato Nakazawa
źródło
Dzięki. Zainstalowałem pakiet i spojrzę na niego. I możliwość nauczenia się czegoś nowego.
rvl
Ciekawe, że dane o zadaniach zostały wspomniane w dwóch z trzech rozmów podczas sesji JSM, w której właśnie uczestniczyłem ...
rvl
1
Cóż, chciałbym jakoś podzielić nagrodę. Ale ten pakiet ma gotowe zestawy danych, które są bardzo odpowiednie do tego, o co prosiłem, więc @MasatoNakazawa otrzymuje nagrodę. Dzięki wielkie. Korzystając z framingdanych, wykresy interakcji LSmeans (oparte na modelu logistycznym), gdy zmienna mediacyjna jest utrzymywana na stałym poziomie, dramatycznie różnią się od tych, w których jest ustawiona na wartości prognozowane przez leczenie i inne zmienne towarzyszące, pokazując tym samym, jak ważne jest przyjęcie mediacji zmienna pod uwagę.
rvl
1
Dziękuję doktorze Lenth. Właściwie zacytowałem twoje artykuły w mojej rozprawie. Jestem zaszczycony, że w jakikolwiek sposób mogłem pomóc tak ustalonemu statystykowi jak ty.
Masato Nakazawa,
4

Pomyślałem, że pokażę, jak wychodzi analiza z jednym z zestawów danych w pakiecie mediacji . W framingeksperyment odbywa gdzie pacjenci mają możliwość wysyłania wiadomości do Kongresu w sprawie imigracji. Jednak niektórym podmiotom ( treat=1) po raz pierwszy pokazano historię, która przedstawia Latynosów w negatywny sposób. Oprócz odpowiedzi binarnej (niezależnie od tego, czy wysłali wiadomość) mierzyliśmy również empstan emocjonalny badanych po zastosowaniu leczenia. Istnieją również różne zmienne demograficzne.

Najpierw załadujmy potrzebne pakiety w R i zmień etykiety na educkrótsze ciągi.

> library("lsmeans")
> library("mediation")
> levels(framing$educ) = c("NA","Ref","< HS", "HS", "> HS","Coll +")

Teraz dopasuj model regresji logistycznej

> framing.glm = glm(cong_mesg ~ age + income + educ + emo + gender * factor(treat),
+                   family = binomial, data = framing)

Oto pokaz tradycyjnych dostosowanych środków, gdzie przepowiednie są wykonane ze zmiennych towarzyszących age, incomeoraz emookreślonych w ich średnich wartości:

> lsmip(framing.glm, treat ~ educ | gender, type = "response")

(Wykres interakcji konwencjonalnych „środków skorygowanych”, przekształcony do skali odpowiedzi)

Jest to ciekawy wynik, ponieważ przedstawione efekty leczenia są odwrotne dla kobiet niż u mężczyzn, a efekt edukacji nie jest monotonowy, jak można się spodziewać.

Należy jednak pamiętać, że emojest to pomiar po leczeniu. Oznacza to, że leczenie mogło na to wpłynąć, tj. emoJest zmienną towarzyszącą; i dlatego porównywanie prognoz zmiennej odpowiedzi może nie być sensowne, gdy jest emostała. Zamiast tego spójrzmy na przewidywania, w których emoustawiono podane przewidywane wartości treati zmienne demograficzne.

> lsmip(framing.glm, treat ~ educ | gender, type = "response",
+       cov.reduce = emo ~ treat*gender + age + educ + income)

(Wykres interakcji prognoz uwzględniający skutki mediacyjne)

Ten wynik jest zupełnie inny, co sugeruje, że emoodgrywa silną rolę mediatora. ( Pakiet mediacyjny ma funkcje szacowania siły tych efektów.) Powyższe prognozy sugerują, że biorąc pod uwagę reakcję emocjonalną, mężczyźni narażeni na negatywne wiadomości są bardziej skłonni do wysłania wiadomości niż kobiety lub osoby nie widzące historia negatywnych wiadomości. Ponadto efekt educjest (prawie) monotoniczny.

Jeszcze raz dziękuję @MasatoNakagawa za wskazanie mi tego interesującego przykładu i dostrojenie mnie do ostatnich badań nad przyczynowością.

rvl
źródło
3

Sprawdź badania GWAS dotyczące interakcji gen-środowisko. Analiza statystyczna, którą wykonują w zasadzie, jest tym, co opisałeś. Pytanie, czy twoje środowisko ma znaczenie dla fenotypu (cecha obserwowalna)? Jedna szkoła myślenia na ogół ignoruje wszystkie informacje środowiskowe i mówi, że twój układ genetyczny opisuje twój fenotyp. Jest to całkowicie sprzeczne z badaniami ekologicznymi, w których historia jest najważniejsza - środowisko ignoruje geny. Ponieważ obie strony próbują zrozumieć ten sam problem, podjęto ostatnio próby połączenia tych dwóch.

Powiedzmy, że studiujemy BMI. Pierwszych kilka głównych składników macierzy genetycznej bierzemy za stałe efekty wywołane przez geny. Edukację dopasowujemy do indeksu 1 dla osób dobrze wykształconych i 0 dla osób słabo wykształconych jako stały efekt. Istnieje dość silna korelacja między wskaźnikiem wykształcenia a zamożnością społeczności, z której pochodzi ta osoba. Można by argumentować, że społeczności o niskich dochodach częściej mają więcej restauracji typu fast food. Fast food działa jak wyzwalacz otyłości. „Wyzwala coś w twoim układzie genetycznym, co zachęca do gromadzenia się tłuszczu”, więc pojawi się w składzie genetycznym w jakiejś formie.

Symulacja takich danych nie stanowi problemu. Sprawdzać

http://pngu.mgh.harvard.edu/~purcell/plink/simulate.shtml

To pozwala symulować dane GWAS (traktuj to jako jednostki genetyczne) odpowiedzialne za objaw. Jeśli nie zostanie podane inaczej, wygeneruje 1000 z objawem i 1000 kontroli. Normą w tych symulacjach, których używam, jest 9990 SNP nie wywołujących objawów i 10 SNP. Przeczytaj instrukcje dotyczące ich symulacji.

Wynik będzie wynosił 1, jeśli osoba jest otyła i 0, jeśli nie jest. Symuluj czynniki edukacyjne (ukończone studia / nieukończone studia) w oparciu o rozsądną korelację z poziomem otyłości.

Mam nadzieję że to pomoże!!!

Sid
źródło
Dzięki. Nadal jednak trzymam się prawdziwych danych ... Poza tym nie jestem pewien, czym jest badanie GWAS. DUH, właśnie dowiedziałem się, klikając ten link.
rvl
Mimo że dałem nagrodę innemu respondentowi, doceniam tę sugestię i zamierzam ją zrealizować. Dzięki.
rvl
1

Poleciłbym przeczytać Freakonomics i znaleźć dokumenty, na których opiera się ich praca, i sprawdzić, czy możesz pobrać te dane. Mają naprawdę interesującą pracę nad naprawdę interesującymi zbiorami danych, aw niektórych przypadkach wymyślają bardzo sprytne sposoby testowania hipotez pomimo ograniczeń danych.

Nir Friedman
źródło